计算机技术文本分类中的语义分析算法的实践探讨

2019-10-08 06:27杨凡任丹丁函
软件 2019年6期
关键词:语义分析文本分类计算机技术

杨凡 任丹 丁函

摘  要: 大数据时代的到来,为人们带来大量的文本信息,而如何在文本信息中搜寻有效信息,成为人们关注重点。文本分类技术是一项以人工技能为基础的新型技术,其能够根据语义分析将计算机技术文本进行科学分类,帮助人们获得其想要的信息,满足群众的需求。对此,文章基于语义分析,探讨了文本分类技术的应用。

关键词: 语义分析;计算机技术;文本分类

中图分类号: TP391.1    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.06.017

本文著录格式:杨凡,任丹,丁函. 计算机技术文本分类中的语义分析算法的实践探讨[J]. 软件,2019,40(6):7880

【Abstract】: The arrival of the era of big data has brought a lot of text information to people, and how to search for effective information in text information has become the focus of attention. Text classification technology is a new technology based on artificial skills. It can scientifically classify computer technical texts according to semantic analysis, helping people to get the information they want and meet the needs of the masses. In this regard, the article based on semantic analysis, explores the application of text classification technology.

【Key words】: Semantic analysis; Computer technology; Text classification

0  引言

文本分类技术[1]作为人工智能的一部分,是大数据时代衍生出的新技术,语义分析是脚本编译过程的逻辑阶段,审查源程序的上下文是否存在语义错误,为代码的生成收集其所需的信息。当前,在文本分析技术应用时,常用的文本分类算法主要有:决策树、神经网络、Rocchio、KNN、最大熵、遗传算法等[2],随着数据信息的不断增多,文本信息的碎片化越发严重,传统的文本分析算法已经无法满足需求。对此,文章探讨了语义分析算法在文本分类中的应用。

1  国内外对文本分类的发展

文本分类,国外对其的研究较早,在上世纪五十年代,IBM公司就提出了以词频统计对文本进行分类,在文本分类方面取得了开创性成果,之后,国外对文本分类展开深入研究,由实验室到商业应用,取得了显著成效。上世纪九十年代之前,文本分类主要有专业人员实现,以纯人工方式达到文本分类目的,耗费时间长,效率较低。九十年代以后,文本分类的重要性越发凸显,传统人工分类方式被淘汰,以机器学习成为文本分类的新模式,不需要专家判断,即可完成文本分类,分类效率显著提高。

国外在文本分类领域研究较早,并取得了显著成果,如:Web网络自动分类系统,新闻稿件的自动投稿系统等。

相对来讲,我国在文本分类方面研究较晚,因为中英文的差异,仅能参考国外研究成果,却不能完全采用。同时,计算机设计以西方国家语言为主,文字编码存在较大问题,为此,我国多位学者加大力度研究,并于上世纪八十年代解决汉字编码这一难点,推动了我国文本分类的发展。当前,我国常用文档分类方式大致可分为两种:其一,基于统计学进行分类,以机器学习原理,对文本进行分类,该方式与文档语义信息没有直接关联性。其二,基于语义对文本进行分类,利用文档的语义将文本内容分为不同种类。文章对语义分析在文本分类中的应用展开探析。

2  文本分类的概念与过程

文本分类,主要是利用计算机以一定的标准对文本进行自动分类标记,文本分类通常包含有文本表达、分类器选择、分类器训练、分类结果评价、反馈等[3],其中,文本表达又被分为文本预处理、索引、统计以及特征抽取。预处理,主要是将原始文本的格式进行统一,为后续处理奠定基础;索引,主要是将文档分解,形成基本处理单元,以此降低后续处理开销;统计,主要包括词频的统计,单词、概念与分类的概率;特征抽取,由文档中抽取特征,展现文档主题。因为文本分类主要是依照分类文档的内容进行划分的,用以数学中的术语表示;若文档集D=(d1, d2, d3,…, dn),其中,dn表示第n个文档,将C代表文档种类,C=(c1, c2, c3,…, ci),其中,ci代表拥有i个文档种类。假设文档集与文档种类间有如下函数映射:D*C→{True, False},寻找目标可依照如下公式:D*C→{True, False},其中,代表分类器。若(d5, c7)=True,则代表文本d5被归入c7中;若(d5, c7)=False,则表示d5不属于c7。

文本分类[4]主要包含以下两步:使用训练数据对分类器进行训练;使用测试数据对分类器进行评价。具体步骤如下:其一,应确定训练与测试文档,保障两种文档的标签化;其二,将训练文档预处理;其三,以特征选择得到特征向量,保障特征向量能够有效区分多个文档,优化特征子集;其四,将分类算法所支持的训练数据文件进行输出,如:别名称、特征词、数字编号等的输出,以此满足分类算法学习对格式的需求;其五,对测试数据进行预处理,通过分词、去停词,对最优的特种子集进行加载,删除特征子集外的单词,以此保障测试数据的准确性。其六,将分类算法所支持且量化的測试数据文件进行输出,使分类算法学习训练数据集,以此取得文本分类器。最后,利用测试数据,对分类器精度进行验证。

3  分析计算机技术文本分类的需求

3.1  基本流程

在计算机技术文本分类时,因计算机本身的智能性,在识别文本分类时,并不需要另外添加更智能的识别方式,以传统的语义分析模式即可。语义分析的应用,通过对文本关键词的组合,准确识别文本内容,并将文本分为不同的种类。文章以五百字符内的自然文本为例,探讨了语义分析对其的分类。通常,自然文本多用于对网络页面文本进行分析,也被应用于识别内容文本与代码段,内容文本主要是指捕捉的超文本标识代码。其具体流程图如图1所示。

3.2  基本模块

语义分析法是一种传统脚本编译算法,通常情况下,语义分析只能对人工输入的特定文本进行分类,且识别关键词较少,大多在80-120个之间。然而,在对自然文本分类时,如此規模根本无法满足自然文本500字符的需求。基于此,为在自然文本分类中发挥语义分析的作用,笔者选择了采用三层识别,以此将自然文本准确划分为不同模块,模块H图如图2所示。

第一,在文本中选择适当的关键词,识别超文本内的标识段数据,将数据剔除。第二,根据互联网中自学习关键词,识别自然文本中的关键词,并依照词频与关联度判断其的价值。第三,依照自学习的关键词,对自然文本的概念进行识别,对不同的文本段进行识别,并依照其相似度归纳文本段。

3.3  数据比较

在比较模块中,若输入数据A1.1,则该数据可看做是前置比较的关键词,数据的作用主要是:帮助字段辅助识别字符串。如:在超文本的文本标识中,将数据输入其中,则数据能够帮助识别标识字符串。

在比较模块中,输入数据A1.2,则该数据可看做是一次比较的关键词,数据来源于自然文本,是文本中常见字符串,极易被用户搜索。通过对海量信息进行比较,所得字符串既该部分字符串。其中,海量信息的主要来源是互联网。

在比较模块中,输入数据A1.3,则该数据可看作是补充比较的关键词,该数据主要来源是A1.2,通过语义分析得到了数据A1.3。

由上文可知,语义分析之所以在自然文本分析中有效应用,选择的是三层计算,在语义分析应用时,面对文本的多层架构,应通过不限制递归法,保障语义分析对文本的识别与分类[5]。因此,比较模块的数据流较为简单。若将AL1看做比较模块输出的数据流,则AL1被成为是比较结果字符串。虽然,语义分析的应用,并不能像人脑一样对计算机文本进行有效识别,但是,字符串所提供的镜像,也能够对模糊语言识别并通过对比对文本准确分类,识别效率明显高于人工,识别质量并不低。

4  语义分析算法的设计

在比较模块中,前置比较主要是对超文本的对比计算,其运用的算法为语义分析,是当前文本分类中最经典的算法。在一次比较和补充比较中,采用的算法时语义分析的延伸,以此保障语义分析法在自然语言文本分析中更为适用。本文在采用语义分析法比较自然语言的文本时,因使用了最小CPU,并引入RAM资源,所得的软件更为高效,也更适用于现在互联网的云服务中。

4.1  超文本对比函数算法

该种算法可直接通过以下编码进行计算。

4.2  实现数据逻辑网络

数据逻辑网络,主要是指在数据库采用数据结构,实现数据的一种逻辑网络,在网络中,每个数据都拥有若干上级数据、若干下级数据。其中每组数据不超过30字符,既15个汉字。上级数据与下级数据大多采用专用字段进行存储,字段主要采用管理方式为二维数组管理。其中,二维数组中主要包含有30个字符的目标字符串、响应频率、最后的响应时间。

在计算机文本分类中,语义分析的应用,为保障数据逻辑网络调用的充分,可选择全新的遍历算法,对两个二维数组进行分别遍历,通过逐一比较与计算,最终得出正确结果。同时,在对其他词语中的词频进行比较时,应重视二维数组的维护与更新。

4.3  文本相似度评估算法

在对相似文本进行评估时,语义分析法的应用能够准确计算出P值,以此准确展现两种文本的相似度[6]。第一步,可比较两种文本的关键词,通过分析关键词的词频,检验两者相似度。首先,语义分析法会对关键词所在位置进行检验,并通过相关软件对检验结果进行处理,得出值域。此时可直接对结果汇总,生成规范的表格。同时,对于输入文本内的关键词词频进行分词,检验分词所处位置,并利用相关软件对检验结果进行处理,得出值域。然后对结果进行汇总,生成规范的表格。第二步,对第一步中得到的两个数据表格以及系统内存储的数据表进行检验,得到P值。若P值小于0.05,则表示两个文本相似。若将两个完全相同的自然文本进行语义分析,通过上述步骤,所得P值无限接近于零,可见,语义分析算法具有较高的识别能力。

5  总结

大数据时代的不断深入,数据生成逐渐增多,想要在大量数据中寻找有效数据越发困难。对此,文章主要探讨了语义分析法在计算机技术文本中的应用,并实现了不采用神经网络递归算法,即可获得较高效率的软件系统,以期抛砖引玉,推动语义分析法的广泛应用。

参考文献

[1] 曹锋, 张代远. 文本分类技术研究[J]. 电脑知识与技术, 2009(32): 9023-9025.

[2] 杜隆胤. 基于语义分析在计算机技术文本分类中的应用研究[J]. 现代电子技术, 2016(5): 147-148.

[3] 许泽文. 基于语义分析的半监督文本分类技术研究[J]. 北京工业大学, 2017(6): 117-117.

[4] 戚后林, 顾磊. 概率潜在语义分析的KNN文本分类算法[J]. 计算机技术与发展, 2017(6): 112-112.

[5] 季铎, 毕臣, 蔡东风. 基于类别信息优化的潜在语义分析分类技术[J]. 中国科学技术大学学报, 2015(4): 112-114.

[6] 徐沛娟. 中文文本分类相关算法的研究与实现[J]. 吉林大学学报(理学版), 2009(4): 790-794.

猜你喜欢
语义分析文本分类计算机技术
基于组合分类算法的源代码注释质量评估方法