特征词_参考网

基于改进TFIDF算法的文本特征选择和聚类分析

空间模型中用于特征词分析的一个重要算法[12-13]。IDF属于逆文档频率,随着文档数量不断增加,该参数也发生了持续降低的趋势,采用该特征词无法实现文档类别进行准确区分的目标。TF为词频,随着特征词频率的提高,对应的权值也越大,可以判断此时该特征词达到了更强的文档区分性能。以下为TFIDF计算式:(1)式中,t是第m篇文档出现词t的频率,N为所有文档的数量,n是含有词t的文档数。利用TFIDF算法对均匀状态的词进行高效过滤,但也需注意此算法具有较大缺陷需要

微型电脑应用 2023年10期2023-11-09

浅谈山东黄岛地区的“嫚”

词】汉字职能；特征词；方言；“经济”原则【中图分类号】H172 【文献标识码】A 【文章编号】2096-8264（2023）30-0112-03【DOI】10.20024/j.cnki.CN42-1911/I.2023.30.035黄岛区隶属于山东省青岛市，地处山东半岛东南隅、胶州湾南畔，黄岛方言隶属于胶辽官话区。李荣《官话方言的分区》说：“胶辽官话包括青岛、烟台、大连等地。”作为北方方言官话的一个分支，黄岛方言与

今古文创 2023年30期2023-08-22

基于在线评论的商品推荐方法＊

计算相似度建立特征词集合。1.1 在线评论数据获取和数据处理获取消费者关注的备选商品在线评论信息是进行数据挖掘的基础性工作。针对消费者关注的备选商品，可以借助爬虫软件对商品评论进行获取，之后再对评论进行预处理，包括噪声处理、分词及词性标注、停用词删除和干扰特征词处理。1.2 商品特征的挖掘特征提取算法一般分为两类，第一类是无监督的特征词提取方法，第二类是有监督的特征词提取方法。考虑到无监督的特征词提取方法速度快、效果较好。因此本文采用无监督的TF-IDF 

计算机时代 2023年8期2023-08-22

基于特征词的教学综合评语量化研究

地提出基于专业特征词与大数据特征词的两种评分模型，对教学综合评语进行量化打分，以帮助对比综合评价等级相同时课堂教学质量的差异。实验结果表明，大数据特征词评分模型可更好地区分不同课程的教学质量，评价结果符合实际，结果真实、可靠。1 教学质量评价指标确定课堂教学质量评价受到很多因素影响，教师是课堂教学活动的直接负责人，教师的教学态度、教学内容、方法手段、教学成效等都是影响教学质量的客观因素。因此，科学、合理地进行课堂教学质量评价，对于促进教师提升业务水平、创新

软件导刊 2023年1期2023-02-18

基于Simhash改进的文本去重算法

)加权。为每个特征词赋予权重，对每个词的f位签名进行加权计算。在计算每个比特位时，遇到1则加上其权重值，遇到0则减去其权重值，得到每个词的加权特征值。(4)合并。对文本内的每个加权特征值进行累加，得到一个f位向量V。(5)降维。对向量V降维，对于每个比特位，如果大于0则将该比特位置为1，否则置为0。得到的结果作为文本的签名，记为S。在计算文本间距离阶段，对不同文本的签名进行异或操作，逐位比较其签名值。如果该比特位上的值不同则记为1，否则为0，得到1的个数即

计算机技术与发展 2022年8期2022-08-23

文本分类中基于CHI和PCA混合特征的降维方法

示成由一定数量特征词构成的空间向量，向量的维数即是文本集合中所有特征词的数量，这个维度通常可达几万维，甚至更高，所以文本特征空间的高维性是导致本问题的研究难点之一[3]。需要注意的是，并不是高维数据的每个维度都对文本的分类有实质性贡献，实际上，不同的特征之间可能存在不相关或者是冗余的现象，这不仅增加了许多噪声数据，造成了时间和空间开销的浪费，而且容易出现过拟合问题[4]，显然，文本的特征降维是解决此类问题的有效方法之一。1 相关工作文本特征降维包括特征选择

重庆邮电大学学报(自然科学版) 2022年1期2022-03-17

“方言词”“方源词”所指探究

言词;方源词;特征词;所指一、引言“方言词”和“方源词”的区分问题早在二十世纪八十年代就引起学者们的关注。黄伯荣、廖序东主编的《现代汉语》将“方言词”定义为：“那些原为方言现在已经被吸收进普通话的词。例如‘名堂、把戏、垃圾、瘪三、二流子、搞、垮、拆烂污、别扭、尴尬、陌生、蹩脚’等。”[1]（P243）同时，作者还指出：“人们的口语里往往混杂着各种各样的方言词，愈接近口语的文章，方言词就愈容易出现。”[1]（P244）此书的增订六版则将之修订为：“人们的口语

现代语文 2022年2期2022-03-09

基于类信息的TF-IDF权重分析与改进①

重计算仅考虑了特征词的词频和逆文档频率等,仍还有许多可改进的空间.因此,很多学者分析TFIDF的缺陷,对其进行了相应的改进.How 等[2]提出利用Category Term Descriptor (CTD)来改进TF-IDF,考虑不同类别的文档数可能存在数量级的差距,以改善类别数据集偏斜所引起的误差;徐冬冬等[3]引入逆类频率因子和类别比率因子用以修正TF-IDF 权重算法,得到基于类别描述的TF-IDF-CD 方法,叶雪梅等[4]针对新词识别对分类结果

计算机系统应用 2021年9期2021-10-11

基于布尔模型的高校技术需求与科技成果匹配研究

本文将技术领域特征词作为匹配的关键词，构建技术需求与科技成果匹配的布尔模型，最终将此方法应用到匹配系统中。一、技术需求与科技成果的标识（一）技术文本词典的构建本文高校的技术文本词典由技术领域与技术领域特征词集构成。领域特征词是用来描述技术领域最贴切的词语，是代表技术领域概念的专业化术语。同时将一个技术领域内所有的特征词的集合称为技术领域特征词集，领域特征词集可以代表整个技术领域特点。本文提出以技术领域特征词为标识，作为匹配的依据。在填写技术需求与科技成果信

科学咨询 2021年22期2021-08-31

基于改进CHI和TF-IDF的短文本分类的研究

要是因为选择的特征词数量巨大。进行有效的特征选择可以极大减少选取特征词数量，大幅度降低特征空间维数，能够提高分类的效率和精度。因此，在进行文本分类中，特征选择就显得至关重要[3]。特征选择降低空间维度的主要方式是在高维空间中选择出带有大部分文本信息的特征词，用这些特征词代表文本，从而有效地提高文本分类的效率和精度。因为特征选择在文本分类中的作用极其重要，所以不少国内外研究学者致力于改进特征选择方法。Salton等人[4]在1983年提出结合词频权重和反文档

计算机与现代化 2021年6期2021-06-29

基于TF-IDF-MP 算法的新闻关键词提取研究

因此，如何给特征词赋予合适的权重是文本分类任务中的一个基本问题，直接影响到分类的准确性。在文本分类过程中，特征提取是一个关键步骤。首先采用某个特征评估函数计算每个特征的数值，然后根据数值对特征排序，最后选取若干个数值最高的作为特征词。它的主要作用是在不丢失文本关键信息的前提下尽量减少待处理词语数量，以此来降低向量空间维数，从而简化计算，提高分类的速度与效率。常用的特征提取的方式有4 种：①采用映射方法将高维的特征向量变换为低维特征向量； ②从原始

华东交通大学学报 2021年1期2021-04-24

新时期丝绸文化演变的大数据解读

结合的方法，对特征词的综合上下文性质进行量化，解决模糊特征的归类问题;应用该文化特征体系，结合特征词频率统计方法，考察丝绸文化的特征分布及其新时代内涵;通过在时间轴上跟踪文化特征分布的变化，揭示丝绸文化演进的失衡区间和“三分段”模式，并分析失衡区间中的拐点现象及其成因。通过将大数据采集和计量方法与传统文化特征体系无缝衔接，研究以数理实证方式展示了丝绸文化的内涵升级和结构重组，有助于深入理解“一带一路”影响下传统文化的现实状态和发展方向。关键词：丝绸;一带

丝绸 2020年12期2020-12-28

基于改进的TF-IDF和贝叶斯算法的新闻分类

取新闻文本中的特征词集合，然后计算每个特征词的TF-IDF值，并将TF-IDF值形成特征向量作为贝叶斯算法的输入来实现新闻文本的分类。本文随机搜集了大量的不同类别的新闻文本进行分类实验，实验结果表明，该方法对不同类别的新闻都有较好的分类效果。关键词：新闻分类;TF-IDF;贝叶斯算法;特征词以前，人们主要从电视、报纸等传统媒介获取新闻，通过这种方式获取的新闻数量有限，且新闻的受众群体也不太普遍。随着科技和网络时代的发展，电脑和智能手机等电子设备的普及，人们

科技风 2020年31期2020-11-23

融合语义特征的加权朴素贝叶斯分类算法

 更新后的关键特征词集合T={t1,t2…,ti}(1) 预处理得到词语集合V={v1,v2,…,vi,…,vj}(2) setT=∅ //设定初始关键特征词集合为空(3) setK//设定取前K个关键特征词(4) for eachD(5) for eachvi,vjinV(6) 通过式(2)计算词语间语义相关性wNGD(i,j)(7) end for(8) end for(9) 根据式(3)计算初始权重wji(10) for eachviinV(11) 

计算机工程与设计 2020年9期2020-09-29

基于泊松分布的加权朴素贝叶斯文本分类算法

模型,通过考虑特征词之间的属性关联提升了分类效果。文献[8]提出一种基于全局特征提取的文本分类策略,通过新颖的特征提取方式改善了算法性能。文献[9]提出在决策树中每个叶节点加入朴素贝叶斯算法的一种构建朴素贝叶斯树的方法,提高了分类精确度,但同时增加了算法时间开销。文献[10]提出一种利用特征权重对朴素贝叶斯算法中的条件概率进行相关评估的深度特征权重朴素贝叶斯算法,改善了分类器性能。文献[11]提出了一种基于属性频率的朴素贝叶斯算法,利用可辨识矩阵对不同属性

计算机工程 2020年4期2020-04-20

一种基于TF-IDF的朴素贝叶斯算法改进

该算法没有体现特征词在文档类间和类内的分布信息。文献[2]中加入特征类间比重信息，使其对文档分布不敏感，从而对文档集有更好的适应性；文献[3]通过计算特征词间的相似度，选择最大相似度作为特征权重，提高分类效果；文献[4]提出新词发现特征权重算法，改进TF-IDF对网络新词的识别能力，优化文本分类效果；文献[5]通过改进特征选择算法和特征加权算法，增加位置选择信息来提高文本分类效果；文献[6-9]均对TF-IDF权重进行了类间改进优化。虽然这些文献对权重进行

计算机技术与发展 2020年2期2020-04-15

面向产品设计的用户需求重要度分析方法*

需求满意度进行特征词级的计算。(3) 产品设计需求筛选层。经专利或期刊数据抓取、停用词和分词处理、主题词抽取、词性筛选等操作,构建产品设计需求筛选库,从用户需求特征词集合中筛选出设计需求特征词。(4) 用户需求挖掘层。用户需求重要度计算模型从用户需求挖掘开始,通过评论数据采集、数据预处理、特征词与情感词提取,构建用户需求特征词、情感词词典,通过特征词与产品设计需求映射库检测,确定用户需求。3 用户需求重要度计算流程3.1 流程概述用户需求重要度的计算从用户

机械制造 2020年12期2020-03-23

一种面向财务文本分类的TF-IDF改进算法

提出了一种新的特征词权重计算方法（SNGTI-LFDF）。该算法以TF-IDF方法为基础，引入停用词失效的N-Gram方法和特征词位置词频因子，保留特征词位置信息并改善了特征词的权重分配。采用朴素贝叶斯方法对分类性能进行了验证，实验结果表明，相对于TF-IDF和同类改进算法TF-IDF-DL，SNGTI-LFDF方法取得了更高的准确率、召回率和F1值。因此该算法在能较好地提高财务文本分类性能。关键词：TF-IDF;N-Gram;位置因子;SNGTI-LFD

现代信息科技 2020年18期2020-02-22

可变属性粒度的中文文本概念格聚类研究

究对象，以文本特征词为属性，引入形式概念分析理论，采用概念格聚类的方式对中文文本进行聚类，同时，将特征词匹配至可变属性粒度的属性树上，避免因为属性粒度过细导致聚类速度慢的问题，该算法聚类效果良好。关键词：中文文本聚类;形式概念分析;概念格;可变粒度;特征词中图分类号：中图分类号：TP319        文献标识码：A文章编号：1009-3044（2019）26-0027-02开放科学（资源服务）标识码（OSID）：针对文本数据进行数据挖掘与知识描述、知识

电脑知识与技术 2019年26期2019-11-17

基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取*

所对应的词作为特征词，过滤掉低于阈值的低频词。文档频率法简单易行，但是较为粗糙，而且词条的文档频率阈值不好确定，阈值过大易导致具有代表性的词条丢失，过小又会导致入选词条包含大量无贡献的低频词，影响分类效果[5]。1.2 信息增益法信息增益法是根据词条能为整个分类系统提供的信息量的多少来决定其重要程度。信息增益用特征词在文本中出现时与不出现时的信息熵之差表示，依据差值的大小决定其作为特征词的取舍[6]。信息增益算法相对简单。但是由于考虑特征词出现与不出现两种

数字图书馆论坛 2019年8期2019-10-17

基于大数据挖掘的精准扶贫工作第三方评估 ——以武汉市为例

评估指标所对应特征词的频度统计分析，得到评价结果。并利用社会网络分析方法，揭示评估指标所对应特征词之间及其与精准扶贫之间的关系，对精准扶贫工作进行深入分析，查找问题，提出对策建议。本文以下分为四个部分：第二部分介绍研究使用的理论、分析架构和评价指标体系；第三部分，是利用文本挖掘和文本评价指标体系对武汉精准扶贫工作进行评估；第四部分利用社会网络分析方法对武汉精准扶贫工作进行分析，第五部分是结论。2 使用理论和方法2.1 精准扶贫第三方评估理论目前，理论界比较

武汉工程职业技术学院学报 2019年3期2019-10-17

基于加权语义网的文本相似度计算方法研究

.该方法首先以特征词为节点，以特征词窗口共现为边，以特征词的TF-IDF值为特征词节点的初始权重，以融合共现频率和概念间语义距离计算特征词节点之间边的权重，构建加权语义文本复杂网络.然后利用综合特征指数作为加权语义网中文本的特征权重.最后基于公开数据集和KNN算法进行文本聚类实验，实验结果表明，在基于F-度量值标准上本文提出的方法要优于传统基于向量空间模型的TF-IDF方法和另一种结合复杂网络权重的方法. 关键词：复杂网络;特征词;KNN算法;文本相似度;

赤峰学院学报·自然科学版 2019年5期2019-09-10

基于差异度量和互信息的文本特征选择算法

降低低频词以及特征词对类间均匀分布的干扰[4]；段落类别特征选择(feature selection paragraph category，FSPC)[5-6]将特征词的段落频率与特征词类别的分布程度进行融合，该度量标准能够描述特征词在文档中的均匀分布程度；CHI优化算法针对分布不均匀的特征数据集，适当改善了集中在少量文档中的单词的权重[7-8]；基于文档频率的归一化差异度量 (normalized difference measure，NDM)通过对真正

西安邮电大学学报 2019年6期2019-06-27

基于词向量和多特征语义距离的文本聚类算法

算应用中，存在特征词向量维度高、数据稀疏、忽略低频词以及缺乏语义信息等问题。文献[4][5]介绍的基于主题模型的方法，能将高维的特征词向量空间转换为低维的语义主题空间，解决了特征词向量空间维度高、缺乏语义的问题，但这类方法都是假设数据服从指数分布。实际上，数据分布并不一定完全服从指数分布。另外，这类方法偏向于从高频的数据中归纳语义，忽略了低频词的影响。文献[6-8]介绍的基于知识库的方法，能够解决文本表示特征稀疏、特征词语义缺失的问题，但由于受限于知识库的

重庆科技学院学报（自然科学版） 2019年3期2019-06-24

基于加权语义网的改进文本相似度计算方法

中每个元素值为特征词频(term frequency,TF)和逆文本频率(inverse document frequency,IDF)的乘积，这样就可以通过计算向量之间的差异来衡量文本之间的相似性。这种方法的优点简单，并且可以排除文本中低区分度词和高频词的干扰。但是这种方法也忽略了特征词本身一般都具备丰富的语义，而且词之间的语义关系、词的频率和词的上下文结构信息等都将影响着对文本相似度计算结果的准确性[4-6]。近年来，随着复杂网络科学研究的发展，在自然

邵阳学院学报（自然科学版） 2019年3期2019-05-04

文本分类中基于CHI改进的特征选择方法*

频率或者概率对特征词进行权重计算，并根据排名选取TOP-K特征词。卡方统计量(Chi-square statistics,CHI)是一种常用的特征选择方法，具备更低的时间复杂度和应用便利性[2]，其统计特征词在文本中是否出现，但没有考虑词频和特征词分散度、集中度等信息。Galavotti L等人[3]通过研究特征词与类别的正负相关性问题，引入一种新的相关系数方法对CHI模型进行优化，使得模型性能有了一定的提高。Jin C等人[4]使用样本方差计算词的分布信

传感器与微系统 2019年2期2019-01-15

基于二分网中心节点识别的产品评论特征-观点词对提取研究①

观点词所修饰的特征词则反映了消费者对于产品关注的焦点.这些特征观点词不仅影响着消费者的购买意向,同时也可以作为商家了解竞争对手的一个窗口,从而提高产品质量,更好地为消费者服务.如何从这些海量评论文本中有效地提取商品特征词和观点词,更好为消费者跟商家服务,是意见挖掘领域中的热点问题.在这些特征词观点词中又有高频词和低频词之分,高频词更能准确地反应消费者关注产品的焦点,所以本文重点挖掘出产品评论中高频特征观点词.近些年有很多学者针对产品特征词观点词提取进行了研

计算机系统应用 2018年11期2018-11-14

酒店在线评论数据的特征挖掘

析、特征抽取、特征词确定等环节。具体流程如图1所示。图1 基于酒店在线评论数据的特征挖掘Fig. 1 Feature mining based on hotel online review data2.1 数据获取在线点评数据包括数字、文本、图片等，本文应用主题爬虫在猫途鹰网(tripadvisor)和携程网(ctrip)上爬取相关数据，去除与主题无关的各种噪音数据(如导航条、广告信息、版权信息和其他图片、图像、声音等)，对获取到的数据进行预处理(主要是去

智能系统学报 2018年6期2018-11-05

基于MapReduce的改进CHI文本特征选择机制

些文档频率低但特征词频率高的特征词将不会被选为特征项;同时,放大了在指定类别中出现很少但在其他类别中出现较多的特征词在该类中的权重.为解决上述问题,本文提出一种基于MapReduce的CHI文本特征选择机制,主要贡献如下:1)对传统CHI统计法公式进行改进,引入类内频数解决忽略高频特征词的问题,同时引入类间方差解决放大外围特征词权重的问题,从而提高CHI统计法的特征选择准确度,从根本上提高文本分类的精度;2)提出基于MapReduce的CHI文本特征选择模

小型微型计算机系统 2018年8期2018-09-07

基于改进TFIDF算法的邮件分类技术

该方法只考虑了特征词文档的绝对数量和特征词在某类邮件中的词频，没有考虑到特征词在类中的分布情况和特征词在其他类邮件中的词频，高估了低频词的作用并低估了高频词的作用。文中将对TFIDF进行一定的修改和优化，以克服传统TFIDF的缺陷。1 特征提取算法及其改进1.1 CHI统计算法CHI统计算法是使用统计的方法计算特征词t与邮件类别d的关联程度。特征词t与邮件类别d的相关度表示如下：(1)其中，N表示邮件总数量；A表示邮件类别d中包含特征词t的邮件数量；B表示

计算机技术与发展 2018年8期2018-08-21

基于词向量及术语关系抽取方法的文本分类方法

方检验中存在的特征词“不完备”的特点。考虑到选取的特征词语集合不能表达特定学科领域的概念，本文对扩充后特征词集合构建候选术语网络；然后根据特征词向量的位置关系、词汇信息特征考察特征词之间的内部结合紧密度；最后，采用词语的左熵或右熵规则实现术语抽取，形成特定学科领域内能够反映文本表示的特征词抽取方法。2 相关研究2.1 特征表示特征表示是基于某种评价标准，对文本中的特征项进行评估，并对每一个特征进行评分，按照分数进行排序，选择Top N特征项作为文本表示的特

移动通信 2018年7期2018-07-30

一种语义弱监督LDA的商品评论细粒度情感分析算法

取，进一步发现特征词和情感词.但由于LDA是无监督的概率模型，偏向于发现以文档为单位的高频共现关系，很难发现低频及隐含在句式结构中的特征词和情感词，并且缺乏对词语关联和情感隶属等语义关系的理解，造成情感极性分类的准确性不高，具体表现如下：1)难以提取无特征情感词.在中文商品评论中，经常会在单个句子中省去特征词而直接使用情感词，称之为无特征情感词，如句子“很清晰”“很便宜”中的“清晰”“便宜”，分别省去了特征词“屏幕”“价格”.LDA模型对无特征情感词进行主

小型微型计算机系统 2018年5期2018-07-04

基于关联关系的电子病历聚类研究

题[7-8]：特征词词频减少，如不同患者的对同一个意思的不同表述，会造成表述同一意思的词频减少，进而造成对电子病历的聚类效果不理想；停用词影响结果相关性，如在电子病历词袋中“你、我、他”等停用词出现频率较高，不但对电子病历聚类毫无意义，还导致产生聚类的结果相关性低等问题；通过词频度量相关性有缺陷，如在疾病分类中用“发烧”这个词在电子病历描述中出现的频次衡量其相关性，会导致所有的发热症状都具有相关性，显然仅通过词频度量相关性是不够准确的。1.2 向量空间模型

中华医学图书情报杂志 2018年5期2018-03-22

结合文本信息量和聚类的文本裁剪算法

先根据文本中的特征词及特征词出现的次数，利用本文提出的计算方法计算每条文本的权重，对每个类别中的文本重要性进行排序；再利用kmeans聚类算法将文本向量空间模型进行聚类，删除掉每个类别中的噪声样本；然后结合已经计算的样本的重要性序列，在每个类别中筛选出等量的文本，构建新的训练样本空间。后续的KNN操作，在新的训练样本空间上进行。1 相关工作1.1 文本预处理文本预处理主要包括对文本正则化处理、中文分词、停用词操作。对于给定的文本，其中包含了许多特殊字符和无

计算机工程与设计 2018年3期2018-03-19

OPEN：一个基于评论的商品特征抽取及情感分析框架

有观点词，没有特征词，但这些观点词修饰的特征也是比较明确的。(2) 从评论中提取的特征词和观点词是多样化的，而这些特征词通常都可隐含地归纳为几类典型特征。例如“物流、速度、快递”都隐含对应了物流特征，“口感、味道”都隐含对应了品质特征。因此如果能将提取的特征词聚类为几类典型特征，提供这几类典型特征的情感分析，将使评论体现的商品特征及情感表述更为简洁。本文针对上述问题，提出一个基于评论的商品特征抽取及情感分析框架(OPEN)。OPEN首先利用依存关系和词性搭

计算机应用与软件 2018年1期2018-02-27

产品评论文本中特征词提取及其关联模型构建与应用

产品评论文本中特征词提取及其关联模型构建与应用余琦玮1肖 颖1林 静1徐新胜1王庆林1张 飞21.中国计量大学工业工程研究所，杭州,3100182.中国计量大学机械设计制造及其自动化研究所，杭州,310018网络上产品评论文本是用户对产品的评价与反馈，及时、有效挖掘其中有价值的信息是制造企业、销售商获取竞争优势迫切需要解决的问题。综合词形、词性、依存关系、控制词及其情感描述等，设计了特征词提取规则单元以及规则模板，基于条件随机场实现了产品特征词的有效提取，

中国机械工程 2017年22期2017-12-02

基于互信息的文本分类改进方法研究

用评价函数评价特征词的权重值改进LDA算法分类过程，提高对主题分类贡献度高的特征词的作用。通过在新闻语料库上的分类实验证明了该方法的有效性，同时表明分类的准确率也有所提高。主题模型；词频；互信息；特征选择0 引言文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程，本质上是一种模式识别过程，它可以对文本的特征模式进行识别，关键技术有语料库的预处理、特征选择、分类模型构建等。主题模型[1](topic modeling)是一种常见的机器学习方法，

网络安全与数据管理 2017年19期2017-10-21

基于隐马尔科夫模型与语义融合的文本分类

分类的方法。将特征词的语义作为先验知识融合到隐马尔科夫分类模型中。通过信息增益提取特征词，用word2vec提取特征词语义，将每一个类别映射成一个隐马尔科夫分类模型，模型中状态转移过程就是该类文本生成过程。将待分文本与分类模型做相似度比较，取得最大类别输出概率。该方法不仅考虑特征词、词频、文档数量先验知识，而且将特征词语义融合到隐马尔科夫分类模型中。通过实验评估，取得了比原HMM模型和朴素贝叶斯分类模型更好的分类效果。隐马尔科夫模型 语义融合 word2v

计算机应用与软件 2017年7期2017-08-12

西江流域疍家杂字方俗语词通释

的几十个粤方言特征词进行汇释，以为专家学者深入研究提供参考。该书语言雅俗共赏、富有音乐美，从内容到语言均体现了浓郁的岭南地方特色，在语言学、民俗学研究等方面均有较高价值，是研究岭南文化、疍家族群文化的宝贵参考资料。关键词：疍家杂字特征词民俗《杂字歌》是流传于民国时期西江流域农村的一种识字启蒙读物，全书共5180字，从各方面详细描述当地百姓的生活，内容全面、条理清晰，既起到识字读本作用，又能起到普及生活知识和一般德行教化的作用，可谓当地农村生活的百科全

现代语文 2017年4期2017-06-08

新生代农民工的身份重构 ——自我范畴化视角

基础。研究通过特征词主动选择及特征词被动评价两种研究范式，以324名平均年龄为25.13岁的不同身份认同类型的新生代农民工为被试，研究不同认同类型新生代农民工社会范畴化的特点，从社会范畴化角度揭示身份重构的认知规律。结果表明：范畴边界的区分度是范畴确立的重要条件；从农村人认同—认同模糊—城市人认同的身份重构过程呈现出在自我群体类特征词选择上从农村人特征词为主—无明显选词偏好—城市人特征词为主的梯度过渡形态；并在表征水平上表现出映像表征符号使用偏好下降，抽象

沈阳师范大学学报（社会科学版） 2017年2期2017-04-12

一种朴素贝叶斯文本分类算法的分布并行实现

合的数值来表示特征词的重要程度，以此获得特征词权重，建立加权贝叶斯分类器；文献[12]对经典朴素贝叶斯分类算法进行了改进，提出了一种文本分类算法，提高了分类精度；文献[13]提出了一种基于辅助特征词的朴素贝叶斯文本分类算法，提高了类条件概率精确度。以上算法在一定程度上提高了文本分类的性能，但也存在两方面的局限：其一，文本分类过程中，语言中大部分词都属于低频词，容易造成数据稀疏问题；其二，由于其自身扩展性和计算能力的限制，集中式平台运行传统朴素贝叶斯文本分类

计算机应用与软件 2016年11期2016-12-26

文本分类中基于熵的词权重计算方法研究*

性能更加稳定。特征词权重；熵加权；文本分类；类别区分力1　引言随着计算机应用的普及和互联网规模的不断发展，文本数据量变得非常庞大且仍在迅猛增加，比如每天都有大量的以文本内容为主的电子文献、网页、消息和邮件在不断地产生。因此，作为文本组织与挖掘的基本技术手段之一，自动文本分类（text categorization，TC）变得越来越重要。为了进一步提高文本分类的性能，研究人员主要从两个方面开展研究：一是改善分类算法（或学习模型）；二是改善文本数据表示模型。众

计算机与生活 2016年9期2016-09-20

珠江三角洲堤围专题文献识别方法研究*

特征，使用文献特征词识别的方法并举隅，通过文献特征词的特征，以计算机及辅助人工识别的方法，识别、整理和组建珠江三角洲堤围专题文献资料信息集。关键词珠江三角洲堤围文献特征词识别方法引用本文格式刘水养.珠江三角洲堤围专题文献识别方法研究[J].图书馆论坛，2016（3）：83- 89.*本文系2014年度佛山市哲学社会科学规划项目“桑园围文献收集与整理”（项目编号：2014-wj20）研究成果之一A Study of the Recognition Metho

图书馆论坛 2016年3期2016-04-06

一种标准数据元与数据项匹配算法

数据项；匹配；特征词中图分类号：TP312 文献标识码：A 文章编号：1009-3044（2016）01-0005-02An Algorithm of Matching Data Elements and Data ItemsLI Min（Public Safety Information Technology Department， China Electronics Technology Company， Beijing 100083， China）A

电脑知识与技术 2016年1期2016-03-22

汉语特征词跨域使用的类型和特点

0079)汉语特征词跨域使用的类型和特点刘 云(华中师范大学文学院，湖北武汉，430079)特征词在分布上的最大特点就是分布的不均衡性。本文主要探讨特征词跨域使用的类型和特点，认为特征词的跨域使用可分为三种类型：一是引用型，二是固定型，三是修辞型。特征词的跨域使用具有领域的不均衡性、鲜明的时代性以及使用范围和搭配的扩大等特点。特征词；类型；特点一、 引 言特征词是指能够反映文本特征、分布差异较大的词语，其在分布上的最大特点就是分布的不均衡性。假设有k个字数

华中学术 2016年4期2016-03-14

一种基于改进的TF-IDF和支持向量机的中文文本分类研究

IDF单纯考虑特征词频率以及包含特征词的文本数量，并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题，可能会导致文本分类结果的偏差。本文引入卡方统计量CHI和特征词在文本中的位置作为修正因子并结合传统TF-IDF权值计算公式，很好的解决了特征词在类间分布以及关键词重要程度不足的问题，并应用支持向量机构建分类器，进行文本分类的实验验证。改进后的TF-IDF计算公式与传统TF-IDF相比，在查准率、查全率、F1测试值上都有一定程度

软件 2016年12期2016-02-13

代码文件的自动提取

率，提出了基于特征词的关键词自动提取算法（算法一）和基于调用图的自动提取算法（算法二）用于关键词的提取，进而实现代码文件的自动提取。将两种算法应用于CLAPACK库源文件的精简自动提取，测试结果表明，两种算法的正确提取率分别是92％和44％，它们能实现代码文件的自动提取，提高了提取的效率。自动提取；关键词；特征词；调用关系图；CLAPACK库0 引言近年来，随着互联网的飞速发展，网络上的代码文件越来越多，尤其是开源软件的源文件，这些源代码有利于加深对软件的

网络安全与数据管理 2015年18期2015-10-19

面向文本分类的特征词选取方法研究与改进

面向文本分类的特征词选取方法研究与改进李国和1,2,3，岳 翔1,2，吴卫江1,2,3，洪云峰3，刘智渊3，程 远3(1. 中国石油大学(北京) 地球物理与信息工程学院，北京 102249;2. 中国石油大学(北京) 油气数据挖掘北京市重点实验室，北京 102249；3. 石大兆信数字身份管理与物联网技术研究院，北京 100029)中文特征词的选取是中文信息预处理内容之一，对文档分类有重要影响。中文分词处理后，采用特征词构建的向量模型表示文档时，导致特征词

中文信息学报 2015年4期2015-04-21

海口闽语线条语义量词“线”“桠”“目”等理据与用法浅析——兼论与黎语、现代汉语等比较

;量词;黎语;特征词;理据词的理据是指词与词义产生、变化发展动力与来源，同时包含其产生形成变化的轨迹或路径。寻求词的理据，有助于了解词与词汇发展模式，揭示词义系统性，显示不同语言集团认知方式和文化特征;探求词的理据有益于正确使用词语，对词语规范原则的构建也有重要的参考价值。线条语义量词，是量词的次类，指量词成员本身具有线条语义特征，所计量的名词亦皆含线条语义特征。海口闽语线条语义量词有“支、枝、线、桠、目、条、路”等。这又依据量词适配的名词是否有硬度特征，

海南师范大学学报（社会科学版） 2015年6期2015-03-28

基于K-Means和Apriori算法的多层特征提取方法

，构建一个新的特征词提取方法——MultiLM-FE方法.该方法首先依据科技文献的结构将其分为4个层次，然后通过K-means聚类对前3层逐层实现特征词提取，最后再使用Aprori算法找出第4层的最大频繁项集，并作为第4层的特征词集合.该方法能够解决K-means算法不能自动确定最佳聚类初始点的问题，减少了聚类过程中信息损耗，这使得该方法能够在文献语料库中更加准确地找到特征词，较之以前的方法有很大提升，尤其是在科技文献方面更为适用.实验结果表明，该方法是可

华中师范大学学报（自然科学版） 2015年3期2015-03-21

一种新的微博短文本特征词选择算法*

新的微博短文本特征词选择算法*黄贤英,陈红阳,刘英涛,熊李媛(重庆理工大学计算机科学与工程学院，重庆 400054)针对微博短文本有效特征较稀疏且难以提取，从而影响微博文本表示、分类与聚类准确性的问题，提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则，根据词项的TF-IDF、词性与词长因子构造综合评估函数，结合词项与文本内容的语义相关度，对微博短文本进行特征词选择，以使挑选出来的特征词能准确表示微博短文本内容主题。将新

计算机工程与科学 2015年9期2015-01-09

汉语方言特征词研究中的几个问题

）研究汉语方言特征词有重要的理论和实践意义。理论方面，特征词的研究就是汉语方言词汇的比较研究。这些比较对于考察古今词汇的演变，共同语和方言在词汇上的相互作用都是非常重要的。实践方面，方言特征词是最具特色的方言词，也是方言区的人说普通话时最容易出差错的敏感部分。研究得好肯定可应用于语言教学之中[1](前言)2。汉语方言的特征词是具有特征意义的方言词，在方言区内普遍应用、大体一致，在外区方言又是比较少见的[1](前言)3。特征词最具方言特征，反映方言的个性[2

河北民族师范学院学报 2014年1期2014-04-08

基于网页特征的特征词提取技术

基于网页特征的特征词提取技术庞宁(太原科技大学应用科学学院, 山西 太原 030024)特征词提取是一项提炼整个web页面内容的实用技术, 同时也为文本分类, 信息抽取应用提供了技术支持. 在web页面内容上, 利用段落间语义关系划分出网页内容的篇章结构, 并以此为基础使用网页的元数据和特殊标签, 设计了一个特征词的加权函数, 综合考虑了词频、词长和位置因子, 最后, 实验对比了各类位置因子对系统的贡献度. 实验结果表明, 改进方法的F1值比传统的TFID

西南民族大学学报（自然科学版） 2014年1期2014-02-21

汉语特征词研究的缘起、意义和方法

0079)汉语特征词研究的缘起、意义和方法刘 云(华中师范大学文学院，湖北武汉，430079)特征词指能够反映文本特征、分布差异较大的词语。特征词的研究缘于以下四个方面：信息论中关于熵的研究，情报学中关于反文献频率的研究，语料库统计中各种词表的建立，语言学研究中的方言特征词研究。特征词的研究具有较大的理论意义和现实意义，一个可行的研究方法是以国家语委通用语料库为对象来考察时代特征词和语体特征词。特征词 语料库 词语分布一、 引 言所谓特征词，是指能够反映文

华中学术 2013年2期2013-11-03

种子事件与新颖事件演化关系的话题检测与追踪*

io算法，利用特征词的不同权重组合实现自适应的话题追踪算法，证明了采用“NUC”权重计算方法可取得最优性能[3]。卡耐基梅隆大学的研究者提出了一种基于决策树的组合系统BORG TRACK，该系统在话题追踪领域表现优异[4]。IBM公司在话题检测和追踪系统中采用了两次聚类的策略，使得系统在准确率方面得到很大的提高[5]。另外还有多种不同方法在这项研究中被尝试使用，如Single-Pass方法、贝叶斯算法、K-最近邻居方法等，其中比较成功的有K-最近邻居方法以

网络安全与数据管理 2013年6期2013-05-14

语言学研究

配、同位短语和特征词。罗耀华、牛利的论文《“动＋介”组配及“V＋自＋O”格式研究》通过对“V＋自＋O”结构的考察，发现能进入这一格式的V 受到语义和音节等的制约；宾语O 在历时发展演变的过程中，种类也有所增加；“自”经历了由名词到动词再到介词的一个实词虚化的过程，在发展过程中，逐渐并入其前面的谓词中，甚至脱落为零形式；作为一个整体，“V＋自＋O”结构的各项功能也突破了介词结构的局限，功能出现泛化。汉语的同位短语具有并立短语的形式特征，在语义上却同并立短语相

华中学术 2013年2期2013-04-12

基于朴素贝叶斯分类器的朝鲜语文本分类的研究

类有很大贡献的特征词应该是在该类文档中出现频率足够高而在其他类文档中出现频率足够低的特征词。那么少见词和平凡词在训练集所有文档分词后存储的情况，要么是只有一个类中的词频计数很少，要么是在大多数类别中出现的很多。基于这种情况，将分词后在各个类别中出现特征词的文档频度计数和在所有类别中出现该特征词的文档频度计数总和相比，就可以得到该特征词在各个类别中出现的分布情况。通过这个分布情况，去除那些少见词和平凡词，从而保留那些次关键词、关键词，达到特征选择的目的。对于

中文信息学报 2011年4期2011-06-28

关于“方言特征词”理论的回顾及思考

1)关于“方言特征词”理论的回顾及思考李康澄(湖南科技大学人文学院，湖南湘潭411201)汉语“方言特征词”属于比较方言学的范畴，是基于现代汉语方言词汇的横向比较研究而产生的。要深化汉语方言词汇研究，必须在方言词汇宏观比较的基础上开展“方言特征词”的研究。从“方言特征词”理论的提出至今，“方言特征词”的研究已取得了一系列的成果，但在“方言特征词”的性质和范围上存在争议。存在的争议主要是由特征词的提取方法造成的。“方言特征词”;比较;提取方法一 汉语“方言特

武陵学刊 2011年5期2011-03-20

一种改进的 X2统计量方法

汇.本文考虑到特征词的分布密度问题,对 X2统计量公式进行了一定的变形,大大降低了原始特征集中经常出现的大量版权和广告等对分类无用的高密度词,使抽取的特征词更能体现类别的主题思想.此外,在特征提取过程中,考虑到中文词语之间的同义、近义、反义等语义关联,对特征词进行合并,减少了相似性比较时的计算量.1 X2统计量方法介绍在文本分类算法中,常用的文档特征抽取方法有文档频次方法、互信息方法、信息增益方法、X2统计量方法等.Yang Yi-ming通过大量的实验研

中原工学院学报 2010年6期2010-12-27