高校图书馆信息咨询自动问答系统技术概述

2018-07-05 09:39晋月培
法律文献信息与研究 2018年1期

晋月培

(中国政法大学图书馆)

信息咨询作为高校图书馆的核心业务,为用户提供专业、全面的咨询服务。传统的信息咨询受时间、空间、人力资源等因素的制约,在工作时间能很好的开展咨询服务,但在非工作时间则不能及时对用户提出的问题做出回应,降低了服务效率,也降低了用户满意度。

自动问答系统能够有效克服时间、空间、人力资源等因素的制约,为用户提供不限时间、不限地点的自助化、专业化、准确化服务。通过分析用户提出的以自然语言形式描述的问题,根据问题查找资源库,筛选有效信息,回答用户问题。

图书馆信息咨询自助问答系统是限定领域的问答系统,为用户提供信息查询、资源使用、常见问题、联系方式等服务。一般的问答系统主要包括问题分析、信息检索、答案抽取三个子系统。

1 问题分析

问答系统能否准确“理解”用户问题的意思是影响回答准确率的重要因素[1]。问题分析是问答系统的第一阶段,这一阶段的分析结果将作为已知信息参与后续阶段的数据处理,错误的问题分析结果会直接导致后续工作的无效性。问题分析包括:问题预处理、问题分类、获取关键词等。

1.1 问题预处理

问题预处理是对问题进行分词、词性标记和去停用词等处理。

词是研究文本信息的最小单元,中文文本分析通常以词为单位进行数据处理,因为词与词之间不存在如英文中空格这样的分隔符,所以分词成为快速、准确地分析问题的基础[2]。词性标记,就是为每一个单词标注词性。“图书馆/n 什么/ry 时候/n 开馆/v ?/ww”是“图书馆什么时候开馆?”进行分词和词性标记之后的结果,“n”代表名词、“ry”代表代词、“v”代表动词、“ww”代表标点符号。

停用词通常是对后续信息检索无明显作用的单词,如:“我/是/本科生/,/我/想/了解/一下/远程/访问/的/使用/方法/。/”,这里的“我”、“是”、“想”、“了解”、“一下”对分析问题没有影响,也不是问题分析的必要条件。一般助词、叹词、语气词、拟声词等单词也是停用词。去停用词可以获取有效的关键词,降低特征向量空间维度,减少系统资源消耗,提高后续系统的处理效率。

1.2 问题分类

问题分类是问题分析中最重要的一步,问答系统根据问题类别进行相应的答案抽取,问题类别的判定直接影响答案抽取的准确性。将询问时间的问题错认为询问地点的问题,在信息检索中检索地点信息,答案抽取返回的最终答案也一定错误的[3]。不同类别问题的描述不同、疑问词、关键词也不相同。

基于规则的问题分类是提取各类别问题的疑问词与其它相关词组合的特征规则,根据规则判定问题类别。“法渊阁什么时候开馆?”中“什么”、“时候”作为时间的疑问词与相关词组合出现,该问题询问的是时间,属于时间问题类别。表1是基于规则的问题分类举例。

基于统计的问题分类是将经过类别标注的问题作为训练语料,使用KNN、SVM等分类方法,训练并构建分类模型,实现问题的机器分类。或是通过计算问题与已知类别问题的相似度,相似度越高,问题属于该类别的可能性越大,相似度越低,问题属于该类别的可能性越小。

表1 基于规则的问题分类举例

1.3 获取关键词

关键词代表了问题的主体含义。关键词获取的准确性既影响信息检索阶段检索的准确程度,也对答案抽取阶段中候选答案选择有影响。常见的关键词为名词、动词、形容词等词性。

获取关键词还包括扩展关键词。汉语词汇丰富,表达形式多样,问题中出现的单词往往不能与原有关键词完全一致,但意思、指代一致,这就需要将原有关键词进行扩展,提高关键词查询的成功率。“知网的网址是什么?”、“中国知网的网址是什么?”、“CNKI的网址是什么?”、“中国期刊网的网址是什么?”,这当中的“知网”、“中国知网”、“CNKI”、“中国期刊网”均指“中国知网”。

2 信息检索

信息检索在问答系统中起到了承上启下重要作用,它利用问题分析系统输出的关键词、关键词组及其扩展在资源库中进行检索,返回一些最相关的文档或片段,完成了由海量文本到精准信息的定位和细化,缩小了答案抽取系统的搜索范围。

图书馆问答系统中信息检索范围是图书馆网站上发布的所有信息,文档量较大,为提供良好的用户体验,需要一个高效、快速的信息检索系统。信息检索系统需要收集并整理文档,建立文档索引;存储并表示文档,建立文档资源库;整理并修改用户问题,生成检索表达式,并分析和扩展表达式,以满足检索要求;使用文档索引从资源库中找出相关文档或片段;按相关性将检索结果输出。

倒排索引是搜索引擎常用的技术,可用于信息检索系统。倒排列表中记录有哪些文档包含了某一单词。在文档集合中,很多文档都包含某一单词,将每篇文档记录文档编号(DocID),该单词在这篇文档中出现的次数(TF),以及该单词在文档出现的位置(pos)等信息。这样单词与一篇文档相关的信息被称为倒排索引项,包含这个单词的一系列倒排索引项构成的列表结构,为这个单词对应的倒排列表。倒排索引包含有效单词的倒排列表。

如表2所所示,有4篇文档构成文档集合,将4篇文档分词,获取关键词构建倒排索引,结果如表3所示。

表2 文档集合

表3 倒排索引

利用倒排索引可以快速的地响应查询。对于关键词“远程”,信息检索系统通过查找倒排索引,将包含“远程”关键词的文档1、文档2筛选出来,同时可用记录的单词频率等信息对候选文档进行排序,返回文档信息如表4所示。

表4 返回“远程”相关文档

单词词典是倒排索引的重要的组成部分,使用词典记录文档集合中出现过的所有单词信息,包括单词对应的倒排列表在倒排文件中的位置。搜索时,首先在单词词典中查询要搜索的单词,获得相应的倒排列表信息。

3 答案抽取

答案抽取是问答系统产生最终答案的关键一步,问题分析、信息检索都是为答案抽取提供服务的,答案抽取的范围是信息检索输出的检索结果,信息检索返回的是文档或片段,而问答系统需要返回精确、简短的答案,所以需要由答案抽取系统抽取信息检索返回的结果中的问题答案。根据问题类别的不同,答案的形式也不同,时间问题,返回简短的时间信息,人物问题,返回人员名称,而对于询问方法等问题则需要返回较长的语句才能将解决问题的方法描述清楚,因此答案抽取依赖于问题分析中的分类,针对不同问题类别采用不同的

答案抽取策略。

常见的答案抽取方法有相似度计算、模式匹配、统计学习等。

3.1 相似度计算

应用相似度计算的答案抽取基于这样一种假设:包含正确答案的句子和问题的相似度应该高于不含正确答案的句子和问题的相似度。

(1)将信息检索输出的检索结果文档或片段分句;

(2)筛选出可能包含正确答案的句子;

(3)将每个句子分词构造向量,分别与问题计算相似度;

(4)返回相似度满足阈值的句子;

(5)针对返回的句子按照问题类型对应的答案类型进行抽取。

常用的相似度计算方法VSM(空间向量模型)、编辑距离等。

3.2 模式匹配

模式匹配的原理是根据问题的类型制定相应问题类型的答案模板。

(1)制定各类问题的答案模板;

(2)根据问题类型使用相应的答案模板匹配信息检索返回的文档或片段。

模板制定有手工方式和机器学习方式两种。利用手工编写答案模板,操作简单、准确率高,但模板编写过程耗时,而且很难写全所有答案模板。表5为手工方式编写的部分答案模板。机器学习的方式是利用训练语料从相关文档或片段中提取包含关键词、关键词组及扩展和答案的子串,用变量替换子串中的关键词、关键词组及扩展和答案词,得到答案模板。

3.3 统计学习

利用统计的方法是考虑句子与问题之间的相关性,计算句子为正确答案的概率。

获取训练语料中句子的关键词、关键词组及扩展与对应问题的关键词、关键词组及扩展训练分类模型。当有新的问题出现时需构建新的分类器。马尔可夫模型、或支持向量空间模型的方法使用得最为普遍。

3.4 结构化数据答案抽取

以上的答案抽取方法主要针对半结构化、非结构化数据,而结构化的数据答案抽取较为简单。结构化数据,往往是已经构建了较为完整的结构化数据库,使用由问题的关键词、关键词组合及扩展精确转化的查询形式的语句,在结构化数据库中查询,返回的查询结果即为问题答案。该方法一般只能用在限定领域[4]。

4 高校图书馆信息咨询自动问答现状

清华大学图书馆姚飞[5]等人以XML格式存储语料,使用中科院ICTCLAS分词系统,同时去掉了停用词,利用倒排索引技术构建信息检索的索引,将经过问题分析处理的问题与索引中的记录利用余弦相似度等进行相似度匹配,输出最终结果。

重庆文理学院图书馆陈诗琴[6]等人整理问答系统中问题和对应答案,分别将问题和答案分词构成问题模式和答案模式,对问题模式进行索引。问题分析阶段对问题进行分词、去停用词,获得关键词操作。信息抽取阶段将用户问题用已有问题的表达形式代替:使用问题关键词在索引文件中检索,得到问题集合的检索结果,再将用户问题与问题集合中的每个问题进行相似度计算,选取相似度超过阈值且为最高阈值的问题。答案抽取阶段将信息检索阶段获取的问题与已知的问题模式进行匹配,找到最佳匹配,再调取该问题模板对应的答案模板,从而获得最终答案。

南京大学图书馆沈奎林[7]等人整理并利用原有的FQA数据定义数组,其中键为关键词,值为对应的回复。使用Mysql存储检索数据,建立检索。问题分析阶段对用户问题进行分词、获取关键词;信息检索阶段,检索问题与数组中的关键词匹配情况;答案抽取阶段将匹配的关键词对应的内容作为答案输出。当用户问题的关键词有多个时,则一次性输出多个关键词对应的内容。

哈尔滨工业大学图书馆李雪婷[8]等人在问题分析阶段针对用户问题进行分词、句法分析、语义分析、分类问题,并通过复述技术寻找语料中相似的问题描述,构建答案抽取模板,并添加了问题情感分析。信息检索阶段使用传统信息检索技术获得答案可能所在的文档,并对文档进行排序。答案抽取阶段包括答案抽取和答案排序,将信息检索阶段得到的结果根据问题类型抽取并获得最终答案。

5 结论

本文介绍了高校图书馆信息咨询自动问答技术。问答系统包括问题分析、信息抽取、答案抽取。问题分析提取用户问题中的关键词、关键词组合及扩展,为信息检索和答案抽取指明正确的方向。信息检索利用关键词、关键词组合及扩展获取资源库中可能包含答案的文档或片段,为答案抽取缩小、精确答案抽取范围。答案抽取从可能包含答案的文档或片段中为用户抽取简洁准确的答案。三个子系统功能各自独立,但又相互联系。

使用自动问答系统能够为用户提供7*24的咨询服务,提高咨询服务效率和质量,延长服务时间。

[1]张晓孪. 中文问答系统中问题理解与信息检索的研究与实现[D]. 西北大学, 2007.

[2] 晋月培. 基于关联分类的短信分类研究[D]. 北京工业大学, 2015.

[3] 刘增健. 基于网络搜索的问答系统[D]. 哈尔滨工业大学, 2013.

[4] 毛先领, 李晓明. 问答系统研究综述[J]. 计算机科学与探索, 2012, 06(3):193-207.

[5] 姚飞, 纪磊, 张成昱,等. 实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J]. 现代图书情报技术, 2011, 27(4):77-81.

[6] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012(z1):127-132.

[7] 沈奎林, 邵波, 赵华. 利用微信构建图书馆智能问答系统[J]. 图书馆学研究, 2015(8):75-80.

[8] 李雪婷, 李莘. 图书馆微信平台自动问答机器人语言体系研究[J]. 现代情报, 2016, 36(10):99-101.