中文数字家庭语义词典的构建与应用研究

2013-12-23 06:27刘平峰朱孔真聂规划

武汉理工大学学报（信息与管理工程版） 2013年2期

刘平峰，朱孔真，聂规划

(武汉理工大学经济学院，湖北武汉430070)

由于数字家庭业务不断发展，数字家庭服务运营平台上聚集了大量来自不同提供商的各种服务资源，为使用户在海量资源中贴切表达需求，更准确地寻找自己喜欢的资源，这就要求实现服务资源关联互动，向用户智能推荐服务资源。然而不同服务资源提供商对资源的描述广泛存在一义多词和一词多义的语义异构问题，例如在电视购物中的自行车、单车、脚踏车等一义多词现象，在多媒体点播中的“非诚勿扰”一词既是一部电影，也是一个综艺节目等一词多义现象。这造成了数字家庭资源目录和内容描述术语间的关联关系难以识别，降低了服务资源推荐的准确率。

目前比较成熟的推荐技术有基于内容过滤推荐技术［1］、协同过滤推荐技术［2］和基于知识的推荐技术［3］等，但是这些推荐技术均未考虑到语义异构问题，基于语义相似度的推荐是解决该问题的办法。由于基于语义的推荐技术［4］具有推荐层次高、精度高等优势，但其中语义相似度和语义相关度的计算依赖于领域语义词典［5］。综观国内外语义词典的相关研究成果，国际上现有的通用WordNet 语义词典虽然提供了大量的术语间的语义关系，并提供接口，具有可操作性，但却无法支持中文环境下的语义计算［6］;国内现有的语义词典HowNet 虽然提供了一些中文术语间的语义关系，但它是通用词典，没有提供数字家庭服务中的相关术语，并且未提供接口，可扩展性和可操作性受到限制，无法适应中文环境下面向数字家庭运营的服务资源推荐语义的计算要求［7］。因此，构建中文数字家庭(以下简称CDHome)语义词典，为数字家庭服务资源推荐提供语义计算的接口，以提高推荐精度和质量，是亟待解决的问题。

1 语义词典设计

1.1 语义词典结构

语义词典结构的设计是开发语义词典的重点。通常在描述一个服务资源时，只需要了解它的同类资源、构成部件和资源属性即可。鉴于WordNet 的广泛应用性和影响力，以及WordNet以同义词集合作为最基本构造单位的特点［8］，最符合解决数据表达异构问题的需要，CDHome 语义词典的词库结构采用了类WordNet 的结构。

如图1 所示，在CDHome 语义词典中，语义关系模型用4 元组＜I，A，S，M ＞表示，其中I 为层次关系，是语义词典最基本语义类型，包括上位词汇和下位词汇，将每个概念映射到语义树(如图2所示)中，从而构成整个语义词典的基本框架;A为属性关系，利用一个N 元组表示，包括服务资源的属性和属性值;S 为同义关系;M 为整体部分关系，包括该资源的构成部分。

图1 数码相机在语义词典中语义关系模型

图2 CDHome 中“电脑”相关语义树结构

1.2 词汇获取填充

CDHome 语义词典1.0 版本现收录资源目录概念20 200 个、商品实例150 个、多媒体实例2 200个，其中概念词汇及其关系的获取主要借鉴文献［9］，采取了本体学习技术为主、人工编纂为辅的构建方法，资源目录概念的收集参考eCl@SS 国际化标准，编码参考分层次分类系统UNSPSC，然后映射成数据库模式，实现了CDHome 语义词典的树状结构。对于多媒体及商品实例的获取，依照CDHome 语义关系模型，利用“火车头”软件编写抓取模块，抓取了华数TV 视频库中的电影、电视剧2 200 部及亚马逊在线商城中数码相机实体150 个。

1.3 语义相似度算法

基于语义相似度的计算方法主要包括两种途径:①基于语义树上概念之间的语义距离，利用同义词词典计算相似度，如Hirst－St－Onge［10］语义相似度算法、Leacock－Chodoraw［11］算法、Wu－Palmer［12］算法等;②基于大规模的本体库统计信息，利用词语的相关性来计算相似度。通常选取一组特征词，利用在实际大规模本体库中上下文的出现频率得到相关性的特征向量，用向量的夹角余弦来计算相似度。考虑到规模性等因素，CDHome 语义词典语义相似度计算采取第一种计算方法中的Wu－Palmer 算法，即:

其中:sim(c1，c2)为概念c1与概念c2的语义相似度;lso(c1，c2)为最近共有祖先;depth(c)为c的深度。假设现要计算图2 中个人电脑和服务器的语义相似度，根据式(1)，个人电脑与服务器最近的祖先词汇是计算机，则:

sim(个人电脑，服务器)=［2 × depth(计算机)］/［len(个人电脑，计算机)+len(服务器，计算机)+2 ×depth(计算机)］=(2 ×5)/(2 +1 +2 ×5)=0.77

同理，个人电脑与手提电脑最近的祖先词汇是个人电脑，sim(个人电脑，手提电脑)=0.93。

2 语义词典实现

CDHome 语义词典系统采用C/S 架构设计，选用Windows 环境下复杂且灵活的Eclipse RCP技术框架和SQL Server 2008 数据库构建，系统由语义词典数据库和建立在数据库基础上的语义词典管理系统组成。如图3 所示，该系统由3 个模块组成，即语义词典编纂模块、语义词典管理模块和语义词典查询模块。

图3 CDHome 体系结构

CDHome 语义词典软件主要实现词库的管理和维护，为用户提供概念的可视化查询、词库的简单编辑等功能。如图4 所示，与传统电子词典最大的不同是，CDHome 语义词典提供了针对数字家庭服务资源概念的完备查询。它的主要功能有:①查询功能，包括概念查询和概念关系查询，为客户提供图形化查询界面，查询词汇在词典中所在层次、相关概念、同义词汇以及该概念的属性、组成部分等语义关系;②编辑功能，对录入词汇进行分类、语义关系确定，添加、修改和删除语义词典数据库中的记录。要求对录入词汇的语义关系进行自动检查，能发现语义关系建立不符合预定规则的错误词汇;③管理功能，主要负责语义词典数据库的维护，词库版本更新，批量概念自动导入等;④相似度计算，可根据式(1)计算词典中任意两个词汇的语义相似度大小。

图4 CDHome 语义词典查询结果界面

3 语义词典应用

3.1 基于语义词典的资源推荐

由于CDHome 语义词典中存储了数字家庭多媒体点播和高清购物相关的服务资源及其属性，且为服务资源智能推荐系统提供了语义查询接口，可单独作为用户查询服务资源的接口，查询语义词典收录了2 万余条概念的上下位关系、属性关系、同义词关系以及整体部分关系。

同时，语义词典还提供语义匹配接口，可计算不同概念之间的相似度。在数字家庭服务资源推荐中，可以利用CDHome 语义词典查询与用户当前消费的服务资源或与用户偏好具有高语义相似度的资源，将其推荐给用户。例如，数字家庭服务资源智能推荐系统根据用户历史行为分析出其非常喜欢“冒险”类型的电影，然后推荐系统调用CDHome 语义词典的语义相似度计算接口，计算与“冒险”这个概念语义相似度大于推荐系统预定义阈值(设定为0.7)的概念，经计算，高于该阈值的电影类型属性概念有“奇幻”、“惊悚”、“恐怖”，因此，数字家庭智能推荐系统就可以向用户推荐“奇幻”、“惊悚”、“恐怖”类电影，实现基于语义相似度的服务资源推荐功能。

3.2 基于语义相似度的推荐结果消重

协同过滤推荐算法的思想是针对与目标用户最接近的K 个邻居用户来进行推荐，利用邻居用户对服务资源的评价来预测目标用户未来对服务资源的需求［13］。在基于项目的协同过滤技术中，最终产生的推荐列表中的服务资源会存在同义或相似度较高的情况，从而产生重复推荐的问题。如图5 所示，在某用户购买数码相机的推荐中出现了两个基本相同的相机(图5 中标记为相机Ⅰ、Ⅱ的两个矩形框内)，这时就可以利用语义词典对服务资源实例进行语义相似度计算，消除重复的推荐结果。

图5 某电商网站智能推荐页面

［14］中电子目录本体实例消重方法，两个实例I1与I2之间的语义相似度计算公式为S(I1，I2)=αSC(I1，I2)+βSA(I1，I2)+xSR(I1，I2)，其中SC(I1，I2)为实例名称语义相似度，SA(I1，I2)为实例属性语义相似度，SR(I1，I2)为实例关系语义相似度，α、β、x 为权重系数，一般情况下分别取1/3。该例中，由于相机Ⅰ和相机Ⅱ名称相同，并且都属于富士数码相机分类，故SC(I1，I2)=SR(I1，I2)=1。因此其语义相似度的不同取决于属性语义相似度。首先，取出两个实例的属性集合，I1={品牌:富士;型号:JV255;颜色:蓝色;市场价:950 元;折扣:5.8;像素:1 400万;质量:108 g;质保期:1 年}，I2={品牌:富士;型号:JV255;颜色:黑色;市场价:950 元;折扣:5.8;像素:1 400 万;质量:108 g;质保期:1 年}。然后对实例I1、I2的属性进行分类，数据类型属性有市场价、折扣、型号、像素、质保期和质量等，对象类型属性有品牌和颜色。最后可参考文献［14］计算数据类型属性语义相似度，可得SDA(I1，I2)=1，可参考文献［15］计算对象类型属性语义相似度，得SOA(I1，I2)=7/9，综合得到两个相机实例的属性语义相似度为SA(I1，I2)=8/9，综合语义相似度为S(I1，I2)=26/27，如果推荐系统中设定的阈值大于26/27，则推荐系统将两个相机均推荐给用户;否则，说明实例I1与实例I2之间的相似度已经大到足够说明两者表示的是相同实例，故应该删除其中一个实例，将第二个相机实例过滤，只推荐第一个相机给用户［16］。

4 结论及展望

针对数字家庭服务资源描述的语义异构性造成服务资源推荐精度和质量低的问题，在国内外通用语义词典WordNet 和HowNet 的理论研究基础上，结合领域词典设计方法，融合Wu－Palmer语义相似度算法，利用Eclipse RCP 开发技术，设计和实现了CDHome 语义词典系统，为数字家庭服务资源推荐提供语义查询与语义计算功能。该语义词典具有较强的可扩展性，可以方便地基于其进行其他领域语义词典的快速构建。目前CDHome语义词典的概念填充主要采用半手工方式，但是由于领域专业术语词汇量大且不同领域专业术语词汇差异性较大，这种方式需耗用较高的人力和时间成本，后期将结合本体自学习理论，研究领域语义词典自动填充技术的实现。

参考文献:

［1］刘枚莲，刘同存，李小龙.基于用户兴趣特征提取的推荐算法研究［J］. 计算机应用研究，2011，28(5):1664－1667.

［2］王茜，杨莉云，杨德礼.面向用户偏好的属性值评分分布协同过滤算法［J］. 系统工程学报，2010，25(4):561－568.

［3］赵英，袁莉. 基于内部网络结构的知识推荐系统设计研究［J］.情报杂志，2012，31(1):161－165.

［4］刘平峰，聂规划，陈冬林.语义网技术在电子商务中的应用研究［J］.情报杂志，2007(3):98－100.

［5］ LIU H Z，BAO H，XU D. Concept vector for semantic similarity and relatedness based on WordNet structure［J］.The Journal of Systems and Software，2012(85):370－381.

［6］边振兴.WordNet 中概念语义相似度IC 参数模型研究［J］.计算机工程与应用，2011，47(19):128－131.

［7］冯永，张洋. 基于概念间边权重的概念相似性计算方法［J］.计算机应用，2012，32(1):202－205.

［8］曾淑琴，吴扬扬.基于HowNet 的词语相关度计算模型［J］.微型机与应用，2012，31(8):77－80.

［9］ NIE G H，ZHANG B. The design and implementation on Chinese E－ecommerce semantic lexicon ECNET［C］//2008 International Conference on Computer Science and Software Engineering. ［S. l.］:［s.n.］，2008:753－755.

［10］傅魁.基于Web 的本体学习研究［D］.武汉:武汉理工大学图书馆，2007.

［11］PHILIP R.Using information content to evaluate semantic similarity in a taxonomy［R］.［S.l.］:［s.n.］，1995.

［12］JIANG J J，CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy［R］.［S.l.］:［s.n.］，1997.

［13］LIN D. An information－theoretic definition of similarity［C］//Proceedings of the Fifteenth International Conference on Machine Learning. SanFranciseo:Morgan Kaufmann Publishers Inc，1998:296－304.

［14］夏培勇. 个性化推荐技术中的协同过滤算法研究［D］.青岛:中国海洋大学图书馆，2011.

［15］刘平峰，章佩璐，陈冬林.电子目录本体合并中的实例消重方法研究［J］.计算机工程，2012，38(2):32－35.

［16］聂规划，左秀然，陈冬林.本体映射中一种改进的概念相似度计算方法［J］.计算机应用，2008，28(6):1563－1565.