三农网络文本信息资源集成系统

2015-04-29 07:26高万林张树亮李佩佩臧金玉赵龙胡慧
农学学报 2015年11期
关键词:集成提取

高万林 张树亮 李佩佩 臧金玉 赵龙 胡慧

摘要:三农网络资源的集成是一项浩大的工程,同时也是一项利国利民的事业。网络资源的种类包括文本、图片、音频、视频等形式。如何在众多的网络信息中将有用的三农信息提取出来,成为亟需解决的一个问题。文章以对三农文本网络信息进行集成为例进行研究,提出三农网络文本信息集成系统设计方案,通过采集管理模块、过滤管理模块、规则管理模块、采集信息管理模块将信息资源集成,方便了三农信息的整合,便于信息的阅读和获取。

关键词:三农网络信息;集成;提取

中图分类号:S-9 文献标志码:A 论文编号:2013-0134

0引言

三农网络信息资源集成系统,又称三农信息资源整合平台,主要包括文本、图片Ⅲ、音频和视频4种形式信息资源的整合。三农文本网络信息资源集成系统,主要是针对互联网上三农文本信息资源的整合,所谓的整合就是提出糟粕采集精华。针对互联网络海量的信息,如果只通过复制和粘贴采集重要的信息,则可以说是沉重的工作。本系统基本功能就是要从海量的网络信息中,采集重要的文本信息。

1系统结构及用例图

三农网络文本信息资源集成系统是基于JAVA语言开发,系统设计结构图如图1所示,系统用例图如图2所不。

2系统功能

在三农信息资源整合平台一文中已经讲过,三农信息资源集成系统共有4个大的模块:采集管理模块、过滤管理模块、规则管理模块、采集信息管理模块。这些功能模块同样在三农文本网络信息集成系统中适用,只是这时的信息一般指文本信息而已,文本信息是三农信息资源4种信息形式的一种,同样其他3种图片、音频、视频信息的采集系统也都包含相应信息形式的这4个大的模块,4模块的介绍也可参见三农信息资源整合平台一文中的概述。

为了系统的安全性用户必须成功登录系统,才可以操作采集的项目。需要采集的项目都和用户关联。一个用户只允许操作自己的采集项目和采集信息。用户登录成功后,可以对个人的信息和密码进行修改。

2.1采集管理模块

采集管理模块管理的对象主要是,其一是管理需要采集网站的一些基本信息,包括:采集网站名称,采集的网址,采集的模型,采集的信息的模型和备注。其二是:管理定时计划。

2.1.1采集管理采集管理主要是管理需要采集的网站。此模块将所有需要采集的网站统一管理起来,可以通过制定定时计划,系统自动采集网站内的信息。因为一些网站会阶段性的发布最新的信息。为减少用户的采集操作,用户可以对长时间需要采集的项目统一管理起来,并且制定定时和过滤的方式。让系统阶段性的访问需要采集的网站,采集最新的信息。

图3是采集管理的初图,根据用户来分开大量的采集信息。任何一个普通用户,只允许操作个人定义的信息,管理员的角色可以操作任何采集的信息和管理所有的采集项目。普通用户在进入系统后可以添加采集、编辑采集、删除采集、采集信息、指定规则、添加定时的操作。

(1)采集网站添加。用户登录成功后,可以根据自己浏览的信息添加采集项目。采集项目包括:项目名称、采集网站名称、采集的网站地址、采集的模型、信息模型和备注等信息。系统会根据所填写的信息访问需要采集的网站。

(2)采集网站编辑。用户可以对个人添加的采集信息进行重新编辑。添加的任何一个项目不符合要求就可以修改,任何一个条件都可以随时修改。

(3)采集网站物理删除。用户可以对个人添加的信息删除,删除模式是物理删除。每一次添加的项目采集后则就不需要重复采集,如果逻辑删除后期会占用大量的空间。所以采用物理删除模式。

(4)信息采集。如果没有定时,只采集单条记录。定时后会采集整个网站的信息。方便用户操作所以在采集管理模块添加了采集的功能,采集后的信息会包含Html标签,用户可以对采集后的信息进行处理,包括:自动过滤或者手动过滤;生成html或者是删除的操作。

(5)指定规则。指定规则采集,简单的讲就是:通知系统如何去采集网站信息。在采集项目的时候可以首先制定一个项目采集规则,通过规则管理页面可以完成于项目的绑定和移除。项目指定好规则之后,系统会根据项目采集的信息自动过滤掉HTML标签。系统采集流程如图4所示。

2.1.2定时管理定时管理是集成在采集管理模块内的。从操作流程来讲应该属于采集管理模块下的一个功能。但是因为定时对整个系统是很重要的一个部分,所以单独来分析这一模块。定时的实现技术主要是通过AJAX异步通讯来完成定时模块的主要功能“”。定时流程如图5所示。

图5是定时采集流程图,系统内部通过AJAX异步通讯技术,自动查询每个项目的属性。如果项目已经添加定时计划,则自动查询定时表,得到详细的定时计划。通过所定的属性,采集相关的网站。返回最新的信息。

(1)制定定时计划,为项目添加定时。定时计划主要包括:开始时间,结束时间,时间间隔。系统根据添加的时间,计算是否需要采集网站信息。

(2)修改定时计划。不合理的时间计划可以修改定时计划,所有修改的内容包括:开始时间,结束时间和时间间隔。

(3)取消定时。如果项目添加的定时计划已经到了结束日期,系统自动取消定时计划。如果用户不需要定时计划也可以手动取消定时。

2.2过滤管理模块

过滤管理的模块主要管理的对象是需要过滤的信息,一些信息在采集的过程中没有指定规则过滤,采集后的信息都包含Html代码,过滤Html代码需要通过此模块的功能来完成。过滤的模块包括:自动过滤、手动过滤、生成Html和删除需要过滤的信息。

过滤管理是本系统中必不可少的一项功能。采集后的信息都要通过过滤这一程序,达到信息可以使用的价值。过滤主要是针对包含HTML标签的信息。用户可以指定规则,也可以手动来过滤这些信息。

过滤模块是管理员操作最多的模块。如果要采集可以使用的信息,这一模块就是系统的核心部分。用户可以过滤文本信息、所有的链接、所有的图片、所有的音频和直接过滤。如图6是信息过滤图。

如果需要采集的信息没有指定定时计划,则需要通过手动过滤来完成信息的采集。同时也可以先添加规则把需要采集的项目指定规则批量的处理。

2.2.1文本信息过滤文本信息过滤分为标题、时间、作者、来源、内容、文本内容图片几个大部分。通过这6个部分采集文本信息。

2.2.2生成规则不同的信息采集的方式不同,所采用的技术也是不同。文本信息主要分为了6个大的部分,上面已经简单的介绍。在采集的过程中把过滤标签的方式生成规则,在生成规则的同时规则已经和项目自动绑定。在此采集同一网站类似的信息就可以采用此规则,因为规则在相同的架构和相同的标签内可以多次重复使用。

2.3规则管理模块

针对非模块化的网站架构,系统不能独立完成对网站的采集和过滤。此模块主要是管理需要过滤的掉的Html标签。每一网站都可以有一个或者多个Html标签和采用多个过滤的技术完成。过滤的技术包括:文本截取,直接截取,正则截取。此模块可以为项目制定规则,同时也可以分配已经制定好的规则和移除已经绑定的项目。

每个页面都有独特的HTML标签,有些网站是通过表格而有些网站是通过CSS,所有的网站布局方式都不同。如果每个网站都写一个方法来采集,可想而知需要写多少类和多少方法来完成。互联网络的信息之多通过此方法是无法达到整合的。为了要整合互联网络的三农信息,我们通过制定规则来完成,每个网站只要配置一些信息,就可以采集整个网站的信息。

规则管理主要是制定一个网站固定的规则,这样当系统执行自动抓取的时候,就可以调用这些规则,完成自动抓取、自动过滤的功能。规则可以从几个大部分考虑,其一:字符处截取;其二:字符串替换;其三:文本规则。通过制定这些规则,每次采集这个网站的信息就会调用此规则。如果没有指定规则,网站包含HTML存入数据库中。包含HTML标签的信息就需要手动指定规则或者手动处理信息。

2.3.1添加规则添加一个固定规则由系统内容自动处理采集信息大大的减少了用户的操作。如果添加的信息能够适应更多的架构则就会减少更多的用户操作。在采集的同时如果能灵活的使用规则就可以更好的完成采集工作。

2.3.2编辑规则网站的架构有很大的不同,如果一个规则可以使用多个网站可能就要做多次的修改。用户可以随时对采集的规则编辑,编辑修改后的规则绑定好的项目的都会使用最新的规则采集网站信息。

2.3.3删除规则规则管理模块包含了删除规则的操作。用户点击了删除的操作所有的绑定项目都会失效,采集的项目都需要手动处理采集的页面信息。

2.3.4分配项目规则在添加好之后都需要和项目绑定才能被系统调用。一个规则可以绑定多个项目,但是一个项目只允许绑定一个技术的规则。规则分为几个技术分类:标题、作者、内容、时间、来源、图片。一个项目只可以绑定一个技术。如果要绑定必须先移除在重新绑定项目。

2.3.5移除项目一个项目无法绑定相同技术的规则,如果要绑定就必须先移除项目。

2.4采集信息管理模块

采集信息管理模块主要管理采集后的信息。一些不合格的信息可以通过此模块加以处理。所进行的操作有:编辑信息、删除信息、预览信息。

信息管理主要是管理采后的信息,此信息已经不包含HTML标签。用户也可以通过编辑采集后的信息,达到预期的效果。信息管理初图如图7所示,它是采集后的信息,用户可以对其进行删除、编辑和预览等的操作。

2.4.1编辑采集信息编辑采集信息主要是针对采集后的信息进行处理,如果采集的信息不符合要求或者不合法,可以对信息加以处理;处理的方式:修改文字、添加图片等操作。

2.4.2删除采集信息删除不符合要求的信息。在采集的同时无法避免会采集一些垃圾信息,不要的信息就可以点击删除的操作,删除不符合要求的信息。

2.4.3预览采集信息本地预览修改好的效果或者采集的效果。一些信息在发布的时候需要调试预览效果,如果效果不好可以再次的编辑,如果符合要求就可以直接使用或者发布。

2.5自动采集

自动采集是采集文本信息的核心技术。大部分网站都是动态建站,网站的信息都是及时更新,如果能采集网站最新的信息则是重要的一方面。所以能够自动采集网站信息,就随时采集最新的信息。信息只要发布到网站上,系统就会去网站采集最新的信息。当然和系统是如果制定定时计划有很大的关系。

系统自动采集主要是通过AJAX异步通讯技术来完成。异步通讯技术通过配置XML来完成对项目自动的查询和自动采集。AJAX可以阶段性的来查询,通过判断采集时间和定时计划计算需要采集的时间。系统内部自动采集流程如图8所示。系统启动之后,AJAX自动运行,采集最新的信息。

3数据库设计

本系统的数据库设计是后台管理很重要的一部分,其中各个表的功能都非常重要,各项功能信息均需通过事先设置好的表来存储。如图9所示为系统中用到的各个表及其关系。用户表主要是存储用户信息,用户的信息主要是管理员的一些基本信息,只需要一些联系方式即可。模型表主要是因为采集的信息有不同的模型而得。信息表主要存储采集好的信息。Html表是当自动采集的信息没有指定规则的时候,主要存储包含HTML标签的信息表。定时表主要是存储项目定时属性。规则管理表主要是存储过滤规则。采集表主要存储需要一次性和长时间采集的网站和采集的方式。规则采集表是多表连接表,它是规则和采集表的连接查询表。表1为用户表。

4结论

此三农文本网络信息集成系统设计方案已经作为三农信息资源整合平台必不可少的一部分嵌入其中,主要解决三农资源整合中的文本信息的搜集整理问题,文本信息是三农资源中数量最多、范围最广的资源,也是最最重要的资源形式。

三农信息资源整合平台已正常运行了2年,其中的文本信息整合功能也随之正常运行了2年,文本信息还是三农信息报最主要的组成形式,也是最便于嵌入到其他形式阅读浏览器中的信息形式,三农文本网络信息集成系统已成为三农信息资源整合中最关键的部分,也将会随着技术的进步而不断发展更新。

猜你喜欢
集成提取
浅谈企业信息化系统集成
数字化监控系统的企业应用
现场勘查中物证的提取及应用
土壤样品中农药残留前处理方法的研究进展
中学生开展DNA“细”提取的实践初探
浅析城市老街巷景观本土设计元素的提取与置换
虾蛄壳中甲壳素的提取工艺探究
阳台集成式景观设计方法初探
集成一体化智能熔点仪的研究
环保新型缓蚀剂发展状况与展望