大数据对于搜索引擎技术重要性的探究

2020-12-28 02:10许恒源袁彩虹
电脑知识与技术 2020年33期
关键词:大数据分析搜索引擎发展趋势

许恒源 袁彩虹

摘要:搜索引擎作为人们生活工作、科研等必不可少的核心工具之一,它在很大程度上影响了人们的日常生活。在互联网技术飞速发展,信息急速增长等情况下,人们需要功能更加强大的搜索引擎。对此,该文介绍大数据分析和搜索引擎技术相结合带来的益处和优势。大数据搜索引擎技术也必然会成为搜索引擎的一个正确的发展方向,并为人们学习和生活提供更加有效的帮助。

关键词:搜索引擎;大数据分析;发展趋势

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2020)33-0041-03

开放科学(资源服务)标识码(OSID):

大数据时代已经到来,随着互联网的不断发展,人们无时无刻不在产生新的数据,并且堆积新的数据,人们也可以使用已经存在的大数据分析出新的数据,得到新的答案。搜索引擎在我们的现实生活中已经成为不可缺少的一部分。如谷歌、百度、搜狗等这些搜索引擎已经成为帮助人们解决问题查找答案的代名词,并且已经与人们的生活、学习和工作密不可分,无论是新闻、天气、疾病、文献或者某些名人的信息等人们想知道的信息,都可以从搜索引擎中得到答案。在两大技术广泛应用的时候,将大数据分析技术和搜索引擎技术相结合会更有利于人们搜索自己需要的答案。本文也在此猜想的基础上进行深入探索。

1 搜索引擎

1.1搜索引擎的定义和发展历史

搜索引擎是一种计算机程序,它是特定的搜索策略,用在文件、信息记载或数据库中进行搜索,并且它的核心模块一般包括爬虫、索引、检索和排序等。搜索引擎自身的特点包括信息查找和抓取的速度之快、挖掘信息的深度之深、检索出的内容具有多样性和广泛性等。

摘要搜索引擎是一种工具,它根据搜索字符串,搜索引擎返回结果,这被称为搜索引擎结果页(SERPs)。通常情况下,搜索引擎会得到正确的结果,并显示最相关的结果,所以搜索引擎没有固定的规则来显示准确的结果。

第一代搜索引擎具有的特殊要点是通过人工分类、存放网站的各种目录,并且用户可以通过多种方式寻找网站,因为在当时那个互联网刚刚兴起的时代,那时的信息与技术和现在根本无法相比。代表有Yahoo。

后来随着网络上的信息量快速增加和数据的大量出现,第二代搜索引擎开始利用关键字查询信息,基本上就是利用爬虫技术( Crawler)等来采集信息和索引网站。第二代最成功的代表就是Google。

1.2 搜索引擎的工作原理

现在的搜索引擎进行工作一般都是以下几点:1)搜索引擎蜘蛛访问Web,进行网页抓取;2)对抓取来的网页进行预处理然后再建立索引;3)在搜索界面进行查询服务。

因为现代搜索引擎搜索信息的速度快范围广,并且检索内容广泛,所以当代搜索引擎技术基本上可以无条件满足人们的各种各样的数据类型的检索,例如智能语言,不仅音频映像图片可以被检索,甚至人类的指纹、面部特征等都可以被检索。

1.3现代搜索引擎的不足之处

众所周知,人们可以通过使用搜索引擎来获得自己想知道的答案,但是现代的搜索仍然不是人们想要达到的最终目的。现代搜索引擎存在的不足之处有:(1)现代搜索引擎无法实时检索,对信息进行实时更新的能力比较差,主要是现代网络信息量巨大。(2)信息无法准确地分类,因为信息建立索引数据库的同时,接触到的信息量过于巨大,所以会导致分类不准确。

因此,人们在使用搜索引擎时,为了提高搜索的效率,经常会使用一些搜索技巧,例如在Coogle搜索中使用逻辑符号搜索就是一种老套的技术:利用双引号(“”)查询完全符合关键字串的网站、在关键词的前面使用加号+就表明搜索结果中的网页上必须有该关键字、在关键词的前面使用减号一就表明在查询结果中不能出现该关键词。

通过搜索引擎优化技术SEO(Search Engine Optimization)也是一种好的方法,可以有效地提升搜索的覆盖面,但是它还是不能准确到其中最重要的一点,并且不能够通过数据来分析搜索到的结果的其他可能性。

2 将大数据的分析融入搜索引擎中

2.1 大量数据堆积

由于人们已经到了离不开信息和数据的地步,所以大量数据开始从各个方面产生,并且堆积在一起。人工整理的数据主要掌握在政府部门、机关组织和一些企业手里;社交产生的数据,例如QQ、微信等聊天数据或者是邮件、App产生的数据;个人的云应用产生的数据,许多用户现在已经选择将数据保存在云端;物联网产生的数据,例如水文监测、监控录像等物联网应用,每时每刻都在产生大量的数据。现在正处于大数据的时代,人们可以轻易地利用信息技术快速地了解更多的信息。例如,用户用手机搜索某样东西,数据会上传到大数据中心,数据库会分析信息并反馈给应用程序,系统就会清楚地了解到要向不同用户推荐的内容。

2.2 大数据对搜索的价值

2.2.1 大数据分析的用途

大数据分析基本分为可视化分析( Analytic Visualizations)、数据挖掘算法( Data Mining Algorithms)、预测性分析能力(Pre-dictive Analytic Capabilities)、语义引擎(Semantic Engines)、数据质量和数据管理、数据存储、数據仓库。

2.2.2 将两种技术相融合的价值

根据笔者多方面查找的资料和对这两种技术的分析发现,由于现在人们使用的搜索引擎还无法和大数据分析深度相结合,不能更直观地展现给使用者,所以没有了解过大数据分析的人使用搜索引擎是无法查得出未来事情的,只能凭借一味地猜想。因此,需要将搜索引擎更进一步的智能化,使抓取的网页和提取的数据更加的精确,由搜索引擎自我进行大数据分析并给出结果,这样子在人们搜索时就可以得到更深入有效的答案,不需要人们自己去查找数据库分析数据得出结论。即在现有搜索引擎的基础上,增加对“大数据”处理和分析的能力。

3 大数据分析与搜索引擎相结合的实验研究

大数据分析方向是分析的一个主要环节,大致可以分为六种:可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理、数据存储,数据仓库,它们各自都是不同的方向和特点。在搜索引擎中,文件多是以大数据集的方式出现,根据多方搜索,我们发现通过在搜索引擎上只能查找到已经存在的数据例如过去和现在波士顿的房价,以及波士顿各地区犯罪次数,但根本无法分析到波士顿的房价的变化和各地的治安情况之间的关系,因此笔者翻阅浏览了国外的某个数据库( Kaggle)并找到所需要的数据集进行分析。找到了一个506行13列的数据集,里面包括犯罪率( CRIM: per capita crime rate bytown)、CHAS: Charles River dummy variable r_1 if tract boundsriver;0 0therwise)、LSTAT:%lower status of the population,房价(PRICE: Median value of owner-occupied homes),并使用R和MATLAB分析方法来得出各个数据之间存在的关系。在大量的实验数据中,选择了下面几组数据以展开分析。

经过这一系列科学并有效地分析证明了房价高的地方治安较好犯罪率也较低。

以Google开发出的软件为例,用于数据密集型应用的Google File System;简化处理数据集和创建大规模数据集的编程模型MapReduce;用于管理和存储大规模的非结构化数据的BigTable;处理分布式系统队列分组并且执行任务调度的Google Workqueue等软件,都为搜索引擎和大数据分析两项技术相结合起到很大的作用。

4 搜索引擎与大数据分析技术相结合的影响

搜索引擎与大数据分析技术相结合,将搜索引擎建立在知识库、数据库的技术上,使搜索更加的智能化,并通过对信息进行提取和分析,精準地实现了智能化搜索这一特点。

5 结论与展望

时代进步科技发展,搜索引擎技术也一步步的从最初分类目录导航进化到海量网页关联再更新到了细粒度的知识实体抽取,从第一代进化到第三代,搜索引擎技术变得愈来愈成熟也更加庞大,囊括的辅助性的知识内容也越来越多,简简单单的一行搜索框背后隐藏着极其复杂的机制。人们想要的是找准唯一的、正确的答案,所以搜索引擎与大数据分析技术相结合是未来必不可少的、更加智能的搜索技术。若想要了解清楚在这个特殊的技术背后的原理,我们仍需要在未来投入大量的工作并展开更加深入的研究,仅仅做几组实验通过数据浅显的证明是不够的。我期望这一先驱性的工作可以激励本领域更多的同行研究人员在此方向上开展更为相近深入的研究。让搜索引擎将在我们以后的生活中发挥更加出色的作用,将它与我们的生活变得更加的密不可分。

参考文献:

[1]姜恩波,覃琳.基于结构化数据的搜索引擎[J].现代情报,2019,39(2):66-72.

[2]李海莹.百度公司搜索引擎技术的专利分析[Jl,中国发明与专利,2019(4):99-106.

[3)周永红,吴芳.大数据时代搜索引擎用户的信息安全问题研究[J].图书馆,2017(5):32-35,57.

[4]刘波,计算机搜索引擎智能化技术探析[J].现代信息科技,2019(5):102-104.

[5]龙佳,论搜索引擎的特点与发展态势[J].电脑知识与技术,2019,15(1):200-201.

[6]方师师.搜索引擎中的新闻呈现:从新闻等级到千人千搜[J] 新闻记者,2018(12):45-57.

【通联编辑:代影】

作者简介:许恒源(1999-),男,河南温县人,河南大学,本科,主要研究方向为计算机科学与技术;袁彩虹(1980-),女,河南开封人,河南大学,讲师,博士,主要研究方向为计算机视觉与深度学习。

猜你喜欢
大数据分析搜索引擎发展趋势
传媒变局中的人口电视栏目困境与创新
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析