如何让网站页面内容不被抓取?

2014-10-16 12:01王铮
计算机与网络 2014年20期
关键词:搜索引擎页面标签

■王铮

可能有的朋友会奇怪,网站的页面不是让搜索引擎抓的越多越好吗,怎么还会有怎么让网站页面内容不被抓取的想法。

首先,一个网站可以分出去的权重是有限,哪怕是Pr10的站,也不可能无限的分权重出去。这权重包括链到别人网站的处链以及自己网站内的内链。

外链的话,除非是想坑被链的人。否则外链都是需要让搜索引擎所抓取,这不在本文讨论范围之内。

而内链,因为有些网站有不少重复或冗余的内容。比如一些按条件查询的搜索结果。特别是一些B2C 站,在专门查询页或在所有产品页面的某个位置内,都可以按产品类型,型号,颜色,大小等进行分类搜索。这些页面虽然对浏览者来说是极大的方便,但对搜索引擎来说,这可是耗费蜘蛛极大的抓取时间,特别是网站页面较多时。同时也会分散页面权重,对SEO 不利。

另外网站管理登陆页面,备份页面,测试页面等等,也是站长不想让搜索引擎所收录的。

所以就有需要让网页的某些内容,或某些页面不被搜索引擎所收录。

下面笔者先介绍一下较为有效的几种方法:

1.在FLASH 展示不想被收录的内容

众所周知,搜索引擎对FLASH 的内容抓取能力有限,不能完全抓取所有FLASH 内的所有内容。但遗憾的是,也不能完全保证FLASH 的所有内容都不会被抓取。因为谷歌和Adobe 正努力的实现FLASH 抓取技术。

2.使用robos 文件

这是暂时最有效的方法,但有个很大的缺点。就是不传出任何的内容及链接。大家知道,在SEO 来说比较健康的页面应该是有进有出的。有外链的链入,同时也页面内也需要有链到外部网站的链接,所以robots 文件控制,让此页面只进不出,搜索引擎也不知道内容是什么。会把此页定为低质量页面。权重有可能受一定的惩罚。这个多用于网站管理页面,测试页面等。

3.使用nofollow 标签包裹不想被收录的内容

这个方法也不能完全保证不被收录,因为这并不是严格要求遵守的标签。另外,如果有外部网站链向了有nofollow 标签的页面。这样就很有可能会被搜索引擎抓取。

4.用Meta Noindex 标签加上follow 标签

这个方法可以做到防止收录而且还能传递出权重。要不要传递,看网站建设站长自己的需要。这个方法的缺点是,也是会较大的浪费蜘蛛的抓取页面时间。

5. 用robots 文件的同时在页面上使用iframe 标签展示需要搜索引擎收录的内容

robots 文件可以阻止iframe 标签以外的内容被收录。所以,可以把不想收录的内容放到正常页面标签下。而想被收录的内容放在iframe 标签内。

紧接着,再说一下已经失效的方法,大家以后不要用这些方法了。

1.使用表格

谷歌和百度早已经能抓取表格用的内容了,无法阻止收录。

2.使用Javascript 及Ajax 技术

以现在的技术来说,Ajax 和javascript 现在的最终运算的结果还是以HTML 的形式传给浏览器以作显示,所以这同样无法阻止收录。

初学者大多着眼于如何收录,但细节决定成败,怎么让网站页面内容不被抓取也是SEO 进阶人士需要注意的。

猜你喜欢
搜索引擎页面标签
刷新生活的页面
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
网络搜索引擎亟待规范
科学家的标签
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究
网站结构在SEO中的研究与应用
浅析ASP.NET页面导航技术