搜索引擎Spider到底会不会“爬”?

2016-07-19 735 0 编辑:深色多郎 来源:SEO书籍

网站建设后,网站都要靠吸引Spider,那么搜索引擎Spider是一个什么东西,会爬吗,你们还真别说,他就是靠爬行抓取获取资料和资源,就让我们来八一八什么是搜索引擎Spider?

Spider抓取一个网页后会优先把网页中的URL提取出来,同时记录和计URL的形式、位置、锚文本、当前页所赋予的权值等信息,然后把这些URL合并到抓取队列中,并根据毎个URL所附有的总权值等信息进行抓取队列内排序。Spider就是根据这个不断变化顺序的URL队列来抓取网页内容的,并不是从一个页面沿着链接爬到另一个页面的抓取过程。因此严格来说Spider是不会"爬"的,站长在网站日志中也可以看到Spider对网站的访问并没有refer,都是直接访问。

以往一般会把Spider抓取网页的过程形象地描述为搜索引擎放出Spider,然后这个Spider 就沿着链接不断地抓取网页,这只是一种形象的比喻而已。比如以前描述类似万年历的"蜘蛛陷阱"时,会有这样的描述"蜘蛛进入到蜘蛛陷阱后会一层一层地无限抓取下去""蜘蛛进去就出不来了""把蜘蛛永远留在站内了",这类描述给大家传达的意思都是Spider沿着链接从一个网页到另一个网页的爬行过程。其实按照实际的Spider设计,"蜘蛛陷阱"并不是把Spider留在了站内"出不去了",而是如果不加控制的话,Spider会在"蜘蛛陷阱"的网页集合中收集到无数无意义的URL并放入抓取队列中,这些URL对应的网页并没有实际有意义的内容,从而会造成Spider抓取资源的浪费。所谓的"把蜘蛛强制留在站内"对应实际的Spider抓取机制,应该是如果Spider不加限制地收集URL,就需耍无限制地抓取"蜘蛛陷阱"内的URL,然而"蜘蛛陷阱"内的URL可能是无限的,并不是"一个蜘蛛掉陷阱里出不来了"。

也就是说,Spider对网页的抓取丫'.次访问抓取,每访问一个页面都会把页面上的信息抓取回来,而不是把一个"小蜘蛛"派到网站上,然后沿着网站的链接爬行抓取大量的页面之后再返回给服务器。百度搜索"留住蜘蛛"会有大量相关文章,内容基本都是设法增加Spider抓取次数,比喻很形象,但也有些误导新同学。

搜索引擎Spider是个好家伙,他喜欢来您家,说明您网站做的不错,反之则不然,同学们可要把握好吸引甚至勾引她的计划了。

本站文章均为深正网站建设摘自权威资料,书籍,杂志或原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,我们欢迎您分享到社交网站,引用和转载,我们谢绝直接复制和抄袭!感谢您...

学习课堂

SEO博客文章是否都有存在的价值

和一同行谈论关于SEO博客原创文章的问题,他问我如何看待一些SEO博客每天更新原创文章的做法?他说:一个人的思想是有限的,每天绞尽脑汁的去挖掘一些所谓的原创出来似乎真的很勉强,你感觉有没有这个必要?

2017-03-23
2017-11-17
2017-02-21
2017-08-11

动态更新

【通知】域名注册补交/提交审核资料通知

接到.com/.net域名注册局Verisign维护通知要求:所有的.com/.net的注册需要尽快提交实名制验证资料。 个人注册,请提供个人身份证件信息,企业注册,请提供营业执照资料,而非企业之组织单位,请提供组织结构代码证件,三证合一请提供营业执照即可...

2016-07-07
2017-10-09
2017-11-15
2016-07-07

资讯知识

【百科】病毒蠕虫是什么玩意?

定义,蠕虫是要一种独立的可以自我复制的代码,并无需认为干预就能主动通过网络传播。传播途径一般有共享文件夹、电子邮件、系统漏洞、恶意网页等...

>2017-03-16
>2016-07-16
>2017-06-28
>2016-07-21
亲,请您联系我们吧

您的疑问,只要您主动联系,将为您得到最专业,最全面的解答,欢迎您询问...