分析百度蜘蛛是如何爬行抓取页面
每个搜索引擎都有一套pagerank(指页面权重,非google
PR)计算方法,并且经常会更新。互联网近乎无穷大,每天都会产生海量的新链接。搜索引擎对于链接权重的计算只能是非完全遍历。为什么Google
PR要三个月左右才更新一次?为什么百度大更新一个月1-2两次?这就是因为搜索引擎采用了非完全遍历链接权重算法来计算链接权重。其实按照目前的技术,
实现更快频率的权重更新并不难,计算速度以及存储速度完全跟得上,但为什么不去做?因为没那么必要,或者已经实现了,但不想公布出来。那,什么是非完全遍
历链接权重计算?
我们将K数量的链接形成一个集合,R代表链接所获得的pagerank,S代表链接所包含的链接数量,Q代表是否参与传递,β代表阻尼因数,那么链接所获得的权重计算公式为:
从
公式
里可以发现,决定链接权重的是Q,如果链接被发现作弊,或者搜索引擎人工清除,或者其他原因,Q被设为0,那么再多的外链都没用。β是阻尼因数,主要作用
是防止权重0的出现,导致链接无法参与权重传递,以及防止作弊的出现。阻尼因数β一般为0.85。为什么会在网站数量上乘以阻尼因数?因为一个页面内并非
所有的页面都参与权重传递,搜索引擎会将已经过滤过的链接再度剔除15%。
但这种非完全遍历权重计算需要积累到一定数量的链接后
才能再次开始计算,所以一般更新周期比较慢,无法满足用户对即时信息的需求。所以在此基础上,出现了实时权重分配抓取策略。即当蜘蛛完成抓取页面并入口
后,马上进行权重分配,将权重重新分配待抓取链接库,然后蜘蛛根据权重高低来进行抓取。
我们都知道,大部分网站都是按照树状图来完
成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级
链接,待同级链接抓取完成后,再抓取下一级链接。大家可以发现,我在表述的时候,使用的是链接结构而不是网站结构。这里的链接结构可以由任何页面的链接构
成,并不一定是网站内部链接。这是一种理想化的宽度优先抓取策略,在实际的抓取过程中,不可能想这样完全宽度优先,而是有限宽度优先。
社会工程学策略,就是在蜘蛛抓取的过程中,加入人工智能,或者通过人工智能培训出来的机器智能,来确定抓取的优先度。目前我已知的抓取策略有:
a、热点优先策略:对于爆发式的热点关键词进行优先抓取,而且不需要经过严格的去重和过滤,因为会有新的链接来覆盖以及用户的主动选择。
b、权威优先策略:搜索引擎会给每个网站分配一个权威度,通过网站历史、网站更新等来确定网站的权威度,优先抓取权威度高的网站链接。
c、用户点击策略:当大部分搜索一个行业词库内的关键词时,频繁的点击同一个网站的搜索结果,那么搜索引擎会更频繁的抓取这个网站。
d、历史参考策略:对于保持频繁更新的网站,搜索引擎会对网站建立更新历史,根据更新历史来预估未来的更新量以及确定抓取频率。
推荐资讯
推荐站点
- 纸质化妆盒厂家
纸质化妆盒、又叫纸质眼影盒、纸质腮红盒、眼影纸本、手工眼影本、眼影书本等叫法、纸质化妆品盒有以下优势。。。1、纸质眼影盒特点,产品多元化:工艺纸盒具有重量轻、品种多样化的特点。不像注塑的产品由于磨具限制的原因,款式形状单一。2、环保优势:纸质眼影盒内外选用的均是纸质的环保材料,具有可回收、可降解等特点,相比现有的眼影盒通过注塑成型,更加环保,可有效防止环境的污染和破坏不但可以重复利用,还可以用废弃的纸包装制品造肥。3、技术优势:纸包装材料伸缩性小,不受热和光的影响,具有更好的稳定性;纸的不透明性,能够提供隐蔽隔离,使某些产品不能从包装外部看到,满足了某些产品的包装需要。工艺纸盒还具有良好的透气性、柔软性、强度及可控的撕裂性能;使产品有很好的弹性和韧性,可以对被包装物提供一定的保护作用。
www.f58f.com - 大中华电子商务网
大中华电子商务网免费发布不限制条数,大中华电子商务网是一个可以免费发布分类信息的B2B平台。可免费发布您的产品信息!便捷免费的B2B供求信息发布平台
www.greatercnb2b.com - 大中国商业信息网
大中国商业信息网免费发布不限制条数,大中国商业信息网是一个可以免费发布分类信息的B2B平台。可免费发布您的产品信息!便捷免费的B2B供求信息发布平台
www.greatcnb2b.com - 全球商务信息网
欢迎访问全球商务信息网,这里有各行业信息网/B2B电子商务网站,是最方便的免费网络推广平台,已成为无数商家网络营销/网络推广的首选网站
www.globalb2bcn.com - 国际电子商务网
欢迎访问国际电子商务网,这里有各行业信息网/B2B电子商务网站,是最方便的免费网络推广平台,已成为无数商家网络营销/网络推广的首选网站
www.intbtb.com