新快3是哪的
当前位置:厦门SEO > SEO优化 > 正文

搜索引擎如何通过蜘蛛对网页抓取和收集?

龙腾SEO 2018-11-01 1420 0

做为一名SEO优化从业人员,长期要跟搜索引擎打交道,那么一定要了解搜索引擎的一些工作原理,比如是怎样通过蜘蛛程序对网页进行抓取和收集,其实这是搜索引擎工作的第一步,将抓取到的页面存在了原始数据库中,当我们了解了网页的抓取机制,可以更好的做网站优化。

蜘蛛抓取网页

那么什么是蜘蛛,是指按照指定的规则,在网络上对网站的页面代码或者脚本进行自动抓取工作。而我们如果没有对代码中的链接进行屏蔽,那么蜘蛛(爬虫)就可以通过该链接对站内或站外进行爬行和抓取。


由于网站的页面链接结构多样化,蜘蛛需要通过制定的爬行规则才能抓到更多页面,比如深度抓取还有广度抓取。深度是蜘蛛从当前页开始,逐个链接的爬行下去,处理完后再进下一个页面的爬行;广度是蜘蛛会先将这个页面中链接的所有网页全部抓取,再选择其中的一个网页链接继续抓取,这个方法可以使蜘蛛并行处理,增加了抓取的速度,所以是比较常用的方式。

而为了照顾到更多的网站,通常深度与广度是混合使用的,在抓取中也会考虑网站的权重、规模、外链、内容更新等因素,另外为了提高抓取的速度,正常是多个蜘蛛并发分布去爬行页面。我们根据这个原理,进行网站优化时要合理做内链优化,方便蜘蛛的顺利爬行。

另外为什么我们要在高权重的网站做链接,原因是这些网站蜘蛛多,带有导航性我们称为种子站点,蜘蛛会将这些站做为起始站点,所以我们在这些高权网站添加了链接,会增加抓取的入口。
蜘蛛收集机制
最后讲下搜索引擎的收集机制,当网站有定期定量在更新内容时,蜘蛛也会有规律的来网站抓取,所以这个抓取的频率会受到更新周期的影响,也就是如果网站长期不更新,那么蜘蛛就不会经常来抓取,因为蜘蛛?#30475;?#29228;行会将页面数据存储起来,当多次爬行时发现页面与之前收录的完全一样,没有内容更新,那么就不会频繁的来访问,所以我们要保持定期定量的更新,并且内容要有质量,这样当页面?#34892;?#30340;链接时也会被更快抓取。

转载请注明来自龙腾SEO,本文标题:搜索引擎如何通过蜘蛛对网页抓取和收集?
本文地址:标签:百度蜘蛛搜索引擎

本文暂时没有评论,来添加一个吧(●'?'●)

欢迎 发表评论:

关于我

欢迎加?#19994;?#24494;信号交流

文章代更新
热门文章
随机tag
?#27809;?#20307;验404 not foundwordpress搬家建立博客仿站外链建设FastCGIftp站点cdn加速免费网盘百度竞价推广微博营销电商推广品牌知名度url地址搜索引擎长尾关键词网站诊断百度网站收录网络营销百度快照wap推广网站搬家网站优化
新快3是哪的
幸运飞艇官网开奖直播app 康宝莱俱乐部赚钱吗 亲朋棋牌官方下载 江西多乐彩开奖走势图 3d福利彩票开奖结果 乐赢彩票群 怎样才能快速赚钱买房子 青海快三电视走势图 pk10牛牛公式图解 黑龙江11选5根号技巧