新快3是哪的
当前位置:厦门SEO > 站外优化 > 正文

搜索引擎的工作原理及构成部份浅析

龙腾SEO 2018-11-17 1198 0

搜索引擎是seo从业人员每天都要打交道的,所以想做好优化就必需要了解搜索引擎的工作原理,首先要明白搜索引擎由哪些部分构成,因为这些都跟搜索引擎的工作流程相关连,今天就对搜索引擎的构成部份进行浅析。

搜索引擎的工作原理及构成

一、爬虫。

也称为蜘蛛,它的来访?#27973;?#30340;重要,爬虫会抓取出网络上的页面、程序或者脚本,采集网站可以访问的页面内容从而进行缓存。搜索引擎最重要的是响应时间,如果你在搜索内容的时候,需要一分钟后才能反馈给你结果,用户的体验感会大打折扣,搜索引擎为了满足速度的需求,都采取缓存的做法。

对于爬虫来说,更青睐网站运营时间长、?#20013;?#39640;质量内容产出、有抓取深度的站点比较?#34892;?#36259;。那么爬虫什么时候来抓取页面呢?spider会检测你的网页文章的更新频率,对每一个URL集合计算出最适合爬虫抓取的时间,?#32531;?#22312;访?#39318;?#21462;。爬虫也有自己的工作目标,它要对抓取的网页进行描述和定义、要对网页进行过滤、还有URL的索引策略。

二、用户搜索界面。
目前搜索引擎市场份额最大的仍是百度,随着信息量的不断增加,技术的不断成熟,搜索界面也变得越加规范化。用户在搜索的时候经常会涉及到这几个方面:
1、展现提示词。用户在搜索框输入任何文字的时候都会展示提示词,而且中文搜索中若用户输入拼音,系统照样可以识别提示。
2、相关搜索提示词。当用户搜索一个关键词的时候,系统会根据用户的搜索词给出更多的提示词,换一个关键词搜索到的内容有可能就大不相同。
3、类别搜索。信息的种类繁多,用户可以按类别将搜索范围减小,?#37096;?#20197;在搜索的结果中导航,做到来往通用。

三、预处理。

要说搜索引擎最复杂的是什么,那一定是预处理了,排名的算法几乎都是在这个?#26041;?#20135;生。在搜索引擎抓取到一个页面的时候,要将网页中的代码、非正?#21738;?#23481;等进行去除,留下关键词,利用代码和关键词密度等等分析出重要的?#39318;椋?#36827;行分词储存在数据库中与URL一一对应。搜索引擎还要去除重?#20174;?#36716;载网页、对重要信息进行分析。?#29228;?#26469;说,搜索引擎是控制蜘蛛爬取,对数据进行筛选报错,处理好URL的对应关系,将其保存在索引数据当中。

四、文?#23601;?#25496;。
文?#23601;?#25496;的方法有很多,常用的就是全文搜索、关键词提取、文本摘要、中文分词等?#21462;?#25628;索引擎有个文?#23548;?#36827;行文档挖掘可以对文本进行分析识别数字、日期名字等等,?#37096;?#20197;做特征提取比如文本摘要、关键词提取和特征选择,或者进行分类、检索、聚类、自动问答等?#21462;?/p>


转载请注明来自龙腾SEO,本文标题:搜索引擎的工作原理及构成部份浅析
本文地址:标签:搜索引擎

本文暂时没有评论,来添加一个吧(●'?'●)

欢迎 发表评论:

关于我

欢迎加我的微信号交流

文章代更新
热门文章
随机tag
百度恶意点击反向链接免费网盘浮动广告代码网站诊断sns是什么意思cmd命令仿站品牌知名度新闻营销网站权重博客优化网络营销加固服务器wordpress搬家网站死链伪原创写法关键词优化建立博客ftp站点HTTPS百度蜘蛛301重定向营销方案
新快3是哪的
老快3历史开奖记录 北京pk10在哪里投注 足彩胜负彩预测 江苏快三开奖结果一定牛网 股票推荐每日一股 天津十一选五投注技巧 篮球比分直播188 8号彩票游戏 深圳二手车指标赚钱 25选7复式兑奖表