?1、搜索引擎的具体优化规则是什么?
此类问题实际上很宽泛,相当于问“SEO怎么做?”这边用图片大概讲解一下抓取规则
搜索引擎从用户搜索到最终搜索结果展现的步骤是(以百度为例):
抓取,百度都不知道你的网站,如何让你有排名呢?所以要让百度知道你,就要先通过抓取这个步骤;
过滤,过滤掉低质量的页面内容;
索引,只有合格的页面才会被存储;
处理,对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。
排名,将高质量的页面展现给用户;
蜘蛛(Spider):
被搜索引擎派出能在网上发现新网页并抓取的程序称为蜘蛛,其从已知的数据库出发,像正常用户的浏览器一样访问这些网页,并跟踪网页中的链接,访问更多的网页,这个过程就叫爬行;
蜘蛛对一个站点的遍历抓取策略分深度优先和广度优先两种。
spider抓取的基本过程:
根据爬取目标和范围,可分为
批量性爬虫:明确的抓取目标和范围,达到即停止;
增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应,通用商业引擎一般都是这类;
垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤;
百度官方spider抓取过程中的策略
1、抓取友好性,同一个站点在一段时间内的抓取频率和一段时间内的抓取流量都不同,即错开正常用户访问高峰不断的调整,避免程度过大影响被抓网站的正常用户访问行为。
2、常用抓取返回码,如503,404,403,301等;
3、多种url重定向的识别,如http30x、metarefresh重定向和js重定向,Canonical标签也可看做变相的重定向;
4、抓取优先级调配,如深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、大站优先策略等;
5、重复url的过滤,包括url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面;
6、暗网数据的获取,搜索引擎暂时无法抓取到的数据,如存在于网络数据库中,或由于网络环境、网站本身不符合规范、孤岛等问题而造成的无法被抓取,如百度的“阿拉丁”计划;
7、抓取反作弊,抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等;
spider感兴趣的页面有3类:
1.从未抓取过的新页面。
2.抓取过但内容有改动的页面。
3.抓取过但现在已删除的页面。
蜘蛛不能/不喜欢抓取的内容:
1.被robot屏蔽的页面;
2.图片、视频和flash里的内容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服务器端屏蔽;
5.孤岛页面(无任何导入链接);
6.登录后才能获取的内容;
四种近似重复网页类型:
1.完全重复页面:在内容和布局格式上毫无区别;
2.内容重复页面:内容相同,但布局格式不同;
3.布局重复页面:有部分重要的内容相同,并且布局格式相同;
4.部分重复页面有部分重要内容相同,但布局格式不同;
典型的网页去重算法:特征抽取、文档指纹生成、相似性计算
低质量的内容页面:
1.多个URL地址指向同一网页以及镜像站点,如带www和不带www的同时解析到一个网站;
2.网页内容重复或近似重复,如采集内容,文不对题或垃圾信息;
没有丰富的内容,如纯图片页面或页面内容搜索引擎识别不了;
过滤-重复文档的处理方式:
1.低质量内容予以删除
2.高质量重复文档分组并优先展示(重复性高表示受欢迎)
关注我的头条(常州姜东),了解我的其他文章:
常见客户SEO问题解答:搜索引擎的优化规则是什么
常见客户SEO问题解答:网站的标题到底怎么写
常见客户SEO问题解答:网站关键词布局到底是什么?
常见客户SEO问题解答:网站关键词优化到底怎么做?
常见客户SEO问题解答:网站降权了应该怎么处理?