site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。
百度站长俱乐部:我知道大多数站长,会使用不带关键词的site语法来进行收录量观察。这是一种方法,但很不准确。site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。
更加精确的方法是什么呢?
1,对来自搜索引擎的流量进行监控。这是最直接和本质的。如果流量没有大的波动,而site下的数值发生巨大波动,这只能说明site搜索结果数的不精确性。
2,对站内url进行抽样监控。有些url已经被搜索引擎收录了,那么取出一个集合,作为收录状态监控集;每天的新url尚未被收录,也可以对其进行索引状态的监控。脚本是很容易写的,这种基于抽样的评估也是很有效的。
3,由搜索引擎提供的统计工具。我们是否应该提供类似统计工具,目前还在评估中。
看到一则反馈,直接贴一下:莆田SEO还是有点小疑问的,希望能抛砖引玉,大家探讨一下。
1、如果流量没有大的波动,但实际上新的页面是已经被收录,只是因为排名不好,所以并没有流量过来,这样子的话也不能说site的结果不准?只能说是权重不够高。因为一个新站,前期一定只是一个积累的过程,可能流量并不是那么的重要,但是收录的确还是很重要的。代表的是,你已经进入了百度的索引了。
2、url抽样监控,这样子的一个收录监控方式,我想,对于我们这些小站长或是个人站长来说,在现阶段来说,在高手眼里的小技术的脚本,可能就是一座难以逾越的大山。而互联网上,因为来说草根站长是占了绝大的一部分。
3、如果是百度提供类似统计工具,我相信站长们都是无上欢迎的。
4、其实site来说,对于站长本身,很大一部分就是让自己心里有了一个底,可以用一个脚本来替换得到更准确的值的确是可行的,而且自己是可以通过流量统计后台来实现成效的检验的。但是有一点可能被您给忽略了,site用的最多的场合不是自用,而是交换友情链接的时候用的。估计很小部分的人会交换一个友情从而去动用脚本去检测索引对方网站的具体数据,这一块,要如何更好地解决呢?
对莆田seo的问题回复一下:
1,已经强调过很多次了,百度site语法的结果数不准。而且这种不准的幅度甚至不是稳定的,可能今天比较接近真实值,明天就发生大波动了。其中的原因不便多解释。
2,没有想像那么难。连备案这种复杂的事情都能搞定,学点脚本编程,实在不算什么。而且,作为站长,如果想深入的研究sem,我可以坦白的讲,数据分析是必须的。在网络上搜到的东鳞西爪的所谓seo技巧,大多是别人嚼剩下的、没什么大用的、甚至有害的东西。站长要学会的首要事情之一,是对自己的网站日志做深入解剖,并能针对问题做各种实验和分析。
3,略。
4,有一点可以肯定,索引结果数肯定不会是一个网站在搜索引擎中的站点评级指标。这是很容易理解的。举个例子,site:job631,就几百条而已。从投票权角度,它的权重会低于大部分索引了成千上万网页的站点?所以站长若要搞搞友情链接,更重要的是用自己的经验去做价值分析——他是想捞一票就走的,还是想正经在互联网上立立腕儿的。
附站长比较关注的问题:
站长问:最近有很多站都遇到这个情况,刚发布的文章都会很快被百度收录,可过不了多长时间又会被百度删除,然后再过同样多的时间百度重新收录!
百度站长俱乐部答:这是我们系统的一个缺陷,正在修复中。预计很快就不会有这种让人faint的事情出现了
站长问:一个站长都普遍疑惑的问题,那就是为什么有些站每天不更新反而百度的快照天天新。有些站提供原创内容每天更新反而百度快照不更新。是由于受到技术的局限还是对这个站的惩罚!如果是惩罚那么为什么那些天天不更新反而更占优势呢?
百度站长俱乐部答:我们内部也对结果页上的时间戳很纠结,有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了,而代之以网页更新的实际时间。这个时间戳既然给内部人员也带来了困扰,那么对站长和用户,显见也是有困扰的。所以,我的建议是不必太过关注这个时间戳。如果期望看到精确的spider行为,最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂,一些起码的技术手段还是要会的,数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。
站长问:在交流中发现很多人认为:用site语法查询之后,如果排在第一的不是该网站的首页则表示该网站被百度降权。这种做法是否想当然?
百度站长俱乐部答:site语法查询的检索结果,更多情况下类似随机的排序,除了说明这些网页已经被收录以外,不能说明任何问题。