搜索引擎爬虫在抓取互联网内容时会受到限制,在人们和搜索引擎看来,网页看起来并不总是一样。比如一张中华田园犬玩耍的照片或者视频,人们可以一眼辨识出来,但搜索引擎就不行。
为了网页在搜索引擎中表现的更好,获得更好的排名。最重要的内容应该是HTML格式的文字格式。还用上面的例子,如果“中华田园犬玩耍”这一段文字而不仅仅是图片放在内容上,搜索引擎爬虫就可以很好的理解了。
除了文字内容之外,图像、视频、小游戏、JavaScript等非文本内容通常容易被忽略。尽管搜索引擎的爬虫技术越来越进步,但是爬虫对于文字之外的内容识别还是很有限的。最简单的方式就是,要尽可能的放置文字内容在页面上,让用户或者搜索引擎爬虫都可以很容易的读取到。
最典型的例子就是为图片增加一段文字描述,我们就需要使用ALT属性。这样搜索引擎爬虫通过图片的文字备注就可以很容易的正确识别图片的实际内容,继续用上面的例子来进行说明。在我们的网页中有一张“中华田园犬玩耍的图片”,通过ALT属性在给这张图片增加一段文字描述,描述内容即为“中华田园犬玩耍”。图片用户可以直接识别,这段文字内容则提供给搜索引擎爬虫来识别。至于具体的ALT属性我们会在后面详细进行讲解。
简单做一下总结,要想做好搜索引擎优化,就需要把不同的非文字内容(图像、视频、小游戏、JavaScript等)都用文字的形式描述出来,以供搜索引擎爬虫去精准的识别。