一、URL静态化
1、URL静态化
什么是静态URL?
静态URL就是指不带有“?”、“=”以及“&”等字符的URL
举例:
taobao.com/thread-2539-1-1.html
taobao.com/index.php
taobao.com/jiadian
–什么是动态URL?
就是指带有“?”、“=”以及“&”等字符等字符参数的URL
举例:
bbs.taobao.com/news/table.php?word=bbs
2.URL的目录层次要少
3.URL中包含关键词拼音
二、URL网址规范化
以下可以是指同一个网页:
漏洞:1、搜索引擎可能会都收录它们进入数据库,这样一来,搜索引擎会觉得这几个页面都是一样的,有可能会将你的网站当做作弊处理。2、就算不是作弊手段的时候,搜索引擎通常也只会挑出其中一个返回搜索结果,而把其他的复制网页都排在最后面,以至于根本找不到。
解决办法:301重定向,指向一个网站唯一主要的域名
三、404页面的设置
404页面:
404页面就是当用户输入了错误的链接时,返回的页面
举例:输入一个新东方死链接
404页面设置步骤:
1、将制作好的404页面通过ftp上传至网站根目录wwwroot
2、在主机管理后台添加404页面设置
四、robots.txt设置
robots.txt:robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望抓取。
robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。
robots.txt放置位置:robots.txt文件应该放置在网站根目录下。
例如:当Spaider访问一个网站(比如时,首先会检查该网站中是否存在
这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
robots.txt文件的写法
User-agent:*这里的*代表所有的搜索引擎种类,*是一个通配符
Disallow:/admin/这里定义是禁止爬寻
admin目录下面的目录
Disallow:/*?*禁止访问网站中所有包含问好(?)的网址
Disallow:/.jpg$禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html禁止爬取ab文件夹下面的adc.html文件
Allow:/cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
Allow:.htm$仅允许访问以.htm为后缀的URL
Allow:.gif$允许抓取网页和gif格式图片
Sitemap:网站地图告诉爬虫这个页面是网站地图
五、网站地图制作
什么是网站地图
网站地图,又称为站点地图,它就是一个页面,上面放置了网站上所有页面的链接。大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。搜索引擎蜘蛛非常喜欢网站地图。网站地图对于蜘蛛而言就相当于蜘蛛网,它可以通过网站地图爬行到它想到达的页面。网站也可以通过添加网站地图提高网站的收录量。
网站地图的分类
网站地图的分类
六、Dedecms后台生成网站地图
?进入网站后台,找到左侧生成标签
?选择生成选项中的更新网站地图
?点击更新网站地图,选择普通地图
?点击进行浏览
七、网站地图构建技巧
?网站地图要包含最重要的一些页面
?布局要简洁,所有的链接都是标准的HTML文本
?尽量在站点地图上增加文本说明
?在每个页面里面放置网站地图的链接
?确保网站地图里的每一个链接都是正确、有效的
?可以把sitemap写进robots.txt里
北京耀途盛世多年致力于将SMO、SEO、SEM等互联网营销手段有机结合快速打造企业品牌在线声誉的外包服务领域。业务涵盖媒体报道,品牌策划,品牌建站,SEO,SEM等全面的互联网品牌运营推广。
耀途盛世秉承“服务至上,追求卓越”的经营理念,致力于打造成企业身边的互联网营销专家。耀途盛世为每一家客户提供了更先进的网络营销思路、更放心的售前售后服务及网络知识培训体系,并将全心全意为客户提供互联网品牌营销等全方位一体化的解决方案。