Robots.txt是一个小文本文件,位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法,来告诉爬虫哪些内容可以抓哪些不能抓。
当然robots.txt对正经搜索引擎(百度、google)是有用的,要是有些人想要恶意爬你的网站还是防不住的。
如果想看看robots.txt的格式是什么样的,非常简单,找几个热门网站在它的域名后面加上/robots.txt就可以了,比如豆瓣,
Robots.txt路径
可以使用任何纯文本编辑器制作robots.txt文件,但它必须位于站点的根目录中,并且必须命名为“robots.txt”。
如豆瓣域名是的路径就是[
(
)
robots.txt内容
以豆瓣的robots.txt为例,内容如下:(
User-agent:*
Disallow:/subject_search
Disallow:/amazon_search
Disallow:/search
Disallow:/group/search
Disallow:/event/search
Disallow:/celebrities/search
Disallow:/location/drama/search
Disallow:/forum/
Disallow:/new_subject
Disallow:/service/iframe
Disallow:/j/
Disallow:/link2/
Disallow:/recommend/
Disallow:/doubanapp/card
Sitemap:
Sitemap:
#Crawl-delay:5
User-agent:WandoujiaSpider
Disallow:/
user-agent
HTTP规范将“user-agent”定义为发送请求的东西(与接收请求的“服务器”相对)。严格来说,用户代理可以是请求网页的任何内容,包括搜索引擎抓取工具,Web浏览器或模糊的命令行实用程序。
使用通配符"*",可设置对所有robot的访问权限。
User-agent:*
表明:允许所有搜索引擎访问网站下的所有内容。
disallow
禁止访问某些资源,下面是一些实例:
User-agent:*
Disallow:/
表明:禁止所有搜索引擎对网站下所有网页的访问。
User-agent:*
Disallow:/cgi-bin/Disallow:/images/
表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
User-agent:fucker
Disallow:/
表明:禁止fucker访问网站上的任何文件。
User-agent:Googlebot
Disallow:unknown.htm
表明:禁止Google的Googlebot访问其网站下的unknown.htm文件。
详情: