首页 > 技术资讯 > 常见问题 >

热文推荐

网站SEO

2023-07-22 浏览：0

　　Robots.txt是一个小文本文件，位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法，来告诉爬虫哪些内容可以抓哪些不能抓。

　　当然robots.txt对正经搜索引擎（百度、google）是有用的，要是有些人想要恶意爬你的网站还是防不住的。

　　如果想看看robots.txt的格式是什么样的，非常简单，找几个热门网站在它的域名后面加上/robots.txt就可以了，比如豆瓣，

　　Robots.txt路径

　　可以使用任何纯文本编辑器制作robots.txt文件，但它必须位于站点的根目录中，并且必须命名为“robots.txt”。

　　如豆瓣域名是的路径就是[

　　(

　　)

　　robots.txt内容

　　以豆瓣的robots.txt为例，内容如下：（

　　User-agent:*

　　Disallow:/subject_search

　　Disallow:/amazon_search

　　Disallow:/search

　　Disallow:/group/search

　　Disallow:/event/search

　　Disallow:/celebrities/search

　　Disallow:/location/drama/search

　　Disallow:/forum/

　　Disallow:/new_subject

　　Disallow:/service/iframe

　　Disallow:/j/

　　Disallow:/link2/

　　Disallow:/recommend/

　　Disallow:/doubanapp/card

　　Sitemap:

　　#Crawl-delay:5

　　User-agent:WandoujiaSpider

　　Disallow:/

　　user-agent

　　HTTP规范将“user-agent”定义为发送请求的东西（与接收请求的“服务器”相对）。严格来说，用户代理可以是请求网页的任何内容，包括搜索引擎抓取工具，Web浏览器或模糊的命令行实用程序。

　　使用通配符"*"，可设置对所有robot的访问权限。

　　User-agent:*

　　表明：允许所有搜索引擎访问网站下的所有内容。

　　disallow

　　禁止访问某些资源，下面是一些实例：

　　User-agent:*

　　Disallow:/

　　表明：禁止所有搜索引擎对网站下所有网页的访问。

　　User-agent:*

　　Disallow:/cgi-bin/Disallow:/images/

　　表明：禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。

　　User-agent:fucker

　　Disallow:/

　　表明：禁止fucker访问网站上的任何文件。

　　User-agent:Googlebot

　　Disallow:unknown.htm

　　表明：禁止Google的Googlebot访问其网站下的unknown.htm文件。

　　详情：

声明：免责声明：本文内容来源于互联网，本网站不拥有所有权，也不承认相关法律责任。

联系我们

TG : @pagoda1993

公司：

九狐科技技术有限公司

地址：江西省南昌市南昌县小蓝国家经济技术开发区汇仁大道266号

常见问题

热文推荐

网站SEO

相关新闻

联系我们

TG : @pagoda1993

SEO服务：