常见问题

专注SEO排名技术研发,联系我们获得技术支持!

网站SEO

2023-07-22  浏览:0

  Robots.txt是一个小文本文件,位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法,来告诉爬虫哪些内容可以抓哪些不能抓。

  当然robots.txt对正经搜索引擎(百度、google)是有用的,要是有些人想要恶意爬你的网站还是防不住的。

  如果想看看robots.txt的格式是什么样的,非常简单,找几个热门网站在它的域名后面加上/robots.txt就可以了,比如豆瓣,

  

  Robots.txt路径

  可以使用任何纯文本编辑器制作robots.txt文件,但它必须位于站点的根目录中,并且必须命名为“robots.txt”。

  如豆瓣域名是的路径就是[

  (

  )

  robots.txt内容

  以豆瓣的robots.txt为例,内容如下:(

  

  User-agent:*

  Disallow:/subject_search

  Disallow:/amazon_search

  Disallow:/search

  Disallow:/group/search

  Disallow:/event/search

  Disallow:/celebrities/search

  Disallow:/location/drama/search

  Disallow:/forum/

  Disallow:/new_subject

  Disallow:/service/iframe

  Disallow:/j/

  Disallow:/link2/

  Disallow:/recommend/

  Disallow:/doubanapp/card

  Sitemap:

  Sitemap:

  #Crawl-delay:5

  User-agent:WandoujiaSpider

  Disallow:/

  user-agent

  HTTP规范将“user-agent”定义为发送请求的东西(与接收请求的“服务器”相对)。严格来说,用户代理可以是请求网页的任何内容,包括搜索引擎抓取工具,Web浏览器或模糊的命令行实用程序。

  使用通配符"*",可设置对所有robot的访问权限。

  User-agent:*

  表明:允许所有搜索引擎访问网站下的所有内容。

  disallow

  禁止访问某些资源,下面是一些实例:

  User-agent:*

  Disallow:/

  表明:禁止所有搜索引擎对网站下所有网页的访问。

  User-agent:*

  Disallow:/cgi-bin/Disallow:/images/

  表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。

  User-agent:fucker

  Disallow:/

  表明:禁止fucker访问网站上的任何文件。

  User-agent:Googlebot

  Disallow:unknown.htm

  表明:禁止Google的Googlebot访问其网站下的unknown.htm文件。

  详情:

  

声明:免责声明:本文内容来源于互联网,本网站不拥有所有权,也不承认相关法律责任。
  • 1865692

    累积优化关键词

  • 93%

    +

    首页上词率高达90%+

  • 183W

    +

    183W+独家IP资源

  • 3000

    +

    与3000余家企业客户携手

提供保姆式的SEO优化排名服务,独家研发排名技术,源头技术厂家,快速上首页,帮您获取更多客户资源!

联系我们

TG : @pagoda1993

公司:

九狐科技技术有限公司

地址:江西省南昌市南昌县小蓝国家经济技术开发区汇仁大道266号