大家都知道,网站采用robots.txt文件可以使搜索引擎的“蜘蛛”按照文件中确定的范围来访问,不会访问到对网站排名不利的内容 。那么robots.txt文件是怎么工作的呢?我们又该如何使用robots.txt文件呢?
【robots文件中Disallow是什么意思】
文章插图
robots.txt文件
一、robots.txt文件工作原理
1.robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容 。
2.当一个搜索引擎“蜘蛛”访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果找到,搜索引擎“蜘蛛”就会按照该文件中的内容来确定访问的范围 。如果该文件不存在,那么搜索引擎“蜘蛛”就沿着链接抓取 。
3.robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写 。
二、robots.txt文件的设置
1.User-agent的设置
在”robots.txt”文件中,如果有多条 User-agent 记录说明有多个 robot 会受到”robots.txt”的限制,对该文件来说,至少要有一条 User-agent 记录 。如果该项的值设为*,则对任何 robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条 。
2.Disallow的设置
这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的URL不会被 robot 访问 。
3.Allow的设置
与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow项的值开头的 URL是允许robot访问的 。
三、robots.txt文件使用技巧
1. 每当用户试图访问某个不存在的 URL 时,服务器都会在日志中记录 404 错误(无法找到文件) 。每当搜索引擎“蜘蛛”来寻找并不存在的 robots.txt 文件时,服务器也将在日志中记录一条 404 错误,所以你应该在网站中添加一个 robots.txt 。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能 。
3. 如果网站是动态网页,动态网页创建了静态副本,以供搜索蜘蛛更容易抓取 。那么需要在 robots.txt 文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容 。
4. robots.txt 文件里还可以直接包括在 sitemap 文件的链接 。
5. 合理使用 robots.txt 文件还能避免访问时出错 。比如,不能让搜索者直接进入购物车页面 。因为没有理由使购物车被收录,所以你可以在 robots.txt文件里设置来阻止搜索者直接进入购物车页面 。
- 外贸术语库 常用外贸术语大全中英文
- 中型犬品种大全图片 中小型犬品种大全
- 河南滑县创业扶持 滑县创业贷款担保中心
- 昆虫记萤火虫习性
- 140是多少码
- excel乘法符号
- 虚火怎么办 内有虚火怎么办
- 东营市高新技术创业服务中心 东营创业扶持中心
- 泰州创业服务中心 泰州创业扶持政策
- 南京航空集散中心是空运吗