作为一个网站建设优化公司,需要归还robots.txt文件,那么我们来看看这个文件的含义
robots.txt是一个纯文本文件,用来声明蜘蛛不想访问的网站部分,或者指定蜘蛛抓取的部分。这不是一个规则,而是一个协议,一个蜘蛛应该自觉遵守的习惯
当蜘蛛访问一个站点时,它会首先检查站点中是否存在robots.txt
如果找到,蜘蛛会根据文件中的内容确定爬行范围
如果文件不存在,蜘蛛会直接沿着链接 爬行
机器人的作用. txt
1。防止私人或重要内容被搜索引擎抓取
2。节省服务器资源以提高服务质量
3。减少重复抓取,提高网站质量
4。指定站点地图文件位置
用户代理:*
哪个搜索引擎蜘蛛
这里*代表搜索引擎的类型,而*是通配符
允许
定义允许蜘蛛对列或文件进行爬网
允许:/cgi-bin/
这里的定义是允许访问cgi-bin目录
允许:/*。htm$
允许访问带后缀的网址”。htm "/h/]
$引用匹配的行结束符
*表示匹配任何字符
禁止
定义禁止蜘蛛抓取列或文件
禁止:/admin/
这里的定义是禁止对管理目录进行爬网
不允许:/cgi-bin/*。htm
禁止抓取所有带后缀的URL”。htm "在/cgi-bin/目录中
不允许:/*?*
禁止抓取所有含有问号“?”的网站 的网站
用法:site map: http://www.google.com/sitemap.xml
网站地图:完整的URL名称(包括http:// part)
告诉搜索引擎蜘蛛这个页面是网站地图
robots.txt文件主要用于限制蜘蛛对整个站点或目录的访问,而robots meta tag主要用于特定页面