空间根目录下的robots.txt的作用及修改方法

相信很多新站长对于robots.txt这个东东来说都很陌生!今天给大家说说这个文件的作用和用法! 它网站和蜘蛛之间的一个协议,蜘蛛来到网站之后,会先查看这个文件,以确定自己是否应该对该网站进行爬取。所以robots文件是网站必备的一个文件,相信每个站长的网站根目录下都会有这个文件。但是有相当一部分的站长,对于该文件并没有进行过任何设置,基本上都是初始状态,即:User-agent: *Allow:也就是允许所有搜索引擎蜘蛛爬取网站的所有页面。 一般网站对于robots文件不进行任何设置,并没有太大的影响,但是如果网站想长期可持续发展,并在同类网站中能有不错的排名,那么对robots文件必须进行设置,细节决定成败,相信是所有站长共勉的一句名言。当我们网站和竞争对手在外链、内链、内容等方面不相上下的时候,网站各个细节环节的重视,将是大家一决雌雄的根本点。 要设置好robots文件,首先需要知道该文件的格式User-agent: 定义搜索引擎的类型 Disallow: 定义禁止搜索引擎收录的地址 Allow: 定义允许搜索引擎收录的地址 例如:淘宝网的Robots.txt文件User-agent: BaiduspiderDisallow: /User-agent: baiduspiderDisallow:/很显然淘宝不允许百度的机器人访问其网站下其所有的目录。当然我们一般的网站是不会这么设置的,只有淘宝很牛逼……如果站长如果觉得一些引擎的蜘蛛对网站没什么意义,不需要来爬取,也可以设置。 觉得有道蜘蛛对我没什么意义,来爬取之后只会增加我服务器 的负担,那就在robots里设置禁止有道蜘蛛爬取: User-agent: YoudaoBotDisallow: / 我们一般站长需要对robots的设置,只是对网站中某个页面或某个目录进行的,下面举一个简单的例子来说明: User-agent: *Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 该网站的robot设置了三个目录禁止搜索引擎访问,这里需要注意的是,每一个目录的设置必须分开声明,不要写成“Disallow: /cgi-bin/ /tmp/”。当然robots的设置千差万别,各位站长在设置时肯定会根据自己需要进行设定。 在robots.txt需要设置的一些地方: 1:网站的脚本程序,css样式表,这些文件不会增加网站的收录率,还会占用服务器 存储空间; 2: 网站 后台管理文件,后台的管理文件是没必要蜘蛛爬取的; 3:附件、数据库文件、编码文件、模板文件、导航图片、背景图片; 4:如果动态 网站 创建了静态副本,那么需要robots中设置禁止蜘蛛爬取动态页,避免蜘蛛视这些网页为重复页;网站的robots设置很重要,注意细节,才能决定成败。 这个我也没有设置!嘿嘿!没啥事,咱流量够用!如果你的虚拟主机流量有限制!你最好修改下robots.txt! by小马
本博客所有文章如无特别注明均为原创。作者:晨曦复制或转载请以超链接形式注明转自 晨曦的记忆,乐意数据
原文地址《空间根目录下的robots.txt的作用及修改方法
分享到:更多

相关推荐

发表评论

路人甲 表情
Ctrl+Enter快速提交

网友评论(0)