robots是全球通用的网站协议,它告诉搜索引擎爬虫哪些页面可以抓取,哪些不要抓取。

常用建站系统都有写好的robots文件。

织梦robots禁止搜索引擎抓取plus目录下的脚本文件、核心函数和模板文件:

User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets

帝国cms的robots文件屏蔽了e目录下的核心文件:

User-agent: *
Disallow: /d/
Disallow: /e/class/
Disallow: /e/config/
Disallow: /e/data/
Disallow: /e/enews/
Disallow: /e/update/

wordpress默认没有robots.txt,大家可自行添加。

robots的含义很好理解,user-agent指的是针对的搜索引擎,disallow就是禁止抓取的目录,allow就是允许抓取的目录。
百度声明过如果网站上有不希望被搜索引擎抓取的内容时才需要配置robots文件,所以网站是否放置robots文件不会有影响。

那么是不是一般情况下就不需要robots文件了呢?

大伟seo的做法是每个网站都放置robots文件,因为robots还可以告诉搜索引擎哪里是sitemap文件,一般我们需要在robots文件中加入

Sitemap: /sitemap.html