为什么给wordpress创建robots文件呢?这不得不提到搜素引擎蜘蛛。搜素引擎蜘蛛进入到wordpress网站后,如果没有限制,就会爬取任意的链接地址。而网站是有一些地方是涉及网站隐私的,容易造成网站安全性问题。所以就设置了robots文件来限制蜘蛛的爬取。
对于网站站长来说只想让蜘蛛爬取网站的前端页面,来提高网站的自然排名,而不是让蜘蛛浪费到后端代码上,所以就需要设置robots文件规则了。
Wordpress网站robots.txt的创建方式:
1)、ftp创建,打开ftp在wordpress网站根目录创建robots.txt文件
2)、vps、虚拟机管理工具、宝塔等三方工具等可以直接创建文件
3)、插件创建例如:SEO合集插件
Robots的规则示例:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.seohnzz.com/sitemap.html
Sitemap: https://www.seohnzz.com/sitemap.xml
如上代码第一行*代表允许所有的搜素引擎蜘蛛,user-agent只能有一条。如果我们只想让百度蜘蛛过来那么可以使用User-Agent:baiduspider 。
其他的一些蜘蛛的关键词:
百度蜘蛛:Baiduspider
谷歌机器人:GoogleBot
360蜘蛛:360Spider
搜狗蜘蛛:Sogou News Spider
必应蜘蛛:bingbot
神马蜘蛛:yisouspider
disallow是不允许的目录,allow是允许的目录,disallow和allow都可以有许多条。Disallow: /wp-admin/是不允许蜘蛛爬取后台。
对于wordpress来说也要设置不允许的设置:
Disallow: /wp-includes/ 不允许爬取wordpress核心文件
Disallow: /wp-content/plugins 不允许爬取wordpress插件
Disallow: /wp-content/themes 不允许爬取主题
Disallow: /wp-content/languages不允许爬取语言包
Disallow: /*.zip 不允许蜘蛛爬取zip后缀的压缩文件,如果是其他压缩的文件更换.zip即可
Disallow: /wp-content/uploads不允许爬取媒体库文件(如果是做图片的网站可以把disallow更换为allow)。
Disallow: .jpg$ 不允许专区jpg图片
Disallow: .jpeg$ 不允许专区jpeg图片
Disallow: .gif$ 不允许专区gif图片
Disallow: .png$不允许专区png图片
Disallow: .bmp$不允许专区bmp图片
其他格式的图片更换后缀即可。
Sitemap是网站地图的链接。
如果不允许的网页已经被搜索引擎收录了,那么办呢?
那么就用到了robots meta标签了。
index:表示搜索引擎可以抓取该页面
noindex:表示搜索引擎不可以抓取该页面
follow:表示搜索引擎蜘蛛可以爬取该页面的上的链接
nofollow:表示搜索引擎蜘蛛不可以爬取该页面的上的链接
Meta标签的用法:
Robots meta标签是对robots文件的补充和说明,合理利用有意想不到的效果。