昨天,WordPress 交流群里有人提到“如何防止搜索引擎索引 WordPress 网站”的必要性。大多数人都希望被搜索引擎收录,而少数人由于特殊需要和特殊原因不希望搜索引擎找到他们。,这个时候我们应该怎么做?在这里,草根吧VPS将根据自己的需要与大家分享如何编写和优化robots.txt文件。
robots协议配置
首先,我们要使用robots.txt文件,那么什么是robots呢?
机器人是网站和爬虫之间的协议。它以简单直接的txt格式文本的方式告诉对应的爬虫允许的权限。也就是说,robots.txt 是访问网站时在搜索引擎中查看的第一个文件。当搜索蜘蛛访问一个站点时,它会首先检查站点根目录中是否存在 robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果该文件不存在,那么 all 的搜索蜘蛛将能够访问该站点上没有密码保护的所有页面。
在 robots.txt 文件中,Disallow 是禁止的,Allow 是允许的。您可以根据需要增加或减少。
WordPress 默认robots配置,大多数人可以使用以下配置。
// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化 // https://vps.caogenba.com.com/66379.html User-agent: * Disallow: Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://vps.caogenba.com.com/sitemap.xml
这一段的意思是对所有搜索引擎采取一种默认的态度。我不允许或拒绝。我喜欢爬,但是 /wp-admin/ 目录不允许你爬!但是,因为/wp-admin/admin-ajax.php文件经常用于交互,所以单独允许。最后一句告诉搜索引擎,我的站点地图地址,你可以根据我的地图快速爬取。
WordPress禁止国内搜索引擎爬取配置
有些内容是国内人估计找不到的,下面的配置就可以了。
// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化 // https://vps.caogenba.com.com/66379.html User-agent: Baiduspider Disallow: / User-agent: Sosospider Disallow: / User-agent: sogou spider Disallow: / User-agent: YodaoBot Disallow: / User-agent: * Disallow: /wp-admin/ Sitemap: https://vps.caogenba.com/sitemap.xml
Disallow是禁止的,也就是说User-agent是百度,搜搜,搜狗,有道都不允许爬我的网站。当然,你可以根据自己的需要加减。毕竟,还有很多普通人不知道的小蜘蛛。是的,所以您需要通过在后台检查 User-agent 请求标头来添加它,并将其设置为 Disallow。此设置不会影响国外搜索引擎的索引。
但是如果搜索引擎不符合,就得用杀手锏了,请查看文末的进阶教程!
不太擅长优化 WordPress 配置
为什么说这里有“优化程度较低的 WordPress 配置”?因为草根吧VPS经常在群里听到“我*,昨天某个蜘蛛又爬了我的服务器……”等等。因此,如果您不愿意或无法优化您的 WordPress 网站,那么您可以使用以下robots配置。
// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化 // https://vps.caogenba.com.com/66379.html User-agent: * Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /search/ Disallow: /?s= Disallow: /readme.html Disallow: /licence.txt Disallow: /wp-config-sample.php Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /comments/ Disallow: /attachment/ crawl-delay: 5 Allow: /wp-admin/admin-ajax.php Sitemap: https://vps.caogenba.com.com/sitemap.xml
这是在默认基础上配置的。crawl-delay 启用了传说中的 5 秒屏蔽,但这是蜘蛛的 5 秒屏蔽,它告诉搜索引擎蜘蛛在每次爬行前等待几秒钟。当然,你甚至可以设置10秒、30秒、9999999秒(最好是屏蔽)。
/search/ 或 /?s= 是为了防止蜘蛛爬行和搜索。很多小伙伴不会优化WordPress。一旦访问者或蜘蛛搜索,CPU 就会被填满。这时候可以通过升级服务器来解决问题,或者尝试对WordPress进行优化(
禁止爬取/readme.html、/licence.txt、/wp-config-sample.php是为了防止他人未经授权查看您使用的WordPress版本等信息,您也可以在此处重定向。
/feed、/*/feed、/comments/feed三兄弟是为了防止爬虫爬取你的rss订阅内容。当然,你也可以直接在 WordPress 后台关闭 rss 订阅。一般来说,rss页面对服务器的要求不是很高,一般不需要设置。
/comments/ 是为了防止蜘蛛爬取你的评论内容。如果你的站点评论很多,并且没有设置内存缓存或者 Nginx 缓存,那么每个评论页面服务器都必须生成一个页面,自然 CPU 负载会很高。
/attachment/ 是防止附件内容,即 WordPress 媒体库内容。
总之,简而言之,大部分人不需要设置以上配置。如果真的需要配置的话,毕竟大部分站长都是要流量的!哦,对了,记得把上面的Sitemap地址改成自己的!
禁止搜索引擎爬虫高级版
添加代码防止百度在你的 header.php 文件中包含快照:
name="Baiduspider" content="noarchive">
不过百度不一定遵守机器人规则,可能还是会被收录,那就用下面的终极方法吧!
如果你使用的是Nginx,草根吧VPS以宝塔为例,在站点配置中插入如下代码:
if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) { return 403; }
长按保存(尝试重启Nginx),如有错误请根据错误修改!这时候去站长工具测试一下效果,看看是否返回403码。