各位SEO达人们,你们听说过Baiduspider吗?没错,它就是我们熟悉的百度蜘蛛。今天,就让我来为你们揭开Baiduspider的神秘面纱,并教你们如何巧妙地屏蔽它的抓取,让我们的网站更具个性。
百度蜘蛛抓取我们的网站,目的只有一个,那就是将我们的网页收录到它的搜索引擎里,以便在用户搜索时,能为我们的网站带来一定的SEO流量。然而,我们并不是希望搜索引擎抓取我们的所有内容。
比如,用户隐私、后台信息等敏感内容,我们就不希望被搜索引擎抓取和收录。那么,如何解决这样的问题呢?其实很简单,以下两种方法就能帮你轻松解决。
方法一:利用robots协议文件屏蔽百度蜘蛛抓取
robots协议文件就像是一把钥匙,它放置在网站根目录下,通过URL地址:http://你的域名/robots.txt进行访问。当百度蜘蛛来抓取我们的网站时,它会先访问这个文件。因为里面明确地告诉了蜘蛛哪些可以抓取,哪些不可以抓取。
robots协议文件的设置很简单,只需通过User-Agent、Disallow、Allow这三个参数进行设置即可。
- User-Agent:对不同搜索引擎的声明;
- Disallow:不允许抓取的目录或页面;
- Allow:允许抓取的目录或页面,一般可以省略不写。
下面,我给大家举一个例子。假设我不希望百度蜘蛛抓取我网站所有的CSS文件、data目录以及seo-tag.html页面,可以这样设置:
这里,User-Agent声明的蜘蛛名称,表示针对百度蜘蛛。而Disallow则表示不允许抓取的内容。比如,/*.css表示所有以.css的文件都不允许抓取。
如果你想检测自己设置的robots文件是否正确,可以访问这篇文章《检查robots是否正确的工具介绍》,里面有详细的工具可以帮助你检测设置。
方法二:通过403状态码,限制内容输出,屏蔽蜘蛛抓取
403状态码是http协议中一个网页返回状态码。当搜索引擎遇到403状态码时,就知道这类页面是受限的。例如,需要登录才能查看的内容,搜索引擎本身是不会登录的。因此,返回403的同时,它也就知道了这些页面是受限的,无法读取内容,自然也就不会收录。
返回403状态码的同时,应该有一个类似404页面的页面。提示用户或蜘蛛这类页面想要访问,需要做什么才能访问。两者缺一不可。只有提示页面,状态码返回200,那么对于百度蜘蛛来说,就是大量的重复页面了。有403状态码但返回不同的内容,也不是很友好。
最后,针对robots协议,还想再补充一点:现在搜索引擎会通过你网页的排版、布局来识别你网页的体验友好度。如果屏蔽了CSS文件、布局相关的JS文件的抓取,那么搜索引擎就不知道你的网页布局是好是坏了。所以,不建议屏蔽这些内容不让蜘蛛抓取。
今天的分享就到这里,希望对你们有所帮助。当然,这两种设置不仅针对Baiduspider,对所有的蜘蛛都有效。设置时请谨慎,避免造成网站不必要的损失。
另外,我还想和大家分享一个小秘密:我小时候特别喜欢吃糖,每次看到五颜六色的糖果,心里就痒痒的。现在,当我看到网站上的各种优化技巧,心情也和小时候一样兴奋。希望我们都能在SEO这条路上,找到属于自己的乐趣。
版权声明:Baiduspider是什么?(怎么屏蔽Baiduspider百度蜘蛛抓取网站) 系墨家SEO原创发布转载时请以链接形式注明文章出处:https://mihxws.cn/aiqing-1274.html
未注明出处链接视为侵权。对于任何侵犯版权的行为,我们将依法采取措施,并保留追诉法律责任的权力