原副标题:PHP中文网站过滤腾讯食腐:固定式讲义
在构筑两个中文网站的这时候,他们一般来说会期望浏览器能截取他们的页面,这种能协助他们的中文网站更快地将使用者辨认出。但,有时他们也会期望这类浏览器无法出访他们的中文网站,比如说腾讯食腐。所以,怎样增设php中文网站不容许腾讯食腐截取呢?责任编辑将为您详尽如是说。
一、介绍robots.txt文档
robots.txt是两个文责任编辑档,它坐落于您中文网站的子目录下。那个文档说浏览器什么样页面能被截取,什么样页面无法被截取。假如您想明令禁止腾讯食腐出访您的中文网站,只须要在robots.txt文档中加进适当的准则方可。
二、修正robots.txt文档
关上您的robots.txt文档,并加进附注:
User-agent: Baiduspider
Disallow:/
这段标识符的涵义是:明令禁止腾讯食腐(User-agent: Baiduspider)出访整座中文网站(Disallow:/)。
请注意,在robots.txt文档中加进准则只对遵从robots协定的浏览器施行。因而,并并非大部份浏览器单厢严格遵守那个准则。
三、采用PHP标识符同时实现
除透过修正robots.txt文档来明令禁止腾讯食腐,他们还能采用PHP标识符来同时实现。要点如下表所示:
1.在您的中文网站子目录下建立两个名叫“robots.php”的文档。
2.在“robots.php”文档中加进下列标识符:
header(“Content-Type:text/plain”);
if(strpos($_SERVER[HTTP_USER_AGENT],Baiduspider)!== false){
header(“HTTP/1.1 403 Forbidden”);
exit;
}
echo “User-agent:*\n”;
echo “Disallow:\n”;
?>
这段标识符的涵义是:假如检测到出访者是腾讯食腐,则返回403 Forbidden状态码,否则容许大部份搜索引擎截取中文网站上的大部份页面。
四、其他注意事项
1.假如您想明令禁止其他浏览器出访您的中文网站,只须要在robots.txt文档中加进适当的准则方可。例如,假如您想明令禁止Google出访您的中文网站,能加进下列准则:
User-agent: Googlebot
Disallow:/
2.假如您期望浏览器能出访您中文网站上的这类页面,而并非全部页面,能在robots.txt文档中加进适当准则。例如,假如您只期望浏览器能出访您中文网站上的“/blog/”目录下的页面,能加进下列准则:
User-agent:*
Disallow:/
Allow:/blog/
3.假如您修正了robots.txt文档,请务必检查一下是否施行。您能采用Google Search Console的“robots.txt测试工具”来检查您的准则是否正确。