PHP网站屏蔽百度爬虫:简易教程

2023-05-30 0 226

原副标题:PHP中文网站过滤腾讯食腐:固定式讲义

在构筑两个中文网站的这时候,他们一般来说会期望浏览器能截取他们的页面,这种能协助他们的中文网站更快地将使用者辨认出。但,有时他们也会期望这类浏览器无法出访他们的中文网站,比如说腾讯食腐。所以,怎样增设php中文网站不容许腾讯食腐截取呢?责任编辑将为您详尽如是说。

一、介绍robots.txt文档

robots.txt是两个文责任编辑档,它坐落于您中文网站的子目录下。那个文档说浏览器什么样页面能被截取,什么样页面无法被截取。假如您想明令禁止腾讯食腐出访您的中文网站,只须要在robots.txt文档中加进适当的准则方可。

二、修正robots.txt文档

关上您的robots.txt文档,并加进附注:

User-agent: Baiduspider

Disallow:/

这段标识符的涵义是:明令禁止腾讯食腐(User-agent: Baiduspider)出访整座中文网站(Disallow:/)。

请注意,在robots.txt文档中加进准则只对遵从robots协定的浏览器施行。因而,并并非大部份浏览器单厢严格遵守那个准则。

三、采用PHP标识符同时实现

除透过修正robots.txt文档来明令禁止腾讯食腐,他们还能采用PHP标识符来同时实现。要点如下表所示:

1.在您的中文网站子目录下建立两个名叫“robots.php”的文档。

2.在“robots.php”文档中加进下列标识符:

header(“Content-Type:text/plain”);

if(strpos($_SERVER[HTTP_USER_AGENT],Baiduspider)!== false){

PHP网站屏蔽百度爬虫:简易教程

header(“HTTP/1.1 403 Forbidden”);

exit;

}

echo “User-agent:*\n”;

echo “Disallow:\n”;

?>

这段标识符的涵义是:假如检测到出访者是腾讯食腐,则返回403 Forbidden状态码,否则容许大部份搜索引擎截取中文网站上的大部份页面。

四、其他注意事项

1.假如您想明令禁止其他浏览器出访您的中文网站,只须要在robots.txt文档中加进适当的准则方可。例如,假如您想明令禁止Google出访您的中文网站,能加进下列准则:

User-agent: Googlebot

Disallow:/

2.假如您期望浏览器能出访您中文网站上的这类页面,而并非全部页面,能在robots.txt文档中加进适当准则。例如,假如您只期望浏览器能出访您中文网站上的“/blog/”目录下的页面,能加进下列准则:

User-agent:*

Disallow:/

Allow:/blog/

3.假如您修正了robots.txt文档,请务必检查一下是否施行。您能采用Google Search Console的“robots.txt测试工具”来检查您的准则是否正确。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务