CDN源站屏蔽搜索引擎爬虫

发布于:2020-03-18 15:55:00
 前言
 自从全站使用阿里云CDN之后,网站访问速度得到了很明显的提升,同时阿里云CDN的稳定性也很棒。但最近这段时间发现,百度和谷歌的爬虫开始爬我的源站了。这就有点麻烦了,要是不赶紧解决,给主站降权就不好了。
 思路
 因为蜘蛛爬了不该爬的东西,解决思路自然是限制蜘蛛的爬取。
 大概有三种方法可以限制蜘蛛的抓取:1.robots.txt文件
 robots文件用于限制搜索引擎蜘蛛的行为,在源站屏蔽蜘蛛主要是为了限制蜘蛛对同程序下不同域名的抓取。但是robots.txt文件没有可以限制域名相关的参数,只能限制蜘蛛对当前域名下文件的抓取,此路不通。2.设置META标签
 当访客访问的域名不是主站域名时,在网页的标签中植入限制蜘蛛活动的内容,实现起来比较简单,只用修改一下模板中的header文件即可。3.识别蜘蛛的UA,在网站程序上做限制
 获取访客的User-Agent,如果是搜索引擎蜘蛛的UA,则跳转至主站。也有一个问题,就是要去网上收集各家搜索引擎蜘蛛的UA,想着就累。
 人懒,就选择设置META标签的方法。
 实践
 ******步,在程序中获取访客访问的域名。这一歩就不做多介绍了,不同语言和环境有不同的方法获取,PHP可以通过如下语句获取访问者当前访问的域名:
 $_SERVER[‘SERVER_NAME’];
 第二步,如果不为主站域名,则输出HEAD中的META标签限制蜘蛛的活动:
 if ($_SERVER['SERVER_NAME'] != 'www.kungg.com' {
 echo '';

深圳市圣玺网络技术有限公司提供营销网站建设、品牌网站设计、网站改版制作、网络营销推广、网站优化外包服务,专注研究搜索引擎的收录规则及算法,帮助企业提升网站关键词排名效果.


上一篇:网站建设之常用CMS系统的SEO优化功能分析

下一篇:企业网站制作多少钱报价是合适的?

新闻资讯 了解互联网新趋势,及时把握行业动态,学习网络营销知识
MORE

I NEED TO BUILD WEBSITE

我需要建站

*请填写需求信息,我们会尽快与您联系。