刚才老P在查SEO的时候,发现多了一个头条权重的鬼东西,一查,原来是今日头条进军搜索引擎了。
然后就了解了一下头条搜索,真的是臭名昭著啊,看到那些文章真的把我乐得不行,哈哈哈哈。
每个搜索引擎都有自己的爬虫程序,头条也不例外,Bytespider就是它的爬虫了,你只要百度一下“Bytespider”,你也会乐得不行的。
就是说这个蜘蛛有多流氓,每时每刻都在抓你的数据,一上午几十万次爬取,像DDOS攻击一样,然后还不遵守robots.txt协议,真的让很多站长头大,有的网站小一点直接就被搞垮了。
“妈妈,我想禁头条爬虫。”
“禁,挑大个的禁,禁两个够不够?”
“不够!”
“那全禁了。”
这里老P就整合了一下网上搜索到的方法,教大家怎么禁止这个爬虫。(放心禁,没人会在头条上搜东西的,不用担心你的流量,也不用管那个头条权重,百度权重才是王道。)
上面说了,这个爬虫不遵守robots,所以这个协议对它没用。(其实国内爬虫都不遵守,你越不想让它爬,它越想知道)。那么我们就只能禁IP了。
首先在服务器上看记录,UA为Bytespider的,看它的IP段,ban它!
某草根站长发出来的是石家庄的IP,整理出了这四个IP段:
60.8.165.0/24
111.225.0.0/24
110.249.0.0/24
220.243.0.0/24
然后把它拉黑,心情瞬间好多了,CPU占用瞬间下去了。当然之后头条搜索的爬虫可能会增加或更换IP段,你们可以在日志里查它,然后禁掉。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
评论
访客
回复展示一下屏蔽效果,以下是一段iis日志:
2019-11-01 00:20:55 W6SVC5506 我的IP GET / - 80 - 220.243.136.68 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_14_0)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/41.0.6765.1713+Safari/537.36;+Bytespider - 403 6 0
没错了,现在返回403状态!
风流未成性
回复赞一个!
头条的蜘蛛真的是烦,这么大一公司怎么干这种事,让小网站都没法活。
涅槃
回复这特么就一DDOS啊,这谁的小网站扛得住!!!
访客
回复我的网站被这B玩意儿搞垮了好几次。。。