首页 老P随笔正文

Bytespider头条搜索蜘蛛

  刚才老P在查SEO的时候,发现多了一个头条权重的鬼东西,一查,原来是今日头条进军搜索引擎了。

  然后就了解了一下头条搜索,真的是臭名昭著啊,看到那些文章真的把我乐得不行,哈哈哈哈。

  每个搜索引擎都有自己的爬虫程序,头条也不例外,Bytespider就是它的爬虫了,你只要百度一下“Bytespider”,你也会乐得不行的。

  就是说这个蜘蛛有多流氓,每时每刻都在抓你的数据,一上午几十万次爬取,像DDOS攻击一样,然后还不遵守robots.txt协议,真的让很多站长头大,有的网站小一点直接就被搞垮了。

  “妈妈,我想禁头条爬虫。”

  “禁,挑大个的禁,禁两个够不够?”

  “不够!”

  “那全禁了。”

  这里老P就整合了一下网上搜索到的方法,教大家怎么禁止这个爬虫。(放心禁,没人会在头条上搜东西的,不用担心你的流量,也不用管那个头条权重,百度权重才是王道。)

  上面说了,这个爬虫不遵守robots,所以这个协议对它没用。(其实国内爬虫都不遵守,你越不想让它爬,它越想知道)。那么我们就只能禁IP了。

  首先在服务器上看记录,UA为Bytespider的,看它的IP段,ban它!

  某草根站长发出来的是石家庄的IP,整理出了这四个IP段:

60.8.165.0/24

111.225.0.0/24

110.249.0.0/24

220.243.0.0/24

  然后把它拉黑,心情瞬间好多了,CPU占用瞬间下去了。当然之后头条搜索的爬虫可能会增加或更换IP段,你们可以在日志里查它,然后禁掉。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论

精彩评论
  • 2019-11-01 15:51:35

    展示一下屏蔽效果,以下是一段iis日志:
    2019-11-01 00:20:55 W6SVC5506 我的IP GET / - 80 - 220.243.136.68 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_14_0)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/41.0.6765.1713+Safari/537.36;+Bytespider - 403 6 0
    没错了,现在返回403状态!

  • 2019-11-01 15:53:21

    赞一个!
    头条的蜘蛛真的是烦,这么大一公司怎么干这种事,让小网站都没法活。

  • 2019-11-01 16:09:28

    这特么就一DDOS啊,这谁的小网站扛得住!!!

  • 2019-11-03 00:53:52

    我的网站被这B玩意儿搞垮了好几次。。。

站点信息

  • 文章总数:272
  • 页面总数:5
  • 分类总数:23
  • 标签总数:21
  • 评论总数:107
  • 浏览总数:1375978