闻名修理网站iFixit诉苦Claude建议DDoS进犯 1天拜访数百万次抓取数据练习AI

09-04 920阅读 0评论

Claude 是人工智能开发商 Anthropic 开发的人工智能应用程序,和大多数人工智能开发商相同,Anthropic 派出的爬虫每天会在互联网上检索并抓取海量内容用来练习人工智能模型。

iFixit 是业界闻名的拆解修理网站,该网站有许多文字和图片类的拆解文章,所以 Anthropic 派出的爬虫也对 iFixit 主张了张狂的抓取。

该网站管理员在 X/Twitter 上诉苦称:我知道你巴望数据,Claude 真的很聪明,但你真的需要在 24 小时内对咱们的服务器进行一百万次进犯吗?你不只不付费就窃取了咱们的内容,还占用了咱们的开发运营资源,这太不酷了。

网站日志显现 ClaudeBot 每分钟对 iFixit 主张数以千计的拜访,这会 iFixit 服务器发生的负面影响,由于这种抓取不只会耗费服务器 CPU 资源还会耗费网络带宽,任何一个网站都不乐意看到这种状况。


                    闻名修理网站iFixit诉苦Claude建议DDoS进犯 1天拜访数百万次抓取数据练习AI

iFixit 在承受 404media 采访时称:

咱们是世界上最大的修理信息数据库,假如他们未经答应就把一切信息都拿走、导致咱们服务器瘫痪。iFixit 现在具有数百万个链接,包含各种修理攻略、修理修订前史、博客、新闻帖子、研讨、论坛、社区奉献的修理攻略以及问答等。

关于诉苦 Anthropic 的支撑团队并未抱歉而且给出了如下回应:

依照行业标准 Anthropic 运用各种数据源进行模型开发,例如经过网络爬虫搜集的互联网上的揭露数据。咱们的抓取不应该具有侵扰性和破坏性,咱们的方针是恰当的状况下尊重抓取推迟将搅扰降到最低。

对网站来说最简略的方法便是直接屏蔽 Claude 爬虫,蓝点网也相同面对 Claude 爬虫的 DDoS 进犯,该爬虫的确会以每分钟几千次的频率进行抓取,这对蓝点网服务器发生了影响所以咱们早早就屏蔽了 Claude 爬虫。

要屏蔽的话能够在 robots.txt 里增加以下内容:

User-agent: ClaudeBotDisallow: /

当然为了稳妥起见咱们还在 Nginx 上运用了正则表达式匹配 ClaudeBot 爬虫,假如 ClaudeBot 爬虫未恪守 robots.txt 协议持续抓取,那能够直接阻拦。

为了防止爬虫无法抓取 robots.txt 文件主张站长先更新 robots.txt,几天后假如在网站日志里依然能看到 ClaudeBot 抓取非 robots.txt 文件的记载,那就代表未恪守协议,能够直接经过 Nginx 回来 HTTP 444 丢掉衔接下降服务器负载。

感谢蓝点网网友 颜拂晓 共享的音讯

发表评论

快捷回复: 表情:
评论列表 (暂无评论,920人围观)

还没有评论,来说两句吧...

目录[+]