百度百科已屏蔽谷歌/必应等大多数搜索引擎 估量也是怕内容被拿去练习AI?

09-04 386阅读 0评论

这段时刻蓝点网在重视知乎的动态,知乎为了防止内容被其他公司抓取拿去练习人工智能,不吝屏蔽除百度和搜狗以外的全部查找引擎,乃至用户拜访都乱码有必要改写页面才干正常检查内容。

不过也有网友留意到现在百度百科也开端采纳相似办法,百度百科包含用户编撰的海量词条内容,这些内容用于人工智能练习自然是个不错的数据集。

所以现在百度百科也将谷歌和必应等大多数查找引擎都屏蔽掉,应该也是为了阻挠这些查找引擎和其他爬虫未经授权抓取百度百科的内容用于练习人工智能。


                    百度百科已屏蔽谷歌/必应等大多数搜索引擎 估量也是怕内容被拿去练习AI?

百度百科的 robots.txt 文件显现,现在百度百科仅支撑以下查找引擎抓取内容 (相似白名单):

  • 百度查找
  • 搜狗查找
  • 我国查找 (Chinaso)
  • YYSpider (这是哪家的爬虫蓝点网未查到)
  • 宜搜查找 (EasouSpider,一个很老的查找,曾经不少用户拿到它搜小说)

百度百科清晰制止抓取其内容的查找引擎爬虫包含:

  • 谷歌查找
  • 必应查找
  • 微软 MSN
  • Yisouspider (阿里巴巴旗下 UC 浏览器的爬虫)
  • 其他全部查找引擎

尽管 360 查找没有在封禁列表中独自列出,但百度百科的战略是制止全部非白名单爬虫抓取,所以 360 查找和其他查找例如 Yandex、Ecosia 等查找也都是被屏蔽的。

当然这儿的屏蔽仅仅正人协定,比方 360 刚刚推出 360 查找和 360 百科时就未经百度授权抓取百度百科内容,被百度申述后 360 辩称 robots.txt 是职业的约定俗成。

所以百度百科现在屏蔽这些查找引擎其实也仅仅防正人不防小人,必定还有许多爬虫经过各种方式持续抓取内容然后拿去练习 AI。

话说回来,百度百科是依据维基百科的形式开发的,内容也都是用户编撰的,维基百科就答应任何查找引擎抓取而且答应将其数据拿去练习 AI,不得不说某度仍是格式小了。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,386人围观)

还没有评论,来说两句吧...

目录[+]