英伟达再次被发现从YouTube及奈飞上抓取数据用来练习人工智能模型

09-04 982阅读 0评论

此前英伟达就被发现运用第三方数据集练习人工智能模型,但该数据集并未取得版权人的赞同,也便是英伟达等公司在未经授权的情况下运用数据内容进行练习。

今日一份新陈述显现英伟达每天都在获取各种数据用于模型练习,前英伟达职工泄漏称,公司要求他们从奈飞、YouTube 或其他在线资源中抓取视频内容,用于英伟达各种 AI 产品的练习数据。

这些产品包含英伟达的 Omniverse 3D 国际生成器、自动驾驶体系和数字人等产品,还包含名为 Cosmos 的项目,该项目旨在构建一个相似 Gemini 1.5、GPT-4 或 Llama 3.1 的根底人工智能模型。


                    英伟达再次被发现从YouTube及奈飞上抓取数据用来练习人工智能模型

值得注意的是当职工问询该项意图合法性时,英伟达管理层向他们确保,他们现已取得公司最高管理层的同意运用这些数据进行人工智能模型的练习。

一起英伟达内部的 Slack 聊天记录、电子邮件和部分文件也被走漏,这些文件作为依据证明英伟达确真实不停地、未经授权的抓取数据用于模型练习。

为了可以完成各种在线视频资源的抓取,Cosmos 项目据称运用了某个开源的视频下载器,并运用机器学习进行 IP 跳动然后避开 YouTube 的封闭。依据显现项目经理评论了运用 30 台运行在亚马逊 AWS 上的虚拟机用来抓取数据。

关于媒体报道英伟达也进行了回应,英伟达称自己没有做错任何事:

咱们尊重一切内容创作者的权力并信任咱们的模型和研究工作完全符合版权法的条文和精力。版权法维护特定的表达方法,但不维护现实、主意、数据或信息,任何人都可以自由地从其他来历了解现实、主意、数据或信息,并运用这些数据来表达自己的观念。合理运用还维护将著作用于变特性意图的才能,例如模型练习。

现在包含但不限于英伟达在内的科技公司都在想方设法从互联网上抓取数据用于模型练习,在这个过程中必定牵涉到未经授权的版权内容,但只需不被发现那必定便是一向不停地抓取。

另一方面经过受维护内容练习的人工智能模型假如用于商业用途也很简单呈现版权胶葛,例如在 CES 2024 上英伟达对其游戏生成式人工智能引擎的练习方法就给出了不置可否的答复,这引起了许多忧虑,随后英伟达又表明在商业上安全的用来消除开发者的疑虑。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,982人围观)

还没有评论,来说两句吧...

目录[+]