Deleon 2023-11-25 258 0 0 0 0
ChatGPT,人工智能,随着人工智能进入高速发展时代,研究人员警告数据短缺可能会阻碍此类模型的发展。为何网络丰富的数据还会出现短缺?有应对之策吗?数据量和质量对人工智能至关重要。强大的人工智能算法需要大量高质量数据进行训练。…

随着人工智能进入高速发展时代,研究人员警告数据短缺可能会阻碍此类模型的发展。为何网络丰富的数据还会出现短缺?有应对之策吗?

数据量和质量对人工智能至关重要。

强大的人工智能算法需要大量高质量数据进行训练。比如,ChatGPT就是在约3000亿单词的文本数据上训练的。同样,许多图像生成模型也需要亿量级的图片文本进行调教。如果数据不足,模型表现就会不准或者质量低劣。

此外,数据质量也很关键。社交媒体上存在偏见或错误信息的数据很容易获取,但训练高性能模型是完全不足的。微软曾试图用Twitter内容训练机器人,结果它学会了产生种族歧视和厌恶女性的语言。

因此,人工智能开发者更倾向使用书籍文字、文章、科学论文、维基百科等经过滤的高质量内容。甚至连Google Assistant也通过接受1.1万本言情小说的训练来提升其对话能力。

随着越来越大规模的人工智能系统被训练出来,我们有足够的数据来持续推动这个领域吗?

数据增长放缓,AI模型需求增加

以往人工智能系统都是在持续扩大的数据集上训练的,这才产生了今天性能强劲的模型,如ChatGPTDALL-E。但问题在于,在线数据的增长速度落后于用于训练AI系统的数据需求增速。

一项研究预计,在当前趋势下,我们将在2026年前耗尽高质量文本数据,在高质量数据被耗尽的20年间耗尽低质量文本数据。考虑到AI对经济贡献巨大的预期,数据短缺可能会拖累其进一步发展。

数据需求量减少和新数据来源作为应对

尽管情况比看起来悲观,AI领域也在主要从两个方面应对数据短缺风险:

一是通过算法提效,使用更少数据训练强AI。这不仅增加了模型可持续性,还能减少其计算与环境影响;

二是开发合成数据生成技术。现有公司可以按需生成优质训练数据。并且开发者也在寻找更多未被开发的文本与图像资源,如付费新闻数据库、出版商档案等。

内容创作者要求AI公司为使用其作品付费也正在推动行业变化。这有助于重新平衡创作者与AI公司之间的权力关系。


【版權聲明】
本文爲轉帖,原文鏈接如下,如有侵權,請聯繫我們,我們會及時刪除
原文鏈接:https://mp.weixin.qq.com/s/0GNfmFTp_01IGhHY6lLH_g
Tag: ChatGPT 人工智能
歡迎評論
未登錄,
請先 [ 註冊 ] or [ 登錄 ]
(一分鍾即可完成註冊!)
返回首頁     ·   返回[ChatGPT]   ·   返回頂部