内部研究人员爆料，AI高速训练， 2026 年将耗尽训练AI|ChatGPT,人工智能,

Deleon 2023-11-25 258 0 0 0 0

ChatGPT,人工智能,随着人工智能进入高速发展时代，研究人员警告数据短缺可能会阻碍此类模型的发展。为何网络丰富的数据还会出现短缺?有应对之策吗?数据量和质量对人工智能至关重要。强大的人工智能算法需要大量高质量数据进行训练。…

随着人工智能进入高速发展时代，研究人员警告数据短缺可能会阻碍此类模型的发展。为何网络丰富的数据还会出现短缺?有应对之策吗?

数据量和质量对人工智能至关重要。

强大的人工智能算法需要大量高质量数据进行训练。比如，ChatGPT就是在约3000亿单词的文本数据上训练的。同样，许多图像生成模型也需要亿量级的图片文本进行调教。如果数据不足，模型表现就会不准或者质量低劣。

此外，数据质量也很关键。社交媒体上存在偏见或错误信息的数据很容易获取，但训练高性能模型是完全不足的。微软曾试图用Twitter内容训练机器人，结果它学会了产生种族歧视和厌恶女性的语言。

因此，人工智能开发者更倾向使用书籍文字、文章、科学论文、维基百科等经过滤的高质量内容。甚至连Google Assistant也通过接受1.1万本言情小说的训练来提升其对话能力。

随着越来越大规模的人工智能系统被训练出来，我们有足够的数据来持续推动这个领域吗?

数据增长放缓，AI模型需求增加

以往人工智能系统都是在持续扩大的数据集上训练的，这才产生了今天性能强劲的模型，如ChatGPT和DALL-E。但问题在于，在线数据的增长速度落后于用于训练AI系统的数据需求增速。

一项研究预计，在当前趋势下，我们将在2026年前耗尽高质量文本数据，在高质量数据被耗尽的20年间耗尽低质量文本数据。考虑到AI对经济贡献巨大的预期，数据短缺可能会拖累其进一步发展。

数据需求量减少和新数据来源作为应对

尽管情况比看起来悲观，AI领域也在主要从两个方面应对数据短缺风险:

一是通过算法提效，使用更少数据训练强AI。这不仅增加了模型可持续性，还能减少其计算与环境影响;

二是开发合成数据生成技术。现有公司可以按需生成优质训练数据。并且开发者也在寻找更多未被开发的文本与图像资源，如付费新闻数据库、出版商档案等。

内容创作者要求AI公司为使用其作品付费也正在推动行业变化。这有助于重新平衡创作者与AI公司之间的权力关系。

【版權聲明】
本文爲轉帖，原文鏈接如下，如有侵權，請聯繫我們，我們會及時刪除
原文鏈接：https://mp.weixin.qq.com/s/0GNfmFTp_01IGhHY6lLH_g

Tag:

ChatGPT实测全线碾压Bard！谷歌溃败，十年心血打水漂 2023-04-13