ChatGPT,人工智能,随着人工智能进入高速发展时代,研究人员警告数据短缺可能会阻碍此类模型的发展。为何网络丰富的数据还会出现短缺?有应对之策吗?数据量和质量对人工智能至关重要。强大的人工智能算法需要大量高质量数据进行训练。…
随着人工智能进入高速发展时代,研究人员警告数据短缺可能会阻碍此类模型的发展。为何网络丰富的数据还会出现短缺?有应对之策吗?
数据量和质量对人工智能至关重要。
强大的人工智能算法需要大量高质量数据进行训练。比如,ChatGPT就是在约3000亿单词的文本数据上训练的。同样,许多图像生成模型也需要亿量级的图片文本进行调教。如果数据不足,模型表现就会不准或者质量低劣。
此外,数据质量也很关键。社交媒体上存在偏见或错误信息的数据很容易获取,但训练高性能模型是完全不足的。微软曾试图用Twitter内容训练机器人,结果它学会了产生种族歧视和厌恶女性的语言。
数据增长放缓,AI模型需求增加
以往人工智能系统都是在持续扩大的数据集上训练的,这才产生了今天性能强劲的模型,如ChatGPT和DALL-E。但问题在于,在线数据的增长速度落后于用于训练AI系统的数据需求增速。
一项研究预计,在当前趋势下,我们将在2026年前耗尽高质量文本数据,在高质量数据被耗尽的20年间耗尽低质量文本数据。考虑到AI对经济贡献巨大的预期,数据短缺可能会拖累其进一步发展。
数据需求量减少和新数据来源作为应对
尽管情况比看起来悲观,AI领域也在主要从两个方面应对数据短缺风险:
一是通过算法提效,使用更少数据训练强AI。这不仅增加了模型可持续性,还能减少其计算与环境影响;
二是开发合成数据生成技术。现有公司可以按需生成优质训练数据。并且开发者也在寻找更多未被开发的文本与图像资源,如付费新闻数据库、出版商档案等。
内容创作者要求AI公司为使用其作品付费也正在推动行业变化。这有助于重新平衡创作者与AI公司之间的权力关系。
【版權聲明】
本文爲轉帖,原文鏈接如下,如有侵權,請聯繫我們,我們會及時刪除
原文鏈接:https://mp.weixin.qq.com/s/0GNfmFTp_01IGhHY6lLH_g Tag: ChatGPT 人工智能