并非所有AI问题都是数据问题:我们应当有意图地考虑数据扩展

发布时间:2025-02-28 00:55

收集信息:全面分析问题,获取所有相关数据 #生活技巧# #职场沟通技巧# #决策制定#

我局官微“上海统计”已开设专栏“理论应用”,内容聚焦前沿理论、立足全球视野,以传播现代统计方法、实践和成功案例为主,助推统计人科研水平提高和统计事业的改革发展,欢迎大家及时关注分享。

本期推送“并非所有AI问题都是数据问题:我们应当有意图地考虑数据扩展”,原文是由Google研究人员Tanya Rodchenko、Natasha Noy、Nino Scherrer和Jennifer Prendki合作撰写的论文“Not Every AI Problem is a Data Problem: We Should Be Intentional About Data Scaling”。在人工智能(Artificial Intelligence,AI)领域,扩展数据规模似乎已成为推动技术发展的主要动力,然而本文指出,并非所有AI问题都能通过简单地扩展数据规模来解决,我们应该考虑哪些类型的任务更有可能从数据扩展中获益,从而更有针对性地获取数据,以实现更有效的AI发展。

1 数据驱动型扩展的局限性

自Transformer模型问世以来,数据规模和模型参数量的不断扩大,成为AI领域发展的一个重要趋势。然而,这种趋势并非适用于所有场景。尽管在机器人技术等领域,扩展数据规模带来了显著进展,但在识别虚假信息等任务中,扩展数据规模并未带来预期的效果。原因在于,高质量数据是有限的,而低质量数据可能会对模型的性能和可靠性产生负面影响;较大的模型对哪怕少量不可靠数据也尤为敏感,可能会记住错误信息,从而导致不恰当的输出。

2 数据形态的重要性

文章指出,数据形态(即数据的组成和结构模式)对数据驱动型扩展至关重要。拓扑数据分析框架可以帮助识别数据集内在的维度和模式,从而判断数据驱动型扩展是否适用。例如,在机器翻译领域,语言的稳定性和高质量的翻译数据为模型训练提供了坚实的基础;然而,在新闻事实核查和揭露错误信息等任务中,由于数据缺乏明显且持久的拓扑特征,扩展数据规模的方法可能并不适用。

3 数据采集的重要性

除了数据形态,数据驱动型扩展的可行性也在很大程度上取决于数据采集过程的性质。如果能够得到高质量且易于获取的数据,那么扩展的潜力就会显著增加。例如,在自动驾驶汽车领域,持续收集的传感器数据能够不断提升模型的性能。

当然,数据质量的定义是复杂的,其与应用场景以及训练模型为用户带来的价值紧密相关。此外,我们还要批判性地审视当今的评估框架,进一步考虑人工智能模型如何应对现实世界的复杂性,并反映用户满意度和经济价值。

04 有意图的数据扩展

在数据驱动型扩展中,我们应当有明确的意图。通过专注于那些对扩展效果有较强假设的用例,并根据需求收集有针对性的数据,可以提高模型训练的效率,并减少所需的数据量。这种方法的演进可能会在主动学习中发挥重要作用,通过人机交互和模型交互,模型可以优先选择合适类型的数据,从而加快研究进展。

这种更具针对性的方法不仅能够高效利用资源,还能为解决那些需要的不仅仅是数据和规模的复杂AI挑战铺平道路。

编撰:上海社会科学院 刘周洲供稿:市统计学会

责编:薛依宜

审核:杨荣


特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!

网址:并非所有AI问题都是数据问题:我们应当有意图地考虑数据扩展 https://www.yuejiaxmz.com/news/view/798377

相关内容

大数据面临的安全问题有哪些—维科号
数据安全问题
大数据应用需注意哪些安全问题?
AI时代下,医疗领域数据安全问题不容忽视
运维 + 数据 + AI=企业数字化难题的应对之法?
数据隐私与伦理:在数字时代保护你的信息——讨论数据隐私和伦理问题,特别是在求职和工作中的相关性
大数据需留意的六个安全问题—维科号
谈数据中心在节能工作中遇到的问题
科学网—AI时代下,医疗领域数据安全问题不容忽视
数据中心能耗和效率问题

随便看看