作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 数据科学、AI研究、机器学习、数据插补、LLM
新智元报道,编辑:桃子
【新智元导读】:终有一天,LLM可以成为人类数据专家,针对不同领域进行数据分析,大大解放AI研究员。
在数据科学中,AI研究员经常面临处理不完整数据集的挑战。然而,许多已有的算法根本无法处理「不完整」的数据序列。传统上,数据科学家会求助于专家,利用他们的专业知识来填补空白,然而这一过程既耗时,却又不实用。如果AI可以接管专家的角色,又会如何呢?
近日,来自德国人工智能中心、大阪公立大学等团队的研究人员,调查了LLM能否足以充当数字专家。毕竟,当前大模型都在大量文本的基础上进行了训练,可能对医学数据、社会科学等不同主题的问题有着深刻的理解。
研究人员通过将LLM的答案与实际数据进行比较,并建立了处理数据差距的统计方法。结果表明,在许多情况下,LLM可以在不依赖人类专家的情况下,提供与传统方法类似的准确估计。
在分析数据时,无论是医学、经济学还是环境研究,经常会遇到信息不完整的问题。这就需要用到两种关键技术:先验启发(确定先验知识)和数据插补(补充缺失数据)。
研究中,主要采用的数据集为OpenML-CC18 Curated Classification Benchmark,其中包括72个分类数据集,涵盖从信用评级到医药和营销等各个领域。这种多样性确保了实验涵盖了广泛的现实世界场景,并为LLM在不同环境下的性能提供了相关见解。
值得一提的是,最新方法中最关键的一个步骤便是——人为在数据集中生成缺失值,以模拟数据点不完整的情况。研究人员用随机缺失(MAR)模式从完整条目中生成这种缺失数据,以便与基本事实进行比较。
他们首先从OpenML描述中,为每个数据集生成一个适当的专家角色,然后使用它来初始化LLM,以便可以查询它是否缺少值。使用LLM进行插值,包括LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct,以及Mixtral 8x7B Instruct,每一种都进行了单独的评估。
将这些模型与这类分析中常用的3种经验方法进行了比较:分别用于连续特征和分类特征的平均值和模式估算、k-近邻(k-NN)估算和随机森林估算。归因质量的评估基于,连续特征和分类特征的归一化均方根误差(NRMSE)和F1分数。
与预期相反,分析结果表明,LLM的估算质量一般不会超过三种经验方法。然而,基于LLM的插补对于某些数据集是有用的,特别是在工程和计算机视觉领域。一些数据集,如这些领域的「PC1」、「PC3」和「Satimage」,表现出NRMSE约为0.1的归因质量,在生物学和NLP领域也观察到了类似的结果。
有趣的是,基于LLM归因的下游表现因领域而异。虽然社会科学和心理学等领域表现较差,但医学、经济学、商业和生物学表现较好。值得注意的是,基于LLM的插补在商业领域表现最好。
此外,研究还表明,至少在某些领域,LLM可以基于其丰富的训练数据提供准确和相关的估计,这些数据可以与真实世界的数据相匹配。使用LLM进行数据插补是有前景的,但它需要仔细考虑领域和特定用例。
此外,研究人员还利用LLM研究了先验启发,旨在评估LLM能否提供有关特征分布的信息,以及这对数据收集和后续数据分析有何影响。
特别是,进一步了解LLM所获得的先验分布的影响和有效性,并比较它们与传统方法和模型的性能如何。作者将LLM的估计值与Stefan等人的实验结果进行了比较。
在使用LLM进行先验启发的过程中,ChatGPT 3.5展示了其对学术启发框架的熟悉程度,比如谢菲尔德启发框架与直方图方法相结合。
令人惊讶的是,不同子领域的专家角色对LLM产生的先验没有显著影响。在实验中,无论他们扮演什么角色,他们的判断都非常相似:大多数人工专家都倾向于谨慎预测,认为影响较小。只有GPT-4专家比较大胆,认为影响中等偏大。
然后,作者还观察了这些数字专家对他们的预测的信心。一些人相当谨慎,提供了保守的估计,除了Mistral 7B Instruct——对其估计的质量非常有信心。
这项研究表明,在医学、经济和生物等领域,LLM已经可以基于传统的数据插补的方法,提供有价值的见解。LLM能够综合来自各种来源的知识,并将其应用于特定的应用环境,为数据分析开辟了新的视野。特别是在专家难觅,或时间宝贵的情况下,LLM可以成为宝贵的资源。
原文信息
【原文链接】 阅读原文
【原文字数】 1960
【阅读时长】 7分钟