
文章摘要
【关 键 词】 大模型、数据管理、智能化、检索效率、数据质量
大模型技术的快速发展正在深刻改变数据管理与分析的方式,Chat BI、Agent+Workflow等应用使得业务人员能够通过自然语言交互即时获取数据洞察,显著提升了生产力。然而,如何构建高质量数据集、优化检索效率,以及让数据在大模型应用中发挥最大效能,仍然是当前面临的核心挑战。在AICon全球人工智能开发与应用大会2025北京站的预热活动中,多位专家围绕这些问题展开了深入探讨。
数据构建的挑战与趋势是讨论的重点之一。单海军指出,数据构建方式正从割裂的范式向统一的训练框架演进,例如清华大学提出的IFT(直觉微调)将SFT与RLHF融合,减少了对数据的依赖并提升了训练效率。此外,数据构建正在趋于轻量化和自动化,合成数据的出现大大减少了人工标注的需求。然而,数据量并非越多越好,数据蒸馏技术的应用成为筛选高质量数据的关键。单海军还强调,数据配比、任务分布均衡性以及数据质量是构建高质量数据集的核心要素。
在企业落地过程中,数据准备往往是最容易被忽视但最难做好的环节。覃睿提到,数据相关工作周期长、过程枯燥,且缺乏直接成效的呈现,导致其容易被忽视。特别是在传统企业中,数字化基础建设较为薄弱,直接开展模型微调存在较高门槛。文档解析、QA数据构建和结构化数据处理是数据准备中的三大挑战。例如,Chat BI场景对数据的准备要求极高,货拉拉通过DSL作为中间层,避免了直接生成SQL的准确率问题,并通过精细分类和高质量数据构建确保模型调优效果。
Deep Research框架的引入为大模型应用带来了新的可能性。覃睿指出,Deep Research不仅是传统RAG的扩展,它代表了大模型应用从检索辅助走向多阶段、可规划推理的质变。这种能力将极大拓展AI的可用场景,尤其是在复杂任务处理中展现出显著优势。然而,“控幻觉”仍然是技术架构下无法彻底消除的问题,需要通过用户交互机制和场景选择来平衡效果与成本。
在数据智能落地的过程中,Agent + Workflow的结合被认为是未来的重要方向。凌霄强调,归因逻辑的清晰性和系统性决定了Agent与Workflow的不可或缺性。这种架构不仅能固定复杂逻辑,还具备灵活性,能够作为触发器连接大模型或其他工程逻辑,从而推动业务流程的标准化和自动化。覃睿进一步指出,大模型应像水一样,自然地嵌入业务流程中,而不是作为“主体”硬性插入,这样才能真正发挥其价值。
最后,数据智能的本质挑战在于技术升级与组织流程重塑的双重作用。单海军认为,这轮技术升级正在推动企业组织模式从“以业务流程为中心”转向“以数据流为中心”,跨部门的协同与融合成为关键。覃睿则从落地项目经验出发,指出大模型技术的占比并不高,更多价值来自于数据的打通和业务部门的协同。CEO的亲自推动使得过去难以落地的项目得以实现,但智能化的提升速度和曲线仍存在不确定性。
总体而言,大模型技术为数据管理与分析带来了新的机遇,但其成功落地依赖于高质量数据的构建、业务流程的优化以及技术与业务的深度融合。
原文和模型
【原文链接】 阅读原文 [ 8400字 | 34分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★