AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河

AIGC动态5小时前更新 ai-front
143 0 0
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河

文章摘要


【关 键 词】 人工智能多模态机器人视觉应用

人工智能迈向“多模态智能体”新时代的过程中,视觉理解、空间智能建模以及感知、认知与行动的高效整合仍是当前面临的主要挑战。IDEA研究院计算机视觉与机器人研究中心讲席科学家张磊在AICon全球人工智能开发与应用大会上,深入剖析了这些问题的核心,并提出了务实的落地路径。他指出,“看懂、想透、做好”是多模态智能体的核心目标,涵盖了视觉、语言推理和物理执行能力。尽管语言模型、机器人本体技术和视觉技术在过去几年取得了显著进展,但将这些环节有效整合仍是关键难题。

视觉理解因其高维度和复杂性,成为多模态智能体发展中的瓶颈。视觉输入涉及连续空间信号和三维结构的理解,同时还需要结合与物体交互的通用知识。张磊强调,视觉理解与机器人的有效连接仍是未来研究的重点。此外,生成模型与理解模型之间的深度耦合也表明,生成质量的评估依赖于理解能力,二者不可割裂。

空间智能在机器人领域的重要性日益凸显。机器人需要识别周围物体、判断距离并理解结构形状以规划抓取方式,这些任务都依赖强大的视觉理解能力。当前,基于端到端模型的视觉-语言-行动模型(VLA)在实际操作中成功率较低,主要原因是缺乏对画面中物体的深入理解和精确定位。张磊指出,空间理解的建模方法尚未统一,视觉领域的三维表示方法仍存在争议。斯坦福大学李飞飞教授主张在世界模型中采用三维内部表示方式,以更好地进行问题建模和预测。

在应用落地方面,张磊认为,“半结构化”场景是机器人技术逐步切入的可行路径。现代产线需求多变,机器人需要根据指令灵活操作,这种介于结构化与全开放之间的环境为技术落地提供了机会。然而,家庭等开放场景对机器人提出了更高要求,视觉、语言推理及抓取灵活度的综合能力仍需长期突破。

对于工业界研究人员,张磊强调,研究应聚焦于解决实际问题,而非仅为发表论文。研究人员需要在研究价值与应用价值之间找到平衡,避免陷入“为研究而研究”的误区。他以目标检测为例,指出尽管大模型兴起,但实现真正通用的检测与感知系统仍面临巨大挑战,需要持续创新。

在平衡研究与产品开发时,张磊认为,研究需要更开放的环境和内在驱动力,而产品开发则强调结果交付。两种模式的节奏差异要求管理者深刻理解并有效平衡二者关系。以OpenAI为例,GPT系列研发从自由发散式研究转向工程导向模式,依赖迭代算力、系统架构和数据,但研究的基础依然是科学问题。

对于年轻研究者,张磊建议,扎实的计算机基础能力是未来AI时代持续产生价值的关键。他强调,不要停留在“调参侠”层面,而应深入理解系统架构和并行计算等底层原理。AI应成为辅助工具,帮助提升编程广度和深度,而非取代程序员。

最后,张磊鼓励年轻人选择基础学科专业,如计算机科学,以打好扎实的基础。他提醒,应用方向会随时间变迁,但底层逻辑稳固,深入理解基础能让人走得更远。AI编程能力的发展主要冲击基础编码工作,未来对程序员的要求是超越AI,做出AI无法替代的贡献。

原文和模型


【原文链接】 阅读原文 [ 5310字 | 22分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...