标签:智能体
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
过去几年,基于人类偏好的强化学习(RLHF)成为大语言模型(LLM)后训练阶段的关键技术,显著提升了模型的对齐能力,并拓展了其在推理增强、智能体交互等场景...
提示词工程、RAG之后,LangChain:上下文工程开始火了!
随着技术的不断优化,更多情况下(尤其是当模型变得更强大时)模型的错误是由传递的上下文不当造成的。传递给模型的上下文可能由于缺少上下文或上下文格式不...
谷歌将 A2A 捐赠给 Linux 基金会,但代码实现还得靠开发者自己?!
在北美开源峰会上,Linux 基金会宣布与亚马逊云科技、思科、谷歌、微软等多家科技巨头共同成立 Agent2Agent(A2A)项目,旨在推动 AI 智能体之间的通信与协作...
汤森路透发布AI Agent,专用于税务、审计等财务领域
全球著名商业服务平台汤森路透发布了专门面向税务、审计和会计等财务专业人士的AI Agent——CoCounsel。这一智能体与传统AI助手有显著区别,能够超越预定义的动...
微软刚发布Mu模型:支持Windows智能体,小参数跑出10倍性能
微软今天凌晨发布了创新小参数模型Mu,该模型仅有3.3亿参数,但其性能可以比肩之前发布的小参数模型Phi-3.5-mini,体量却比它小10倍左右。Mu在离线NPU的笔记...
纳米 AI 梁志辉:超级搜索智能体是 AI 时代的真正入口
在 AGI Playground 2025 上,360 集团副总裁、纳米 AI 负责人梁志辉分享了 360 在 AI 搜索、智能体搭建和 AI 浏览器领域的探索与经验。传统搜索存在诸多痛点...
软件开发范式变了!首届 AICon 深圳站,来讲你的 AI 开发绝活!
AI 在软件开发中的角色正经历一场质的飞跃, 从简单的代码补全工具演变为“共创者”与“驱动者”。GitHub CEO Thomas Dohmke 强调,真正的变革在于 AI 正在重构软...
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
强化学习已成为大型语言模型(LLM)技术栈的核心组成部分,其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习(Agentic RL)。Unsloth团队近期发布...
世界模型版《模拟人生》:AI虚拟小人街头演讲拉票,GPT-4o选举获胜
虚拟社区是一个由马萨诸塞大学阿默斯特分校、约翰霍普金斯大学和卡耐基梅隆大学的研究者提出的创新项目,旨在通过结合真实世界的地理空间数据和生成模型,创...
Agentic AI时刻!多智能体驱动,「一人公司」这就要来了
人工智能领域近期涌现出突破性进展,多位行业领袖对技术发展表现出超乎寻常的乐观态度。诺贝尔奖得主Geoffrey Hinton预测人工智能将广泛取代人类工作,仅保留...