标签:强化学习

造完芯片火箭后,姚颂创业造机器人,融资近亿美元

由深鉴科技与东方空间创始人姚颂、正大集团及清华大学学者于超联合发起的具身智能创企正行创新宣布完成近亿美元天使轮系列融资。本轮融资由正大集团、华勤技...

GAIR Paper 103|上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除

大语言模型在医疗、金融等高风险场景部署时面临严重的幻觉问题。先导实验揭示,幻觉在词元层面极其稀疏,但在回答层面却非常普遍。传统的响应级强化学习方法...

小模型推理极限在哪里?微博开源3B小模型,比肩顶级闭源

微博新开源的30亿参数模型VibeThinker-3B在数学竞赛和编程实战中展现出卓越性能,将小模型在特定能力维度的表现推向极限。该模型在AIME26数学竞赛中取得94.3...

最近听过最过瘾的推荐系统和 LLM 技术分享。

互联网核心的搜索、推荐和广告系统正全面进入大模型时代,经历着底层基础设施的重构。传统推荐系统依赖历史行为与统计相关性,面临模块独立、难以端到端优化...

堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答

当前人工智能已从实验室走向生产线,但通用大模型在真实业务场景中面临会回答却不会执行的困境。智能竞争的核心矛盾已从追求技术卓越性彻底迁移至追求生产力...

腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

腾讯联合多个团队发布了面向真实世界机器人操作任务的端到端具身智能模型HyVLA-0.5。该模型基于自研的高精度指套式数据采集软硬件,构建了超过一万小时的人类...

创业一年,这对清华师兄弟,把机器人送进蔚来工厂

2024年中,受大模型浪潮与端到端自动驾驶技术发展的启发,清华大学校友张涛与李升波共同创立了光象科技,正式进军具身智能赛道。团队确立了软硬一体化的技术...

百度发布文档解析新王者:0.9B参数,96.33%得分新SOTA

百度PaddlePaddle团队发布并开源了PaddleOCR-VL-1.6文档解析模型。该模型以0.9B的紧凑参数规模,在OmniDocBench v1.6评测中取得96.33%的总分并登顶榜首,展现...

浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

这种结构化状态设计使得MobileGym能够实现考练一体,同一套可验证信号既能作为精确的评测成绩单,又能作为强化学习的奖励反馈。由于环境极度轻量,单台服务器...

Token烧不起了?比肩Claude Opus 4.6免费模型来了,还将开源

昆仑万维天工AI发布了专为智能体场景深度优化的SkyClaw-v1.0大模型。该模型目前提供免费试用并计划后续开源,其百万上下文窗口的输入价格最低至0.3元每百万to...
1 2 3 27