
❤️ 实时更新精心挑选的评分较高的最新文章摘要(每日最多10篇),助你随时了解人工智能领域的最新动态和热门事件 ❤️
◈ 06月18日 星期三 【 10 篇 】
◎ 统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
当前最先进的机器人在工具使用上仍面临显著挑战,无法像人类一样直觉地操作工具。它们每次使用工具时都需要重新识别和规划,这种割裂式的处理方式限制了其能力。具身智能的突破需要一场架构革命,而非对现有视觉-语言基础模型的修补。自变量机器人提出,必须放弃多模态模块融合的拼凑式范式,转向端到端的统一架构,彻底消解视觉、语言和行动之间的边界,将它们还原为单一信息流。
现有主流方法将不同模态视为独立模块,通过融合层连接,但存在表征瓶颈和无法涌现的问题。信息在不同模态的专属编码器之间传递时,会产生不可避免的压缩损失,阻碍模型对物理世界进行深层次的跨模态理解。结构上的割裂使得模型难以学习到物理世界中跨越模态的…
来源: 机器之心
◎ 我在618主场,和3位顶尖技术博士聊了聊
618购物节作为一年一度的电商盛事,今年再次展现了其强大的市场影响力。随着技术的不断进步,消费者体验得到了显著提升,商品推荐更加精准,物流速度更快,智能客服和机器人技术也更加成熟。这些变化背后,是无数技术人员的辛勤付出,他们通过优化系统、调整模型、降低成本、提高效率,支撑着亿级用户的购物体验。
在京东零售业务中,长林主导的同品判别系统通过大模型优化,实现了商品自动归类,帮助消费者快速对比和选择性价比高的商品。长林和团队采用模型蒸馏技术,将大模型的推理过程抽象为特征动态演化,最大程度提取知识,最终成果被顶会ACL接收。数据筛选机制和自动数据配比算法的引入,进一步提升了训练效率,节省了40%~…
来源: 量子位
◎ 揭秘千卡 GPU 集群如何高效训练多模态大模型:vivo AI 团队实战经验分享|AICon
多模态大模型在智能客服、自动驾驶、AIGC等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级GPU训练集群上,如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈,成为AI Infra需要重点攻克的难题。vivo AI研究院AI架构师王兆雄在AICon全球人工智能开发与应用大会上,基于LLaVA视觉多模态理解模型和DiT文生图模型的训练工程实践,详细解析了大规模GPU训练集群下的数据存储优化、分布式计算策略、训练容错机制,并探讨了如何提升大规模多模态模型的训练效率和稳定性。
多模态大模型的训练工程挑战主要体现在算力压力大、存储I/O与CPU…
来源: AI前线
◎ 真·罗永浩直播干不过假·罗永浩?网友:不是老罗在演AI吧?
在今年的618大促中,罗永浩的数字人首次在百度电商直播中亮相,并取得了令人瞩目的成绩。带货单量超过了5月份罗永浩真人直播的同期数据,吸引了超过1300万人次的观看,商品交易总额(GMV)突破5500万元。这一成功背后,离不开百度电商数字人直播工具“慧播星”的支持。慧播星打造的高说服力数字人,本质上是一个具备形象、感知决策和行动的超级智能体,实现了多项技术突破。
首先,慧播星推出了业界首个双数字人互动直播间,罗永浩和朱萧木的数字人能够默契配合,还原了“主播+助播”的真实直播状态。得益于百度视觉大模型和语音大模型的升级,双人讲解时采用双音轨,支持打断说和同时说,观众几乎无法分辨出数字人与真人的…
来源: 量子位
◎ Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹
在当今以闭源模型为主导的AI技术领域,开源项目DeepSeek的最新版本DeepSeek-R1(0528)在多个关键领域超越了Claude Opus 4和GPT-4.1等顶级商业模型,成为开发者社区的焦点。DeepSeek-R1(0528)在大模型公共基准测试平台LMArena上的性能排名超越了多个顶尖封闭模型,尤其是在WebDev Arena中,其得分甚至超过了Claude Opus 4。WebDev Arena专注于复杂的Web开发挑战,测试模型在构建交互式组件、调试JavaScript和处理CSS边缘情况等方面的能力,而DeepSeek-R1(0528)在这些复杂任务中表现出色,展示了…
来源: AI前线
◎ 对话地瓜机器人CEO王丛:行业“淘汰赛”还没开始,距离通用具身智能至少5年
2017年,中国首款嵌入式AI视觉芯片旭日1.0处理器发布,标志着低功耗智能视觉技术的突破。2024年,地瓜机器人从地平线公司独立后推出旭日5芯片及RDK X5开发者套件,价格下探至500元以内。6月发布的RDK S100套件首次实现单SoC算控一体化,通过CPU+BPU+MCU异构协同架构,将机器人开发门槛降至2799元,加速具身智能商业化进程。
地瓜机器人CEO王丛提出,通用人形机器人普及仍需7-10年,当前商业化重点应聚焦三类方向。首先是以扫地机器人为代表的传统设备智能化升级,年出货量已达数千万台;其次是陪伴机器人等新兴消费品类持续涌现;最具现实意义的是四足、机械臂等垂直形态具身机器…
来源: 钛媒体AGI
◎ 技术更新 or 组织重塑,企业如何用好“数据智能”?
大模型技术的快速发展正在深刻改变数据管理与分析的方式,Chat BI、Agent+Workflow等应用使得业务人员能够通过自然语言交互即时获取数据洞察,显著提升了生产力。然而,如何构建高质量数据集、优化检索效率,以及让数据在大模型应用中发挥最大效能,仍然是当前面临的核心挑战。在AICon全球人工智能开发与应用大会2025北京站的预热活动中,多位专家围绕这些问题展开了深入探讨。
数据构建的挑战与趋势是讨论的重点之一。单海军指出,数据构建方式正从割裂的范式向统一的训练框架演进,例如清华大学提出的IFT(直觉微调)将SFT与RLHF融合,减少了对数据的依赖并提升了训练效率。此外,数据构建正在趋…
来源: AI前线
◎ 请记住 MiniMax M1:MiniMax 用自己的方法追上R1们,直奔最强Agent模型而去
MiniMax M1 的发布标志着该公司在基础模型领域的一次重大突破。该模型采用了线性注意力 Lightning Attention 机制,并将其与传统的 softmax attention 相结合,形成了一种混合架构。这种架构不仅大幅提升了模型的推理能力,还显著降低了训练成本。整个强化学习阶段仅需 512 张 H800 GPU,三周内完成训练,租赁成本仅为 53.47 万美金。这一创新使得 MiniMax M1 成为目前性价比最高的推理模型之一。
MiniMax M1 的混合架构设计使其能够支持高达 100 万上下文的输入,输出长度可达 8 万 Token,远超 DeepSeek R1 …
来源: 硅星人Pro
◎ 华为CloudMatrix384超节点:官方撰文深度解读
在2025年华为云生态大会上,华为推出了CloudMatrix 384超节点,旨在应对AI时代的海量算力需求。这一新型架构基于“一切可池化、一切皆对等、一切可组合”的高速互联总线,实现了从服务器级到矩阵级的资源供给模式转变。CloudMatrix 384具备“高密”“高速”“高效”的特点,通过全面的架构创新,在算力、互联带宽、内存带宽等方面实现全面领先。该架构通过超高带宽、低延迟的统一总线(UB)网络,支持直接的全节点通信,使计算、内存和网络资源能够动态池化、统一访问和独立扩展,尤其适用于通信密集型操作,如大规模MoE专家并行和分布式键值缓存访问。
华为与硅基流动合著的论文《Serving…
来源: 半导体行业观察
◎ 首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
小鹏汽车近期在智能驾驶领域取得显著进展,其全球首款L3级算力AI汽车G7正式亮相,搭载三颗自研图灵AI芯片,有效算力超过2200TOPS,并首次部署了VLA+VLM视觉大模型。这一技术突破标志着端到端智能驾驶进入新阶段,通过大算力、大模型和大数据的结合,为行业迈向L3级自动驾驶铺平道路。G7的智驾大脑与小脑VLA-OL模型首次引入“运动型大脑”的决策能力,而VLM模型则作为车辆理解世界的核心,未来将支持本地聊天、主动服务等多语言交互功能。
在CVPR 2025大会上,小鹏作为唯一受邀的中国车企,展示了其自动驾驶基座模型的技术细节。该模型在复杂城市环境中展现出拟人化驾驶能力,如正确变道绕行、…
来源: 机器之心
◈ 06月17日 星期二 【 2 篇 】
◎ 让大模型做高考题,结论没那么简单
随着高考结束,许多学生开始使用大模型来解答高考试题,结果显示大模型在这类任务上已经表现得非常熟练。这一现象引发了对未来高考防作弊难度的担忧,尤其是随着模型能力的提升,嵌入在手表或眼镜中的小型模型也能取得不错的成绩。Sam Altman最近提到,AI的温和奇点已经到来,尽管变化是渐进的,但像高考这样的制度设计可能会在未来几年因AI而发生模式上的变化。AI对高考的冲击可能是几十年来最深远的一次。
为了更直观地了解大模型在高考中的表现,社群中的几位朋友决定亲自测试全国高考一卷的语文和数学题。测试的模型包括GPT o3、Qwen3、文心X1 Turbo、DeepSeek R1和豆包(1.5或1.6…
来源: AI产品阿颖
◎ 酒店如何用AI吃下演唱会“流量红利”?
美团近期在AI领域的布局迅速推进,推出了多个面向不同行业的AI工具,尤其是在酒店业的应用引起了广泛关注。6月5日,美团发布了名为“美团既白”的垂类AI产品,旨在通过AI技术提升酒店商家的运营效率和客户体验。这一工具不仅帮助酒店在定价、服务准备、渠道管理等方面做出更精准的决策,还通过多轮对话和上下文理解能力,替代部分客服工作,减轻酒店人员的工作负担。美团既白的核心在于其智能协作的Multi-Agent框架和专为酒旅行业定制的大模型底座,这些技术确保了任务处理的高效性和精准性。
在杭州黄龙饭店的试用中,美团既白显著提升了酒店的获客效率和服务质量。例如,通过分析杭州即将发生的热点事件,美团既白能…
来源: 硅星人Pro
◈ 06月16日 星期一 【 8 篇 】
◎ 我感受到了程序员的新红利。
火山引擎Force大会展示了豆包大模型1.6的突破性进展,其深度思考能力通过多轮搜索推理机制达到全球一流水准。模型采用迭代式问题探索模式,与OpenAI最新技术同步,显著提升了复杂任务的推理表现。多模态和GUI操作能力的增强为开发者提供了更强大的工具支持,尤其是语音播客模型对细节的还原能力已可应用于历史文化场景复现。
成本优化成为另一大亮点,新推出的按输入长度区间计价模式使综合成本较上一代降低63%。火山引擎通过技术创新将大模型推理成本压缩90%以上,为创业团队提供了更具性价比的基座能力。开发者工具链的完善尤为关键,PromptPilot通过可视化界面实现提示词优化自动化,TRAE平台则整…
来源: AI产品阿颖
◎ 两个浙大学生决定只用AI生存72小时
两位浙江大学应用数学系的大一学生区瀚楠与陈睿轩参与了一场由五源资本发起的“72小时AI生存挑战”,在一间封闭的民宿房间里,仅依靠一台安装AI工具的电脑、一部非智能手机、少量资金和基础生活用品完成了持续三天的极限任务。这次活动不仅是一次对技术能力的考验,更是一项对创业思维、资源调度、团队协作和人机交互模式的综合测试。
进入挑战前,所有参与者必须选择一件携带物品,《飞鸟集》成了两人出人意料的选择。虽然这是一场以AI为核心的比赛,但《飞鸟集》中关于生命、知识与理想的诗句,却悄然映照了挑战背后的深层意义。两人原本各自参赛,后经主办方视频面试才发现是合租室友,便临时决定组队挑战。虽然合作意味着共享资…
来源: 甲子光年
◎ 谁最不想让泡泡玛特下跌?
随着资本市场的风格轮动,消费行业的投资风向正在悄然发生转变。曾经稳居核心资产的贵州茅台如今不再是香饽饽,年轻投资者更倾向于追捧如泡泡玛特这样的新晋潮流消费品。在这一趋势下,昔日重仓白酒、尤其偏爱贵州茅台的“茅粉”基金经理也开始调整方向,转向以Labubu为代表的潮玩企业。
其中最具代表性的便是汇添富明星基金经理胡昕炜。他在2016年开始管理汇添富消费行业混合基金,并因对白酒的投资实现五年240.09%的收益率,巅峰期管理规模高达768亿元,被誉为“消费四大天王”之一。然而自2021年起,受白酒板块整体下行的影响,其产品净值持续回撤,至2025年中,部分产品的单位净值已经较最高点跌去超过一半…
来源: 段明珠
◎ AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
AI 技术正在从模型性能的竞争转向实际应用价值的探索。随着生成式 AI 的快速发展,模型参数量和训练成本不断攀升,但性能提升并非终点,真正的挑战在于如何将 AI 技术落地到真实场景中。在中国,已有超过 500 个大模型通过备案,标志着 AI 技术进入了一个新的阶段。企业开始关注 AI 在具体行业中的应用,特别是在金融领域,AI 的潜力正在被深度挖掘。
金融行业成为 AI 应用的前沿阵地。金融行业信息密度高、场景丰富,为 AI 提供了广阔的应用空间。大科技企业如华为和蚂蚁集团已经推出了针对金融领域的垂类模型,例如华为的「盘古金融大模型」和蚂蚁集团的「AntFinGLM」。这些模型被应用于智能…
来源: 机器之心
◎ 13年死磕一个真理,这家中国AI黑马冲刺IPO
深圳地铁20号线上,一位老人用方言对着售票机说出目的地后,机器仅用1.5秒就准确出票,而传统方式需要15秒。这一场景背后是云知声数万小时方言训练的成果,展现了AI技术如何跨越数字鸿沟,服务普通人的真实需求。这家深耕AI领域13年的企业,近期通过港交所聆讯,即将上市,其发展历程折射出中国AI产业的完整进化轨迹。
云知声的成长可分为四个关键阶段。2012-2014年的语音交互开拓期,公司采用DNN算法提升中文语音识别准确率,与乐视、微信等合作验证了商业可行性。2014-2018年进入”云端芯”战略布局期,自主研发物联网语音AI芯片”雨燕”,唤醒延迟低于0.3秒,同时构建多模态技术能力。2018…
来源: 新智元
◎ 从“答案”走向“洞察”,深度研究Agent正在淘汰“信息缝合怪”
AI搜索工具「心流AI助手」最近推出了【高级研究模式】,旨在通过自动化任务拆解、多轮信息搜索与整合,生成系统化的网页式报告。这种模式不仅能够处理复杂的研究需求,还能通过可视化的方式呈现结果,极大地降低了用户处理复杂信息的认知负荷。例如,在奶茶投资研究中,AI能够自动搜集不同品牌的各项费用,并生成表格进行横向对比。这种系统化的报告生成方式,使得用户不再需要面对零散的文本段落,而是获得了一个结构化的、易于理解的研究成果。
在实测中,用户输入了“防晒产品市场调研”的指令,AI不仅能够理解复杂的需求,还能自动拆解任务、进行多轮搜索,并最终生成一份详尽的报告。报告中不仅包含了热门产品的详细分析,还针…
来源: 硅星人Pro
◎ 颠覆中介层,玻璃来了!
玻璃中介层在3D堆叠技术中的应用展现出显著优势,特别是在支持嵌入基板的芯粒与直接堆叠于顶部的芯粒之间的连接方面。与传统的硅中介层相比,玻璃中介层在多个关键系统级指标上表现优异,包括面积优化、线长缩短、信号完整性提升、电源完整性改善以及热完整性管理。实验数据显示,玻璃中介层可实现2.6倍的面积优化、21倍的线长缩短、全芯片功耗降低17.72%、信号完整性提升64.7%、电源完整性改善10倍,尽管温度会升高15%。
玻璃中介层的独特优势在于其允许芯粒嵌入基板的能力,这为3D堆叠提供了天然的支持。这种嵌入能力不仅降低了成本,还通过再分布层(RDL)实现了短距离的芯片间“微过孔”互连。玻璃中的互连…
来源: 半导体行业观察
◎ 小鹏CVPR“亮底牌”:一家中国量产车企,如何为自动驾驶的未来探路?
全球计算机视觉顶会CVPR 2025在美国纳什维尔落下帷幕,吸引了上万名AI研究者参与,现场火爆程度空前。大会共收到创纪录的13,008篇论文投稿,最终录取率仅为22.1%,竞争异常激烈。3D视觉和“世界模型”成为两大技术风向标,其中最佳论文VGGT展示了一个能高效从2D图片中重建3D信息的端到端方案。华人研究员的活跃度和影响力持续提升,多位学者获得奖项与提名。
学术界与产业界的边界正在快速模糊,Meta、Google、NVIDIA等企业大量参会,“从论文到产品”成为热门议题。小鹏汽车作为唯一受邀的中国车企,在自动驾驶分论坛上发表了题为《Scaling up Autonomous Driv…
来源: 硅星人Pro
◈ 06月15日 星期日 【 9 篇 】
◎ 98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!
斯坦福大学的研究揭示了AI在医疗诊断中的潜力,尤其是当AI从工具转变为协作队友时,医生的诊断准确率显著提升了10%。这项研究由70名美国执业医生参与,通过对比AI-first、AI-second和传统诊断方法,发现AI协作组的医生表现明显优于仅使用传统工具的对照组。AI-first组的平均得分为85%,比对照组高9.8%,而AI-second组的平均得分为82%,比对照组高6.8%。尽管AI单独运行的准确率略高于协作组,但差异不显著,这表明AI能够有效补全人类思维的漏洞。
研究团队基于GPT-4开发了一款定制化的AI系统,设计了两种协作工作流程。在AI-first组中,医生首先输入病例信息…
来源: 新智元
◎ 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
陶哲轩近期公开预言人工智能将在数学领域实现突破性进展,甚至可能冲击菲尔兹奖级别的成就。这位菲尔兹奖得主在长达3小时的访谈中勾勒出AI参与数学研究的三个阶段:2026年前成为可信赖的研究助手;十年内提出重要数学猜想;最终实现获奖级别的突破。他认为AI参与重大数学发现只是时间问题,而非能力问题,并特别强调生成具有深远意义的数学猜想将成为AI的”AlphaGo时刻”。
在物理学领域,陶哲轩指出当前统一理论(如量子力学与广义相对论)的困境源于尚未找到合适的数学语言。他回顾科学史上的统一范式——从牛顿统一天体与地面运动,到麦克斯韦统一电磁现象——认为AI可能加速发现隐藏的数学结构。虽然实现”大统一理…
来源: 新智元
◎ 全方位实测首个AI原生浏览器!618比价、写高考作文…网友:再见Chrome
Dia浏览器作为首个原生AI浏览器,由The Browser Company推出,标志着浏览器技术的一次重大革新。其最大亮点在于用户无需打开ChatGPT等外部AI工具,即可直接与任意网页进行对话。这一功能通过右上角的“Chat”按钮实现,用户可以在苹果官网等网页上进行咨询聊天,甚至比较不同网页的内容,如iPhone 16 Pro和OPPO Find X8 Pro的发布信息。此外,Dia还能帮助用户总结YouTube视频内容,并定位到视频的具体时间点,提供即时解答。
Dia浏览器的设计简洁易用,用户无需安装繁琐的插件即可享受AI带来的便利。其多网页信息整合功能尤为突出,能够自动进行上下文感…
来源: 量子位
◎ 泡泡玛特王宁:快乐会是一个更大的市场,「无用」的东西才是永恒的
泡泡玛特创始人王宁凭借公司股价的持续上涨,成为了河南新首富,并在富豪榜上超越了美团创始人王兴。泡泡玛特作为一家成立15年的潮玩公司,成功打造了全球爆火的流行符号Labubu,其受欢迎程度不亚于迪士尼的玲娜贝儿。王宁在分享中回顾了泡泡玛特的创业历程,强调了公司在潮玩领域的独特竞争优势和持续创新的能力。
泡泡玛特的成功不仅在于其原创IP的打造,还在于其对中国制造和中国市场的深刻理解。王宁指出,改革开放四十年来,中国企业积累了两个“核武器”:中国制造和中国市场。泡泡玛特通过将潮玩这一垂直小众的爱好推动成为一个产业,成功吸引了大量成年消费者,并参与了潮流玩具的定义。王宁认为,潮玩的成功在于它满足了…
来源: Founder Park
◎ 被骂“在乱讲”的专家,这次可能说对了:传统数据仓库正在被 Agentic AI 吞噬
随着AI技术的快速发展,传统数据仓库的架构正面临深刻的变革。Agentic AI的崛起标志着AI不再仅仅是“聊天工具”,而是具备感知、行动、协作能力的智能体。这种转变对数据仓库的设计提出了新的挑战。传统数据仓库以人为中心,强调结构化数据和查询模式,而Agentic AI时代的数据架构则更注重语义理解和响应模式。数据仓库的角色正在从“决策支持系统”转变为“数据素材库”,甚至可能被完全重构。
Snowflake的CEO更替背后,反映了数据仓库领域的范式转变。AI-first、Agent-driven、语义导向的数据架构成为新的关键词。传统数据仓库的架构,如Bill Inmon提出的“面向主题、…
来源: AI前线
◎ 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
人工智能领域正在经历一场深刻的变革,从传统的预训练模型向更复杂的情境智能(Contextual Intelligence)转变。2024年底,Ilya Sutskever的断言引发了业界对“Scaling What”的广泛讨论,新的技术路径如推理时扩展(Test-Time Scaling)、强化学习突破以及Agent化路径不断涌现。其中,复旦大学邱锡鹏教授提出的Context Scaling尤为引人注目。Context Scaling的核心在于让AI理解并适应复杂、多变、模糊的情境,而非单纯追求更大的参数规模或数据量。
邱锡鹏教授将大模型的演进分为三幕:第一幕是模型规模化的胜利,通过堆叠数…
来源: 机器之心
◎ 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
凌晨三点的AI实验室里,博士生们为提升模型准确率0.3%而通宵调参的场景,折射出当前学术圈的深层困境。谢赛宁在CVPR 2025的演讲中犀利指出,AI研究正面临从”无限游戏”异化为”有限游戏”的危险转向。这一观点源自詹姆斯・卡斯《有限与无限游戏》的哲学框架:有限游戏以取胜为目的,参与者受规则束缚;而无限游戏以延续游戏为宗旨,规则随游戏进程动态演变。
真正的科研应具备抗脆弱性、开放性、坚持性和教育性四大特征。谢赛宁以自身研究经历为例,其被CVPR拒稿的DiT论文最终成为Sora核心技术,被拒的SiT研究后来被Stable Diffusion 3采用。这些案例印证”科研突破应如野草生长”的核心…
来源: 机器之心
◎ 半导体设备市场:冰火两重天
2025年第一季度全球半导体设备市场表现出显著的区域差异和行业动态。根据SEMI发布的《全球半导体设备市场报告》,全球半导体设备出货金额同比增长21%,达到320.5亿美元,但环比下降了5%。中国大陆作为全球最大的单一市场,尽管营收达到102.6亿美元,但环比和同比分别下降了14%和18%,显示出“双降”趋势。相比之下,韩国和中国台湾市场表现强劲,韩国营收同比增长48%,中国台湾则同比暴增203%,成为全球增速最快的地区。北美和日本市场也呈现同比增长,但环比有所下降,而欧洲市场则同比大幅下滑54%,显示出严重的产业空心化问题。
韩国半导体设备市场的强劲增长主要得益于存储芯片复苏、大厂扩产及…
来源: 半导体行业观察
◎ 李飞飞:AI的下一个大脑是理解3D空间的世界模型
在a16z播客节目中,World Labs联合创始人兼CEO李飞飞与a16z合伙人Martin Casado深入探讨了“世界模型”的概念,即AI系统能够理解并推理物理3D世界,而不仅限于文本。李飞飞被誉为“AI教母”,她强调了空间智能在当前AI系统中的重要性,并指出这是当前AI系统缺失的关键组成部分。她认为,AI的未来不仅依赖于语言模型,还需要能够理解和操作3D物理世界的智能。
Martin Casado分享了他们早在“世界模型”理念流行前就达成共识的故事,并指出这一概念可能定义机器人、创意产业和计算本身的未来。他提到,语言模型虽然取得了巨大进展,但在处理3D空间和物理世界时仍存在局限性。…
来源: 硅星人Pro
◈ 06月14日 星期六 【 10 篇 】
◎ 突破125年世纪难题!北大校友联手科大少年班才子破解希尔伯特第六问题
1900年,数学大师希尔伯特提出了23个数学难题,其中第六个问题——“物理学的公理化”,被称为数学物理的终极挑战。125年后,北大校友邓煜、中科大少年班马骁与陶哲轩高徒扎赫尔・哈尼终于在这一问题上取得重大突破。他们成功从微观粒子模型推导出宏观气体行为,填补了牛顿力学与玻尔兹曼方程之间的逻辑鸿沟,首次严格证明了从牛顿力学到玻尔兹曼方程的完整过渡。
这一突破不仅为统计力学奠定了更坚实的数学基础,还意外地解答了玻尔兹曼时代遗留的“时间箭头之谜”。问题的核心目标是从弹性碰撞的硬球粒子系统出发,严格推导出流体力学的基本偏微分方程,完成希尔伯特第六问题中从原子论到连续介质运动定律的推导程序。解决该问题…
来源: 量子位
◎ “多模态方法无法实现AGI”
生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来,但这些模型并未真正捕捉到人类智能的本质。它们之所以出现,主要是因为它们能够有效地扩展规模,而不是因为它们解决了智能的核心问题。多模态方法通过将多个模块化网络结合在一起,看似实现了通用智能,但这种方法在短期内注定会失败。与其将多个模态拼凑在一起,我们应该追求将具身性和与环境的互动放在第一位的智能方法,并将以模态为中心的处理过程视为涌现现象。
真正的 AGI 必须在所有领域都是通用的,包括解决物理现实中的问题,如修理汽车、解开绳结等。这些问题需要一种基于物理世界模型的智能形式,而不仅仅是符号操作。大型语言模型(LLM)通过预测…
来源: AI前线
◎ 很多AI人还在自嗨,外贸人已经用AI卷翻天了。
在前往机场的路上,作者回顾了深度参与OKKI 2025新品发布会的经历,首次以外贸行业ToB产品发布会顾问兼主持人的身份,对外贸与AI融合的实践有了全新认知。两个月前还停留在”义乌小商品”刻板印象中的作者,因专访AI设计拖鞋创业者刘世奇而接触外贸领域,进而与小满科技合作筹备AI新品发布会。通过实地调研,发现外贸从业者已将AI应用于谈单、客户筛选、背调、跟单等全流程,远超基础文案生成等简单功能。
发布会揭示的8条核心启示形成了完整行业观察框架。首先,AI角色从工具升级为队友,OKKI的营销智能体AiReach能24小时自主完成客户开发到商机转化的全链路,实现从”帮我干”到”帮我拿到”的质变。…
来源: 数字生命卡兹克
◎ 多智能体在「燃烧」Token!Anthropic公开发现的一切
多智能体系统在处理开放式研究任务中展现出显著优势,尤其是在需要并行探索和复杂工具交互的场景中。Anthropic 的研究表明,多智能体架构通过将任务分配给多个并行运行的子智能体,能够显著提升研究效率和结果质量。这种架构特别适合处理那些信息量超出单一上下文窗口或需要大量并行处理的任务。例如,在「广度优先」的查询任务中,多智能体系统的表现比单一智能体高出 90.2%。多智能体系统的核心优势在于能够通过充分的 token 消耗来解决问题,token 消耗量、工具调用次数和模型选择构成是影响性能的关键因素。
多智能体系统采用「协调者 – 执行者」模式,主导智能体负责整体协调,而子智能体则并行探索问…
来源: 机器之心
◎ 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
Meta以143亿美元天价投资Scale AI并招揽其创始人Alexandr Wang,引发AI行业格局剧变。这位28岁的华裔亿万富翁将带领团队加入Meta的超级智能项目,同时Meta获得Scale AI 49%股权,使后者估值飙升至290亿美元。此次交易被视为扎克伯格重塑Meta AI竞争力的关键举措,其本质是通过控制核心数据资源来获取对竞争对手的洞察优势——Scale AI作为主要AI实验室的数据标注服务商,掌握着OpenAI、谷歌等机构的模型训练动向。
交易背后是Meta在AI领域的多重困境。Llama系列模型表现未达预期,年初更被DeepSeek等开源模型超越;内部团队饱受目标涣散…
来源: 新智元
◎ 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
2025年的AI科技圈正经历一场围绕浏览器形态的“AI文艺复兴”,新兴的Agentic Browser(智能体浏览器)成为行业焦点。传统操作系统和浏览器利用其生态霸权,限制了通用AI智能体的能力与发展,而Agentic Browser则被视为打破这一局面的关键。它的核心在于“代替用户行动”,而不仅仅是“辅助用户浏览”,标志着从传统浏览器到AI操作系统的范式转移。
Agentic Browser的崛起并非偶然,而是由浏览器独特的属性和其在数字生态中的关键角色决定的。浏览器具备内容通用性、用户习惯的继承性以及平台能力的进化性,使其成为通用Agent的天然载体。它不仅能够获取用户全维度的数据,还…
来源: Founder Park
◎ 数据总结2024全球半导体产业园
半导体产业作为现代科技与工业的基石,对经济、科技和政治领域具有深远影响。半导体技术的进步直接定义了人类文明的边界,其重要性不仅体现在信息产业的核心地位,还体现在与全球GDP增长的强相关性。每1美元的半导体产值可撬动下游超过10倍的经济收益,带动上下游产业发展,创造大量就业岗位。科技层面,半导体是信息技术革命的核心驱动力,推动计算机、智能手机、通信设备等关键组件的性能提升,并在工业自动化、能源、汽车等领域发挥重要作用,提升各行业的生产效率与智能化水平。
在政治领域,半导体已成为地缘政治博弈的重要工具。美国通过《芯片与科学法案》、出口管制措施以及组建Chip 4联盟等方式,试图巩固其在全球半导…
来源: 半导体行业观察
◎ OpenAI CPO:目前看,提示词仍然重要。
OpenAI 的首席产品官 Kevin Weil 在采访中详细探讨了 AI 产品的未来方向、用户行为变化以及 OpenAI 的技术发展策略。他首先介绍了 OpenAI 最新发布的一系列功能,特别是连接器,这些工具可以将 ChatGPT 与 Google Docs、Gmail、日历等日常服务打通,使模型能够获取更多上下文信息,从而提升其实用性。未来,ChatGPT 将不仅限于读取信息,还将具备执行任务的能力,如撰写文档、创建演示文稿等,最终像一名员工一样为用户工作。这种能力的扩展将深刻改变人们的工作方式。
关于 AI 如何重塑日常生活,Weil 指出,新技术往往最初被用于优化现有流程,但真正…
来源: AI产品阿颖
◎ 员工每天花1000美元也要用ClaudeCode!创始人:太贵了,大公司专属,但它比 Cursor 猛!
Claude Code 是 Anthropic 推出的一款编程助手,尽管价格较高,但其在处理大型代码库和复杂任务时表现出色,被认为比其他工具如 Cursor、Windsurf 和 Augment 更具优势。用户反馈表明,Claude Code 的能力远超其他工具,但其高昂的价格成为阻碍其广泛使用的主要因素。一些开发者表示,尽管 Claude Code 更强大,但由于成本问题,他们仍然选择使用 Cursor。
Claude Code 的使用体验独特,它通过终端直接集成到开发者的工作流中,无需更换 IDE 或学习新工具。它能够自动处理代码库中的复杂任务,甚至无需手动选择上下文,只需通过对话即可…
来源: AI前线
◎ CVPR现场直击|华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们
2025年CVPR会议在美国田纳西州纳什维尔举办,参会人数继续保持高位,会议性质从纯学术交流转向工业界与学术界互动、AI公司抢夺注意力和人才的行业大聚会。今年会议的重要亮点包括最佳论文奖授予VGGT技术,该技术能够从二维图像中提取3D属性,实现端到端的3D重建,速度比传统方法快10多倍,被认为是一项对工业界极具价值的节点性研究。VGGT的第一作者王建元是华人研究员,延续了去年华人研究员获得最佳论文的趋势。
会议数据显示,今年投稿论文数量再破纪录,达到13008份,接收率约为22.1%。3D相关研究的接收率最高,成为今年最热门的方向之一。此外,“世界模型”概念在论文、海报展示和研讨会中频繁出…
来源: 硅星人Pro
◈ 06月12日 星期四 【 10 篇 】
◎ 灵初智能陈源培:一个 00 后的机器人之梦
陈源培,灵初智能的联合创始人,作为00后技术创业者,凭借在具身智能领域的突出贡献,入选了福布斯“30 Under 30 – Asia – AI (2025)”榜单。尽管本科专业是土木工程,但他在大二时通过参加RoboMaster机器人比赛,对机器人产生了浓厚兴趣,并决定自学机器人技术。为了追踪前沿领域,他先后在北大和斯坦福进行访学,研究灵巧手和强化学习技术。陈源培的核心问题是:机器人如何才能真正服务人类?他认为,实验室环境无法模拟真实场景,因此需要一个团队来将经验和算法落地。
在杨耀东教授的推荐下,陈源培结识了灵初智能的创始人王启斌,并作为联创加入公司,负责技术研发。灵初智能在2024年1…
来源: AI科技评论
◎ 年入6亿、日本细分赛道第一,国产AI 硬件如何拿下日本智能家居市场?
SwitchBot,一家来自中国深圳的智能家居公司,通过其主打产品智能开关在日本市场取得了显著成功。这款单价仅为19美元的产品在Kickstarter上众筹成功,验证了其产品市场契合度(PMF)。SwitchBot的独特之处在于其“非入侵式后装”理念,即通过小型设备在不破坏原有结构的情况下实现智能化操作。这种设计不仅降低了用户的决策成本,还极大提高了产品的灵活性。
SwitchBot在日本市场的成功得益于其精准的市场定位和产品设计。日本用户对高科技产品持谨慎态度,且本土品牌忠诚度高,但SwitchBot通过低成本、高灵活性的产品迅速占领市场。其智能开关通过模拟人手按压动作,实现了对传统开关…
来源: Founder Park
◎ 不是,高考刚结束,高考报志愿的Agent也来了?
夸克近日发布了其最新的高考志愿大模型,这一产品被认为是目前AI领域中最具实际应用价值和社会意义的产品之一。高考志愿填报对学生的未来影响深远,然而,这一过程充满了复杂性和信息不对称。夸克的高考志愿大模型旨在通过AI技术解决这一问题,为考生提供个性化的志愿填报建议。该产品不仅免费,还结合了夸克多年积累的高考数据和行业经验,覆盖了2900多所学校和1600多个本科专业,提供了深度搜索和个性化报告生成功能。
高考志愿填报是决定一个人未来十年甚至一生轨迹的关键时刻。然而,由于信息差的存在,许多考生和家长在填报志愿时面临巨大挑战。夸克的高考志愿大模型通过AI技术,帮助考生精准定位适合的学校和专业,降低…
来源: 数字生命卡兹克
◎ AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题
豆包大模型1.6作为国内首款多模态SOTA模型,在火山引擎原动力大会上正式亮相。该模型支持256k上下文长度,具备深度思考能力,并首次实现GUI操作功能,形成”视觉理解-逻辑推理-行动执行”的闭环能力。技术评测显示,其理科706分、文科712分的海淀模拟高考成绩已逼近清北录取线,较前代600分水平实现显著突破。
在高考真题实测环节,模型展现出强大的多模态推理能力。物理压轴题解答过程包含完整的思路分析、关键步骤及公式渲染,数学压轴题更构建出长达505秒的连续思维链。虽然存在图像识别不稳定的情况,但通过AUTO模式智能切换思考强度,有效平衡了准确率与token消耗。化学试题处理中,模型能解析复…
来源: 新智元
◎ 拆解火山引擎后,我看到了字节跳动的「变奏」
字节跳动旗下的火山引擎已从五年前云计算领域的边缘参与者,成长为AI时代的重要基础设施构建者。最新数据显示,其在中国公有云大模型服务调用量市场份额达46.4%,全球Top10手机厂商中9家选择与其深度合作。这种跨越式发展的核心在于火山引擎提出的「AI云原生」理念——不同于传统云服务商「云原生+AI」的叠加模式,其技术架构、服务模式和商业逻辑均围绕AI重构,形成了「模型+工具+实践」的生态闭环。
在模型层,火山引擎通过豆包大模型1.6等产品实现性能与成本的双重突破。该模型首创按输入长度区间定价,综合成本仅为行业同类产品的三分之一,视频生成模型Seedance 1.0 pro的定价更是达到行业最…
来源: 极客公园
◎ 被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
Meta 近日推出了其最新的“世界模型”V-JEPA 2,旨在提升 AI 在物理世界中的视觉理解与预测能力,从而增强 AI 主体的物理推理能力。这一模型被认为是实现高级机器智能(AMI)的关键步骤,尤其是在机器人技术和自主系统领域。V-JEPA 2 被描述为“现实的抽象数字孪生”,能够帮助 AI 预测其行为的后果并规划行动方案,从而完成给定任务。Meta 强调,V-JEPA 2 可以在不需要标记视频片段的情况下执行此类推理,这使其与现有的生成式 AI 系统(如 ChatGPT 或 Gemini)区别开来。
V-JEPA 2 的核心功能包括理解、预测与规划,旨在通过构建现实的内部模拟,帮助机…
来源: AI前线
◎ 火山引擎究竟想要什么?
火山引擎作为字节跳动旗下的技术服务平台,从诞生之初就展现出与传统云计算厂商的差异化定位。2020年底正式对外提供服务时,其名称刻意避开了“云”字,反映出字节跳动对云计算市场的独特思考。在内部决策过程中,核心团队不仅关注短期市场竞争,更聚焦两个关键问题:未来20年云计算的发展方向,以及这一平台对字节跳动自身转型的意义。最终结论是,火山引擎将承载字节跳动向真正科技公司蜕变的野心,通过市场化验证其底层技术能力。
这一战略定位在AI时代获得了验证。2025年6月的数据显示,豆包大模型日均tokens使用量达16.4万亿,较发布初期增长137倍。IDC报告称其在中国公有云大模型市场份额占比达46.4…
来源: 硅星人Pro
◎ 台积电,颠覆封装?
近年来,人工智能的快速发展推动了GPU市场的繁荣,而台积电的CoWoS封装技术在这一过程中扮演了关键角色。作为英伟达的重要合作伙伴,台积电在AI领域的合作进一步深化,尤其是在CoWoS封装技术方面。英伟达首席执行官黄仁勋明确表示,台积电的CoWoS技术是目前唯一的选择,尤其是在Blackwell系列产品中,CoWoS-L封装将成为主流。这一技术不仅为台积电带来了丰厚的收入,还使其超越日月光,成为全球最大的封测厂商。
CoWoS技术的演进面临多重挑战。随着芯片尺寸的不断增大,例如AI芯片尺寸可能达到80×84毫米,一块12英寸晶圆只能容纳四个这样的芯片。超大尺寸的CoWoS封装在基板尺寸和散…
来源: 半导体行业观察
◎ 一座老工厂“换装”背后,苏北小城在拼多多撑起主题服原创制造野心
张宇的创业历程展现了传统制造业在电商时代的转型路径。作为软件工程硕士,他放弃互联网工作回到家乡接手濒临倒闭的羽绒服代工厂,通过切入主题服饰细分市场实现逆袭。六年间,工厂年销售额突破2000万元,月均出货10万件,远超传统代工模式下的经营纪录。这一转型过程涉及从B端到C端的商业模式跨越、从标准化生产到个性化定制的生产组织方式变革,以及原创设计与品牌塑造的全新挑战。
主题服饰行业的特性决定了其独特的运营逻辑。2019-2020年市场爆发期,张宇敏锐捕捉到年轻消费群体的需求,将工厂设备从梭织机更换为针织设备,并投入大量精力学习压褶工艺等新技术。在拼多多平台上,他通过精准定位价格敏感型年轻用户,快…
来源: 硅星人Pro
◎ 谷歌流量急坠归0?核心员工被「自愿离职」,30年搜索帝国崩塌
谷歌搜索业务正面临前所未有的挑战,核心团队员工被提议自愿离职以支持AI领域的巨额投入。这一举措凸显了传统搜索业务与新兴AI技术之间的资源争夺,标志着信息获取方式正在发生根本性转变。市场营销、研究、知识与信息等部门的员工成为买断计划的主要对象,而DeepMind、谷歌云等AI相关业务部门则未受影响,反映出公司战略重心已明确转向人工智能领域。
搜索引擎产业链在AI冲击下显现出结构性危机。谷歌推出的AI Overviews和AI Mode功能直接提供整合答案,大幅减少了用户点击外部链接的需求,导致内容发布商的流量急剧下降。Similarweb数据显示,Business Insider三年内自然搜…
来源: 新智元
这个主题很棒,赞
收藏啦收藏啦
有啥改进意见,欢迎提出
精选内容有重复的😅
精选内容很好,方便查看