标签:多模态
拒绝蒸馏!微软发布自研MAI-Thinking-1追平Claude Opus 4.6:完全从零训练,不沾任何第三方模型输出
微软在Build大会上发布了一系列自研AI模型,标志着其从AI应用整合者向全栈AI基础设施与模型提供者的战略转型。公司高管强调致力于打造支持人类的“人本主义超...
MiniMax M3来了:编程超 GPT-5.5,即将开源
MiniMax近期发布了M3大语言模型,该模型在编程、百万上下文和原生多模态三个核心方向上均达到了国际前沿水平,并且即将开源。作为国内首个齐备图片与视频输入...
400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头
阶跃星辰正式发布了Step 3.7 Flash多模态大模型,旨在解决人工智能代理在规模化应用中面临的高成本与高延迟问题。该模型以极高的生成速度和仅需竞品九分之一...
I/O大会开完,谷歌连搜索框都变智能体了
谷歌I/O大会正式确立了向全天候智能体时代转型的核心战略,大模型行业竞争焦点已从基准测试榜单全面转向工程落地与规模化应用。当前全球用户通过谷歌渠道每月...
Coding Plan 只是过渡。
针对早期模型调用成本难以预估的行业痛点,市场曾广泛采用按梯度划分调用额度的编程类算力订阅模式。随着生成式人工智能向复杂任务场景延伸,服务形态迅速从...
Hassabis狂赞!谷歌爆改50年鼠标,指哪AI打哪,连提示词都省了
谷歌DeepMind近期发布基于多模态大模型驱动的实验性交互原型「AI-enabled pointer」,旨在系统性重构传统的人机操作逻辑。该技术方案突破了数十年来指针设备...
手机跑多模态也能快到飞起!面壁MiniCPM-V 4.6开源
大模型技术正加速向移动终端演进,实现复杂图文与视频任务的本地化实时处理。MiniCPM-V 4.6作为一款专为端侧部署深度优化的多模态模型,依托视觉编码器与轻量...
清华系团队出手!一张 4090 即可「爆改」,1.3B小钢炮震撼开源
面壁智能联合清华大学及开源社区正式发布了端侧多模态大模型MiniCPM-V 4.6,该模型仅具备约1.3B参数规模,却在多模态性能与运行效率上实现了对同级别主流模型...
去掉 VAE 之后,商汤用 8B 参数重新定义了开源生图的上限
商汤推出的SenseNova U1系列模型基于自研的NEO-unify架构,彻底摒弃传统视觉编码器与变分自编码器,直接在像素与文本层面实现端到端协同学习。该设计突破了多...
DeepSeek多模态新范式:一张图压缩7056倍,思考能力反超GPT和Claude
技术实现方面,研究基于DeepSeek-V4-Flash紧凑架构,采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...



