标签:多模态
AI深度应用关键元年,快手重塑内容与商业价值
2025年被广泛视为AI深度应用的关键转折点,多模态生成与Agent技术正推动AI向更高效、更贴合用户需求的方向发展。在这一背景下,快手作为以技术驱动的科技公司...
智源悟界 · Emu3.5 重塑世界模型格局:首提多模态 Scaling 范式,AI 理解世界再进化
北京智源人工智能研究院发布了大规模多模态世界模型“悟界·Emu3.5”,该模型在模拟复杂物理世界方面展现出惊人的逼真度,并揭示了“多模态Scaling范式”的存在。...
MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent
MiniMax最新发布的MiniMax M2模型标志着基础模型领域的重要进展。这款专为编程和智能体(agent)优化设计的模型,在保持轻量级和灵敏度的同时,展现出卓越的综...
刷新SOTA高出19.05分!英伟达开源OmniVinci全模态理解模型,只用1/6的数据,实现全方位超越
英伟达研究团队推出的OmniVinci全模态理解大语言模型,通过创新的架构设计和数据策略,仅用六分之一训练数据便在关键基准测试中超越现有顶尖模型19.05分。该...
MiniMax,可能是今年最大的黑马。
MiniMax公司最新发布的M2语言模型在性能与成本效益方面展现出显著优势,引发行业关注。该模型在Artificial Analysis测试榜单中位列全球第五,总分低于GPT-5、...
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
DeepSeek团队最新发布的DeepSeek-OCR模型在OCR领域实现了多项技术突破。该6.6GB大小的专用模型首次量化了'视觉-文本token压缩比',验证了10倍近无损压缩和20...
DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?
DeepSeek近期发布的《DeepSeek-OCR》技术方案突破了传统OCR工具的局限,其核心价值在于通过视觉压缩解决大模型长上下文处理的瓶颈问题。当前主流大模型受限于...
百度0.9B参数模型登顶全球第一,聊聊PaddleOCR-VL背后的技术细节
百度推出的PaddleOCR-VL模型在文档解析领域取得了突破性进展。这个仅0.9B参数的模型在权威评测OmniDocBench V1.5上以92.6分的综合成绩位列全球第一,同时在文...
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
百度最新发布的自研多模态文档解析模型PaddleOCR-VL以0.9B轻量级参数量,在OmniDocBench V1.5榜单上以92.6分斩获全球综合性能第一。该模型在文本识别、公式识...
打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型
LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...





