标签:多模态

Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上

DeepSeek团队最新发布的DeepSeek-OCR模型在OCR领域实现了多项技术突破。该6.6GB大小的专用模型首次量化了'视觉-文本token压缩比',验证了10倍近无损压缩和20...

DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?

DeepSeek近期发布的《DeepSeek-OCR》技术方案突破了传统OCR工具的局限,其核心价值在于通过视觉压缩解决大模型长上下文处理的瓶颈问题。当前主流大模型受限于...

百度0.9B参数模型登顶全球第一,聊聊PaddleOCR-VL背后的技术细节

百度推出的PaddleOCR-VL模型在文档解析领域取得了突破性进展。这个仅0.9B参数的模型在权威评测OmniDocBench V1.5上以92.6分的综合成绩位列全球第一,同时在文...

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

百度最新发布的自研多模态文档解析模型PaddleOCR-VL以0.9B轻量级参数量,在OmniDocBench V1.5榜单上以92.6分斩获全球综合性能第一。该模型在文本识别、公式识...

打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型

LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...

新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!

火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...

当我们谈论「AI 搜索」,我们在谈些什么?

AI搜索正经历从传统信息检索向任务解决和创意生产平台的转型,交付能力成为行业竞争的核心分水岭。百度近期全面升级文心助手的AIGC创作能力,支持8种模态内容...

Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明

视觉语言模型(VLM)面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计,导致多模态标注成本高昂,且模型能力...

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LL...

可能是目前效果最好的开源生图模型,混元生图3.0来了

腾讯混元最新发布并开源了原生多模态生图模型HunyuanImage 3.0,其参数规模高达80B,是目前参数量最大的开源生图模型。该模型将理解与生成一体化融合,成为首...
1 2 3 4 38