多模态 | 第 11 页

百度周末发布文心4.5和推理模型X1，已经两周年了啊。

百度最新发布的文心4.5和推理模型X1引起了广泛关注。文心4.5是一个原生多模态模型，能够理解音频、视频和图片，但不具备输出能力。相比之下，X1是一个推理模...

AIGC动态

6个月前

提前免费！百度连发两款模型，我们实测：能听歌看电影，还会蛐蛐人

百度近日发布了两款全新的大模型——文心大模型 X1 和文心大模型 4.5，标志着其在 AI 领域的进一步突破。这两款模型不仅在功能上各有侧重，还通过技术创新和优...

AIGC动态

6个月前

CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

CVPR 2023年共收到13008份有效投稿，最终录用2878篇，录用率为22.1%。多模态相关内容仍然是今年研究的重点。上海交通大学-美团计算与智能联合实验室的论文被...

AIGC动态

6个月前

谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

谷歌CEO Sundar Pichai宣布开源最新多模态大模型Gemma-3，该模型主打低成本高性能，共有10亿、40亿、120亿和270亿四种参数版本。即便最大的270亿参数版本，仅...

AIGC动态

6个月前

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

随着大模型技术从技术变革转向产业变革，传统基础设施技术已无法满足大模型应用的快速发展需求，整个基础设施技术和产业链正在向大模型基础设施技术转型。多...

AIGC动态

6个月前

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练作为一种基于PPO算法的改进方法，近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式，简化了训练过程，提升了稳定性和可维护...

AIGC动态

6个月前

2行代码与DeepSeek语音对话，1分钟不到一毛钱，所有大模型都能开口说话

DeepSeek开口说话了，并且实现了超低延迟实时秒回，用户可以随时打断对话。这一突破性进展得益于声网推出的对话式AI引擎，该引擎不仅价格低廉，每分钟仅需0.0...

AI-Agent

6个月前

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

智源研究院联合多所高校开发了多模态向量模型BGE-VL，进一步扩充了BGE系列模型的生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最...

AIGC动态

6个月前

智源BGE-VL拍照提问即可精准搜，1/70数据击穿多模态检索天花板！

智源研究院联合多所高校发布了多模态向量模型BGE-VL，该模型通过独创的MegaPairs合成数据技术，在图文检索、组合图像检索等任务中取得了显著成果。BGE-VL的发...

AIGC动态

6个月前

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构组成的研究团队在全球首次实现了在20亿参数的非监督微调模型上进行多模态推理的突破，这一成果被称为DeepSeek-R1的「啊哈时刻」。研究团队在未经...

AIGC动态

6个月前

标签：多模态

百度周末发布文心4.5和推理模型X1，已经两周年了啊。

提前免费！百度连发两款模型，我们实测：能听歌看电影，还会蛐蛐人

CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

2行代码与DeepSeek语音对话，1分钟不到一毛钱，所有大模型都能开口说话

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

智源BGE-VL拍照提问即可精准搜，1/70数据击穿多模态检索天花板！

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

热门网址

标签：多模态

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址