标签:多模态
CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA
CVPR 2023年共收到13008份有效投稿,最终录用2878篇,录用率为22.1%。多模态相关内容仍然是今年研究的重点。上海交通大学-美团计算与智能联合实验室的论文被...
谷歌开源Gemma-3:媲美DeepSeek,算力暴降10倍
谷歌CEO Sundar Pichai宣布开源最新多模态大模型Gemma-3,该模型主打低成本高性能,共有10亿、40亿、120亿和270亿四种参数版本。即便最大的270亿参数版本,仅...
小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化
随着大模型技术从技术变革转向产业变革,传统基础设施技术已无法满足大模型应用的快速发展需求,整个基础设施技术和产业链正在向大模型基础设施技术转型。多...
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
GRPO训练作为一种基于PPO算法的改进方法,近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式,简化了训练过程,提升了稳定性和可维护...
2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都能开口说话
DeepSeek开口说话了,并且实现了超低延迟实时秒回,用户可以随时打断对话。这一突破性进展得益于声网推出的对话式AI引擎,该引擎不仅价格低廉,每分钟仅需0.0...
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了BGE系列模型的生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最...
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!
智源研究院联合多所高校发布了多模态向量模型BGE-VL,该模型通过独创的MegaPairs合成数据技术,在图文检索、组合图像检索等任务中取得了显著成果。BGE-VL的发...
全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理
由UCLA等机构组成的研究团队在全球首次实现了在20亿参数的非监督微调模型上进行多模态推理的突破,这一成果被称为DeepSeek-R1的「啊哈时刻」。研究团队在未经...
微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队
微软发布Phi-4系列两款新型模型——Phi-4-multimodal和Phi-4-mini,标志着小型语言模型(SLM)领域的重大突破。Phi-4-multimodal作为微软首个多模态模型,集成...
微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B
微软于2024年底推出的Phi-4模型家族新增Phi-4-multimodal和Phi-4-mini两个成员,标志着小型语言模型在性能与效率上的重大突破。140亿参数的Phi-4使用40%合成...