多模态模型 | 第 3 页

OpenAI员工爆料：已抢先体验GPT-5！7月上线，疑似完全多模态

关于GPT-5的讨论近期在科技界引发广泛关注，多个线索表明OpenAI可能已开始内部测试这一新一代模型。Sam Altman在X平台关注神秘人物Yacine的举动，结合OpenAI...

AIGC动态

6个月前

多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品

智象未来推出的vivago2.0是一款集成了多模态AI能力的全能创作工具，由加拿大工程院院士梅涛领衔的团队开发。该工具整合了文生图、图生视频、AI播客、特效模板...

AI-Agent

6个月前

拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

MiniMax最新发布的Hailuo 02视频生成模型在全球范围内引发关注，其技术表现与成本优势成为核心亮点。该模型在Artificial Analysis评测中超越谷歌Veo 3和快手K...

AIGC动态

6个月前

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

大模型的发展正在遭遇瓶颈，互联网文本数据的消耗导致AI模型性能提升速度明显放缓。相比之下，物理世界中蕴藏着数百倍甚至千倍的多模态数据，这些数据尚未被...

AIGC动态

6个月前

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

在基于物理世界的真实场景中进行视觉问答时，现有的AI模型往往无法识别出参考选项中没有最佳答案的情况。例如，当问题要求预测车辆接下来的行动时，预设选项...

AIGC动态

9个月前

最大参数 300 亿！阶跃星辰与吉利联合开源两款多模态大模型

阶跃星辰与吉利汽车集团联合宣布，将Step系列多模态大模型向全球开发者开源。此次开源包含参数量达300亿的Step-Video-T2V视频生成模型，以及产品级开源语音交...

AIGC动态

10个月前

清华、中南开源3D交互实体AI Agent LEGENT

清华大学与中南大学联合研发的LEGENT模型，通过构建可视化3D交互实体AI代理系统，突破了传统AI Agent无实体交互的局限。该系统由场景、智能体与界面三大核心...

AI-Agent

10个月前

全球最大开源视频模型，现在也Created in China了，阶跃出品

阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V和Step-Audio，引发行业关注。Step-Video-T2V是目前全球参数量最大的开源视频生成模型，采...

AIGC动态

10个月前

CLIP 后门样本检测：揭示网络数据集中的后门风险丨ICLR 2025

多模态模型的安全问题因后门投毒风险引发关注，尤其是CLIP模型在视觉-语言对齐任务中的广泛应用。研究表明，攻击者仅需对0.01%的训练数据投毒即可植入后门，...

AIGC动态

10个月前

推理和RL加速GPT-5.5到来？奥特曼公开GPT-4.5已就绪，年底发布全自主智能体

在东京大学举行的OpenAI高管对话中，Sam Altman与Kevin Weil透露了公司技术路线图的核心进展与未来规划。OpenAI内部已实现GPT-4.5模型，并确认通过推理模型与...

AIGC动态

10个月前

标签：多模态模型

OpenAI员工爆料：已抢先体验GPT-5！7月上线，疑似完全多模态

多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品

拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

最大参数 300 亿！阶跃星辰与吉利联合开源两款多模态大模型

清华、中南开源3D交互实体AI Agent LEGENT

全球最大开源视频模型，现在也Created in China了，阶跃出品

CLIP 后门样本检测：揭示网络数据集中的后门风险丨ICLR 2025

推理和RL加速GPT-5.5到来？奥特曼公开GPT-4.5已就绪，年底发布全自主智能体

热门网址

标签：多模态模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址