图像生成
图像,绘画
单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香
法国AI创企Mistral AI最近开源了一款名为Mistral Small 3.1的多模态小模型,该模型在多个基准测试中表现优异,超越了Gemma 3和GPT-4o Mini等同类模型。Mistra...
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
昆仑万维近日发布了全球首个开源的多模态推理大模型Skywork R1V(简称R1V),该模型拥有38B参数,性能直逼DeepSeek-R1,并在多项基准测试中取得了领先的成绩...
聊聊Gemini 2.0最近3个超级酷的新功能,Google有点被低估了。
Google近期频繁推出更新,特别是在其Gemini模型上进行了多项重大改进。首先,Gemini 2.0的个性化搜索功能引起了广泛关注。该功能通过分析用户的Google搜索记...
海外热议!百度双模型免费上线,实测可帮没看“3.15”的打工人避雷
百度在3月16日发布了文心大模型X1和文心大模型4.5,标志着其在人工智能领域的进一步突破。文心大模型X1不仅具备深度思考能力,还能自主调用多种工具,展现出...
CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解
在计算机图形和视觉领域,渲染与逆渲染是两个核心任务,分别涉及从3D模型生成2D图像和从2D图像解析3D属性。传统方法通常需要独立建模渲染器和逆渲染器,导致...
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
扩散模型在生成图像和视频方面取得了显著进展,并在处理离散数据(如文本或生物序列)方面展现出潜力。与自回归模型相比,扩散模型具有加速生成和提高输出可...
出海应用也能享受高速稳定的DeepSeek-R1?亚马逊云科技出手了
DeepSeek-R1 作为生成式 AI 技术的核心,推动了新一轮 AI 技术的爆发,其强大的自然语言处理与推理能力为开发者提供了高性能、低成本的解决方案。然而,由于...
Gemini 2.0 文生图能力爆火,自然语言就能直接改图
Google 最近发布了其文生图 AI 工具 Gemini,这一工具在设计和创意领域引发了广泛关注。Gemini 的核心功能在于其能够通过自然语言指令进行连续对话,并根据用...
20万美元商业级视频生成大模型Open-Sora 2.0来了,权重、推理代码及训练流程全开源!
潞晨科技推出的 Open-Sora 2.0 是一款开源的 SOTA 视频生成模型,标志着视频生成领域的开源革命。该模型仅用 20 万美元(224 张 GPU)成功训练出商业级 11B ...
谷歌开源Gemma-3:媲美DeepSeek,算力暴降10倍
谷歌CEO Sundar Pichai宣布开源最新多模态大模型Gemma-3,该模型主打低成本高性能,共有10亿、40亿、120亿和270亿四种参数版本。即便最大的270亿参数版本,仅...