图像生成

图像,绘画

CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解

在计算机图形和视觉领域,渲染与逆渲染是两个核心任务,分别涉及从3D模型生成2D图像和从2D图像解析3D属性。传统方法通常需要独立建模渲染器和逆渲染器,导致...

逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

扩散模型在生成图像和视频方面取得了显著进展,并在处理离散数据(如文本或生物序列)方面展现出潜力。与自回归模型相比,扩散模型具有加速生成和提高输出可...

出海应用也能享受高速稳定的DeepSeek-R1?亚马逊云科技出手了

DeepSeek-R1 作为生成式 AI 技术的核心,推动了新一轮 AI 技术的爆发,其强大的自然语言处理与推理能力为开发者提供了高性能、低成本的解决方案。然而,由于...

Gemini 2.0 文生图能力爆火,自然语言就能直接改图

Google 最近发布了其文生图 AI 工具 Gemini,这一工具在设计和创意领域引发了广泛关注。Gemini 的核心功能在于其能够通过自然语言指令进行连续对话,并根据用...

20万美元商业级视频生成大模型Open-Sora 2.0来了,权重、推理代码及训练流程全开源!

潞晨科技推出的 Open-Sora 2.0 是一款开源的 SOTA 视频生成模型,标志着视频生成领域的开源革命。该模型仅用 20 万美元(224 张 GPU)成功训练出商业级 11B ...

谷歌开源Gemma-3:媲美DeepSeek,算力暴降10倍

谷歌CEO Sundar Pichai宣布开源最新多模态大模型Gemma-3,该模型主打低成本高性能,共有10亿、40亿、120亿和270亿四种参数版本。即便最大的270亿参数版本,仅...

刚刚,谷歌用更少参数打败 Qwen 2.5-32B!新模型 Gemma 3 号称“单 GPU 模型王”,团队紧急招兵买马!

谷歌近日发布了Gemma 3,这是一组轻量级的开源AI模型,旨在减少能源消耗和成本,同时提供高性能的推理能力。Gemma 3基于与Gemini 2.0相同的研究和技术构建,...

字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告,详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...

不做“传统机器人公司”的智元发了个大模型,要让机器人看视频就能进化

智元机器人发布了通用具身基座大模型——智元启元大模型(GO-1),展示了其通过模仿人类操作完成家务任务的能力,如倒水和制作吐司早餐。GO-1的核心功能依赖于V...

Mistral AI 发布号称最强 OCR API:能解锁 90% 非结构化数据,1 美元搞定 2000 页文档

法国 AI 明星创企 Mistral AI 发布了一款名为 Mistral OCR 的光学字符识别(OCR)API,旨在帮助企业更高效地处理和理解各种文档。该 API 能够从非结构化的 PD...
1 18 19 20 21 22 130