图像生成
图像,绘画
速来!潞晨Open-Sora羊毛可薅,10元轻松上手视频生成
潞晨科技的Open-Sora模型作为全球首个开源类Sora模型,以其在多种视频类型上的优异表现和低成本易用性受到关注。最新开源的1.2版本能够生成最长16秒的720p高...
从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定
文本生成视频模型是2024年AI领域的热门趋势之一,继大语言模型之后备受关注。本文作者Fareed Khan介绍了如何构建一个小型的文本生成视频模型,从理解理论概念...
英伟达布局AI视频,Sora风头快被抢完了
Luma AI推出了名为Dream Machine的最新文生视频模型,吸引了大量用户的关注和使用。该模型的最新功能“关键帧控制”允许用户上传首尾两张图像,并通过简单的文...
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Models, VLM)的推理能...
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
旷视科技近期推出了一款名为MegActor的开源AI人像视频生成框架,该框架允许用户通过输入一张静态肖像图片和一段视频,生成表情丰富、动作一致的AI人像视频。M...
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
字节跳动豆包大模型团队近期发布了名为Seed-TTS的语音生成大模型,该模型在生成与真人相似度极高的语音方面取得了显著成果。Seed-TTS能够根据文本生成具有原...
快手「可灵」再进化!视频续写可达3分钟让全球网友炸锅
可灵AI的图生视频和视频续写功能在全球范围内引发了视频创作的热潮。一位网友使用该技术将爷爷的两张老照片还原成视频,不仅为即将接受手术的父亲加油鼓劲,...
快手开源 I2V-Adapter,即插即用、轻量级模块让静态图像秒变动态视频
快手大模型团队开发了一种名为I2V-Adapter的新技术,该技术是一种轻量级适配模块,基于Stable Diffusion的文生视频扩散模型。I2V-Adapter能够在不改变现有文...
视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击
视觉Foundation Model成为会议的核心主题之一。两篇最佳论文均颁给了AIGC,图像和视频合成与生成领域的论文数量达到329篇,位居榜首。上海人工智能实验室的Op...
姚班天才组队开发《完蛋!我被大模型包围了》续作!专为工作日摸鱼爱好者打造
由姚班天才团队开发的大模型原生应用《我把大模型玩坏了》(下文简称《玩坏了》)在微信小程序上线,提供了一种新颖的互动体验。这款游戏的前身是《完蛋!我...