图像生成

图像,绘画

能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

摘要:2023年,多模态大语言模型(MLLM)在文本、代码、图像、视频等领域取得了显著进展。上海人工智能实验室联合多所大学发布了一份详尽的评测报告,对GPT-4...

首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2

SnapChat背后的公司Snap联合特伦托大学等机构发布了一款名为Snap Video的文本生成视频模型。该模型采用了可扩展的时空Transformer架构,旨在提高视频生成的质...

微软37页论文逆向工程Sora,得到了哪些结论?

摘要:本文回顾了Sora视频技术的发展背景、技术细节、应用前景以及局限性。Sora是OpenAI开发的一种能够根据文本指令生成长达一分钟视频的模型,它在视觉质量...

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

LayerDiffusion 是ControlNet作者最新提出的一种方法,它允许大规模预训练的潜在扩散模型(如Stable Diffusion)生成透明图像。这项技术通过在潜在图像上添加...

Sora外部测试翻车了!3个视频都有Bug

Sora,OpenAI的文本转视频模型,最近在油管上引起了一些关注。科技up主分享了他们使用Sora生成的视频,其中包含了一些有趣的bug。例如,一个视频中的3D打印机...

全球AI大事记 · 疯狂二月|钛媒体AGI

2024年2月,全球人工智能(AI)领域迎来了一系列重大进展和新闻。OpenAI、谷歌、微软等科技巨头纷纷发布重要AI消息,包括视频生成模型Sora的推出、AI芯片的自...

阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?

摘要:阿里巴巴集团智能计算研究院推出了一款名为EMO(Emote Portrait Alive)的AI图生视频模型。EMO能够根据用户提供的一张照片和音频文件生成具有丰富面部...

对抗「概念飘逸」难题!谷歌发布全新时间感知框架:图像识别准确率提升15%

新智元报道了Google AI研究人员提出的新方法MUSCATEL(Multi-Scale Temporal Learning),旨在解决机器学习中的长期问题——概念漂移。概念漂移指的是数据分布...

全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3!5亿融资Karpathy都投了

Ideogram是一款新兴的文生图工具,它在文字渲染能力上表现出色,成功获得了8000万美元的融资。这款工具能够根据用户的提示生成带有自然悬浮文字或立体文字的...

讯飞医疗不足三年亏损超4亿 赴港上市被指缓解科大讯飞财务压力

讯飞医疗向港交所提交招股书,计划发行不超过发行后总股本15%的股份,在香港联交所主板上市。讯飞医疗成立于2016年,是科大讯飞拓展智能医疗板块的主体,主要...
1 57 58 59 60 61 74