图像生成
图像,绘画
原作者带队,LSTM卷土重来之Vision-LSTM出世
近期,由 LSTM之父Sepp Hochreiter领衔的研究团队推出了一种新的计算机视觉骨干网络——Vision-LSTM(ViL)。该网络基于扩展长短期记忆(xLSTM)模型,实现了在...
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
本文介绍了一款名为可灵的全新国产视频生成大模型,它是快手公司推出的产品级应用。可灵采用了类似Sora的技术路线,融合了多项自研技术创新,生成的视频不仅...
AI 创业者,需要怎样的 AI 算力?
在人工智能技术飞速发展的今天,大模型技术的突破为智能创作带来无限可能。潞晨科技以其自研的Colossal-AI技术,引领了一场降低成本、提高效率的深刻变革。该...
官宣接受「成人内容」,能拯救马斯克的 X 吗?
在互联网发展的历程中,成人内容一直是一个敏感而普遍存在的议题。X平台,这个曾经的推特,也面临着同样的挑战。新政策宣布,用户可以分享自愿制作和分发的成...
Adobe推出超分辨率,细节丰富视频模型VideoGigaGAN
视频超分辨率技术致力于将低分辨率视频转化为高分辨率,面临两大挑战:一是保持视频帧的时间连贯性,避免闪烁或抖动;二是放大视频帧时重建高频细节,以呈现...
字节 AI 产品全体验:11 款产品覆盖全赛道,但离 killer app 还有很远
根据文章内容,以下是详细的摘要总结:1. 字节跳动的AI产品豆包在推出后迅速积累了大量用户,其月活跃用户达到2600万,下载量超过1亿,表明豆包已超过竞品Kim...
体验完字节所有的 AI 产品,杀手级 AI 应用可能比想象中更远
字节跳动在AI领域展现了其坚定的行动力,并通过全面布局寻找下一个杀手级应用。具体而言,字节跳动的AI产品线涵盖了多个领域,包括聊天、社交、图像视频、教...
谷歌创新框架:从非结构化数据,实现多模态学习
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇扩展方法实现多模态表...
ControlNet作者搞起大模型:让天下没有难写的生图提示词,一句话变构图小作文
量子位报道,ControlNet作者Lvmin Zhang推出了新项目Omost,旨在通过人工智能技术解决AI绘画中的提示词写作难题。用户只需提供一句简单的提示词,Omost即可自...