音频生成
音频,audio
AI的七窍打通了!谷歌发布Gemini Embedding 2原生多模态嵌入模型
谷歌正式发布了名为 Gemini Embedding 2 的新型基础架构,实现了 AI 像人类一样用五种感官同步感知世界。这个系统将文字、图像、视频、音频和文档数据全部整...
谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA
谷歌正式发布了首个原生全模态 Embedding 模型 Gemini Embedding 2,该模型能够将文本、图像、音视频及 PDF 文档无损融合于统一向量空间。这一突破性进展实现...
让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间
谷歌发布了首款原生多模态嵌入模型 Gemini Embedding 2。该模型的核心突破在于将文本、图像、视频、音频及文档等多种数据类型映射至同一个统一的嵌入空间。不...
在字节 Coze 里玩了 OpenClaw 和 Skill 后,我看到了新世界的大门。
开发者耗时两小时,完成了一款AI作文处理应用的开发,该应用可接收孩子作文图片,输出针对性写作反馈,生成作文音频文件,并自动将内容保存到Notion,本次开...
Seedance 2.0之后,又一中国视频模型SkyReels-V4登上全球第二
近期中国AIGC领域大模型表现突出,Seedance 2.0凭借卓越性能跻身全球顶尖视频模型行列,昆仑天工SkyReelsV4同步发布,成为视频生成赛道的核心力量。截至2月25...
Artificial Analysis 榜单第二,SkyReels-V4 宣告 AI 视频进入「全栈统一」阶段
在AI视频赛道权威评测平台Artificial Analysis的最新带音频文生视频榜单上,昆仑天工的SkyReels-V4以1090的ELO评分位列全球第二,仅落后第一名3分,Google Ve...
46.5万次盲测封王!Grok视频模型屠榜Arena,谷歌最强对手来了
xAI旗下Grok图像转视频模型grok-image-video-720p以1404分的ELO评分登顶Image-to-Video Arena排行榜,在46.5万次盲测投票中力压包括谷歌Veo 3.1在内的竞品位...
Game over!视频GPT-4o时刻!字节Seedance 2.0引爆全球
字节跳动推出的多模态AI视频生成模型Seedance 2.0引发全球热议,其突破性技术被认为将彻底改变影视内容生产模式。该模型支持文本、图像、视频和音频四模态输...
Runway完成3.15亿美元E轮融资,估值飙升至53亿美元,推动下一代AI世界模型
Runway作为人工智能视频生成领域的初创企业,近期完成了3.15亿美元的E轮融资,估值达到约53亿美元。此次融资由General Atlantic领投,NVIDIA、Adobe Ventures...
马斯克视频生成模型首次交卷!电影级运镜+音效,免费可玩
Grok Imagine 1.0正式上线,作为xAI推出的最新视频音频生成模型,其能力覆盖文生视频、图生视频,单次生成时长达10秒,分辨率达720P,并显著提升了音频表现。...




