音频生成
音频,audio
价格战、大厂裁员、模型“翻车”……Q2 的AI 圈子可一点都不无聊
2023年第二季度,人工智能领域经历了一系列重要事件和发展,包括新模型的发布、公司裁员、成功上市以及产品争议等。以下是本季度AI领域的主要亮点:1. Meta发...
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
旷视科技近期推出了一款名为MegActor的开源AI人像视频生成框架,该框架允许用户通过输入一张静态肖像图片和一段视频,生成表情丰富、动作一致的AI人像视频。M...
揭秘大模型技术在快手搜索的应用
快手搜索部门技术专家许坤在QCon 2024北京的分享中,深入探讨了大模型技术在快手搜索领域的应用,特别是多模态理解和生成方面的最新科研进展。许坤介绍了快手...
谷歌推出基于Transformer的创新技术——无限注意力
随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...
月之暗面被曝进军美国,产品、人才筹备中!阿里腾讯捧出的30亿美元独角兽终于要出海了
月之暗面正在为进军美国市场做准备,计划通过新一轮融资将估值提升至30亿美元,新的投资者包括腾讯。今年2月,该公司已获得阿里领投的10亿美元融资,当时估值...
谷歌推出V2A,可为视频大模型自动匹配语音
专注于AIGC领域的专业社区,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。谷歌Deepm...
ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据
Epochai发布了一份关于大语言模型(LLM)训练数据消耗的研究报告,指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而,随着像ChatGPT这样的模...
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
谷歌DeepMind最近发布了一项视频生成语音(V2A)技术的进展,该技术可以为视频内容自动生成匹配的音效和配音,结束了AI视频只有画面没有声音的历史。这项技术...
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
Hallo是一种基于分层音频驱动视觉合成模块的开源项目,由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。该项目的主要贡献是提出了一种分...
重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中
在最新的技术合作中,OpenAI与苹果公司携手,将ChatGPT深度集成至苹果产品矩阵中,涵盖iOS、iPadOS和macOS。苹果采用的ChatGPT技术由GPT-4o提供支持,这是Ope...