音频生成

音频,audio

Karpathy更新AI科普视频,网友:原本周末打算结个婚,改看视频了

Andrej Karpathy发布了一部时长2小时18分钟的教学视频,系统性地解析大型语言模型(LLM)的实践应用方法。该视频以普通用户为对象,聚焦如何通过LLM提升工作...

微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B

微软于2024年底推出的Phi-4模型家族新增Phi-4-multimodal和Phi-4-mini两个成员,标志着小型语言模型在性能与效率上的重大突破。140亿参数的Phi-4使用40%合成...

AI说书媲美真人!豆包语音大模型升级长上下文理解

豆包语音模型团队通过技术革新实现了AI合成语音在小说演播场景的突破性进展。基于改进的Seed-TTS框架,该系统无需人工标注标签即可端到端生成高自然度语音,...

阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业

阶跃星辰在首届Step UP生态开放日上展示了其在智能终端Agent领域的战略布局与技术突破,重点围绕汽车、手机、IoT和具身智能四大场景展开深度合作与创新。公司...

全网首发|一手内测字节OmniHuman-1,这就是当今最强的AI数字人。

字节跳动推出的OmniHuman-1模型近期开启内测,其通过单张人物图像与音频输入生成动态视频的能力引发广泛关注。该技术不仅实现高精度唇形同步,还突破性地支持...

“大模型六虎”阶跃星辰3月将开源图生视频模型|钛媒体AGI

在首届Step UP生态开放日上,阶跃星辰公布了多项技术进展与战略规划。创始人姜大昕强调,公司正通过多模态与推理能力双轮驱动,推进AGI技术路线。今年3月将开...

突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

Grok-3的开放使用引发科技界广泛关注,其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型,Grok-3免费开放DeepSearch和Think两大模式,但在...

最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

阶跃星辰与吉利汽车集团联合宣布,将Step系列多模态大模型向全球开发者开源。此次开源包含参数量达300亿的Step-Video-T2V视频生成模型,以及产品级开源语音交...

OpenAI CTO的新创业公司,我没理解要干嘛。

Mira Murati与多位OpenAI前高管共同创立的人工智能初创公司Thinking Machines Lab,正致力于开发增强人类与机器协作能力的多模态AI系统。该公司的核心目标是...

全球最大开源视频模型,现在也Created in China了,阶跃出品

阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V和Step-Audio,引发行业关注。Step-Video-T2V是目前全球参数量最大的开源视频生成模型,采...
1 3 4 5 6 7 40