免费 AI “神器”系列第四弹:字节跳动发布视频界“神笔马良”,谷歌Gemini竞争对手爆火|钛媒体AGI
作者信息
【原文作者】 钛媒体AGI
【作者简介】 钛媒体集团旗下产品。专注AI新浪潮,第一时间带来AI新模式、新产品、新趋势。 让我们汇聚最前沿的AI创新与思考,从这里开启AGI新世界!
【微 信 号】 TMTPOSTAGI
文章摘要
【关 键 词】 生成式AI、创意应用、视频生成、文本转声音、阅读代理
1. 视频界“神笔马良”——字节Boximator模型
字节跳动开发的Boximator模型,通过文本描述精准控制视频中人物或物体的动作。用户输入动作描述,Boximator生成对应视频片段。该模型引入“硬盒”和“软盒”约束方法,实现对对象运动的精确控制。尽管技术尚未成熟,但字节跳动的AI创新业务部门Flow已推出多款AI对话产品。
2. 大模型直接操控电脑——ScreenAgent
吉林大学人工智能学院开发的ScreenAgent,利用视觉语言大模型驱动,实现大模型直接操控电脑。用户可通过文本描述控制电脑鼠标和键盘,执行视频播放、办公软件操作等任务。
3. 文本转声音神器——ElevenLabs人工智能音效模型
ElevenLabs即将推出的人工智能音效模型,通过文本生成音效,为AI视频生成提供背景音效。该模型已在预告视频中展示了为视频添加不同音效的能力,但具体细节尚未公开。
4. 阅读能力超强的Agent模型——Readagent
Google开发的Readagent模型模仿人类阅读方式,提高处理长文本的效率。它将文本主要信息转化为“要点记忆”,快速定位回答细节问题,并帮助用户在复杂网站中找到所需信息。
5. 谷歌Gemini 1.5最强竞对——LargeWorldModel
UC伯克利大学开发的LargeWorldModel(LWM)是一种大型多模态自回归模型,支持语言、图像和视频的理解和生成。LWM能在长视频和长文本数据集上进行训练,执行复杂的长格式任务,被视为谷歌Gemini 1.5的强有力竞争者。
原文信息
【原文链接】 阅读原文
【原文字数】 1575
【阅读时长】 6分钟