免费 AI “神器”系列第四弹:字节跳动发布视频界“神笔马良”,谷歌Gemini竞争对手爆火|钛媒体AGI

AI-Agent9个月前发布 TMTPOSTAGI
1,170 0 0

作者信息


【原文作者】 钛媒体AGI
【作者简介】 钛媒体集团旗下产品。专注AI新浪潮,第一时间带来AI新模式、新产品、新趋势。 让我们汇聚最前沿的AI创新与思考,从这里开启AGI新世界!
【微 信 号】 TMTPOSTAGI

免费 AI “神器”系列第四弹:字节跳动发布视频界“神笔马良”,谷歌Gemini竞争对手爆火|钛媒体AGI
 

文章摘要


【关 键 词】 生成式AI创意应用视频生成文本转声音阅读代理

1. 视频界“神笔马良”——字节Boximator模型

字节跳动开发的Boximator模型,通过文本描述精准控制视频中人物或物体的动作。用户输入动作描述,Boximator生成对应视频片段。该模型引入“硬盒”和“软盒”约束方法,实现对对象运动的精确控制。尽管技术尚未成熟,但字节跳动的AI创新业务部门Flow已推出多款AI对话产品。

2. 大模型直接操控电脑——ScreenAgent

吉林大学人工智能学院开发的ScreenAgent,利用视觉语言大模型驱动,实现大模型直接操控电脑。用户可通过文本描述控制电脑鼠标和键盘,执行视频播放、办公软件操作等任务。

3. 文本转声音神器——ElevenLabs人工智能音效模型

ElevenLabs即将推出的人工智能音效模型,通过文本生成音效,为AI视频生成提供背景音效。该模型已在预告视频中展示了为视频添加不同音效的能力,但具体细节尚未公开。

4. 阅读能力超强的Agent模型——Readagent

Google开发的Readagent模型模仿人类阅读方式,提高处理长文本的效率。它将文本主要信息转化为“要点记忆”,快速定位回答细节问题,并帮助用户在复杂网站中找到所需信息。

5. 谷歌Gemini 1.5最强竞对——LargeWorldModel

UC伯克利大学开发的LargeWorldModel(LWM)是一种大型多模态自回归模型,支持语言、图像和视频的理解和生成。LWM能在长视频和长文本数据集上进行训练,执行复杂的长格式任务,被视为谷歌Gemini 1.5的强有力竞争者。

原文信息


【原文链接】 阅读原文
【原文字数】 1575
【阅读时长】 6分钟

© 版权声明

相关文章

暂无评论

暂无评论...