免费 AI “神器”系列第四弹：字节跳动发布视频界“神笔马良”，谷歌Gemini竞争对手爆火｜钛媒体AGI

AI-Agent2年前 (2024)发布 TMTPOSTAGI

2,603 0 0

作者信息

【原文作者】 钛媒体AGI
【作者简介】 钛媒体集团旗下产品。专注AI新浪潮，第一时间带来AI新模式、新产品、新趋势。让我们汇聚最前沿的AI创新与思考，从这里开启AGI新世界！
【微信号】 TMTPOSTAGI

文章摘要

1. 视频界“神笔马良”——字节Boximator模型

字节跳动开发的Boximator模型，通过文本描述精准控制视频中人物或物体的动作。用户输入动作描述，Boximator生成对应视频片段。该模型引入“硬盒”和“软盒”约束方法，实现对对象运动的精确控制。尽管技术尚未成熟，但字节跳动的AI创新业务部门Flow已推出多款AI对话产品。

2. 大模型直接操控电脑——ScreenAgent

吉林大学人工智能学院开发的ScreenAgent，利用视觉语言大模型驱动，实现大模型直接操控电脑。用户可通过文本描述控制电脑鼠标和键盘，执行视频播放、办公软件操作等任务。

3. 文本转声音神器——ElevenLabs人工智能音效模型

ElevenLabs即将推出的人工智能音效模型，通过文本生成音效，为AI视频生成提供背景音效。该模型已在预告视频中展示了为视频添加不同音效的能力，但具体细节尚未公开。

4. 阅读能力超强的Agent模型——Readagent

Google开发的Readagent模型模仿人类阅读方式，提高处理长文本的效率。它将文本主要信息转化为“要点记忆”，快速定位回答细节问题，并帮助用户在复杂网站中找到所需信息。

5. 谷歌Gemini 1.5最强竞对——LargeWorldModel

UC伯克利大学开发的LargeWorldModel（LWM）是一种大型多模态自回归模型，支持语言、图像和视频的理解和生成。LWM能在长视频和长文本数据集上进行训练，执行复杂的长格式任务，被视为谷歌Gemini 1.5的强有力竞争者。

原文信息

【原文链接】 阅读原文
【原文字数】 1575
【阅读时长】 6分钟

# AI-Agent # AIGC动态 # 图像生成 # 大模型 # 视频生成 # 创意应用 # 文本转声音 # 生成式AI # 视频生成 # 阅读代理

文章版权归作者所有，未经允许请勿转载。

英伟达首次透露：上季度 180 亿美元数据中心收入，AI 推理已高达四成

极客公园

2,365

商汤发布“日日新SenseNova 5.0”大模型，性能对标GPT-4 Turbo

AIGC开放社区

2,586

商汤2023年营收34亿元，生成式AI业务同比增长200%

admin

1,818

AIGC-AI视频生成系列-12】DreamVideo: 自由定制生成视频主体+运动的生成模型，同样开源

admin

1,019

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

量子位

2,043

a16z全球AI产品Top100：中国14款产品上榜，DeepSeek第2，Monica第41

Founder Park

1,478

暂无评论

暂无评论...

免费 AI “神器”系列第四弹：字节跳动发布视频界“神笔马良”，谷歌Gemini竞争对手爆火｜钛媒体AGI

作者信息

文章摘要

原文信息

未来5年投资3亿港元，上海 AI 公司西井科技在香港设立国际总部｜钛媒体AGI

钛媒体独家｜人民网打造Sora场景的全球最大中文语料库？内部人士回应：这是新业务方向

相关文章

暂无评论

热门网址

热门文章

免费 AI “神器”系列第四弹：字节跳动发布视频界“神笔马良”，谷歌Gemini竞争对手爆火｜钛媒体AGI

作者信息

文章摘要

原文信息

未来5年投资3亿港元，上海 AI 公司西井科技在香港设立国际总部｜钛媒体AGI

钛媒体独家｜人民网打造Sora场景的全球最大中文语料库？内部人士回应：这是新业务方向

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章