日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?

日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?

 

文章摘要


【关 键 词】 AI图像技术进步字节跳动图像生成火山引擎

2024年,AI图像生成技术取得了显著进步,其中Midjourney v6、Stable Diffusion 3和DALL・E 3等国际知名模型备受关注。与此同时,国产AI领域也取得了突破性进展,尤其是字节跳动推出的豆包大模型,凭借其在文生图模型、语音模型等垂直领域的新升级,以及新成员“豆包・图生图模型”的50多项新玩法,成为国内使用量最大、应用场景最丰富的大模型之一。

豆包大模型的技术实力在短时间内经历了多次迭代,在多个公开评测集中表现出众,成为得分最高的国产大模型。在图像生成方面,豆包・文生图模型在图像美感、图文一致性、内容创造和复杂度适应性等方面达到了业界较高水准。例如,在理解多数量主体、主客体关系、人物构造和空间构造等方面表现出色,同时在画面效果美感层面,豆包・文生图模型擅长从光影明暗、氛围色彩和人物美感等方面提升画面质感。

豆包・图生图模型则更注重一致性和相似度两个维度,提供了AI写真、图像风格化、扩图/局部重绘等50余种风格玩法。在AI写真方面,豆包・图生图模型能够高度还原人物特征,精准捕捉轮廓、表情、姿态等多维特征,生成定制化写真。此外,豆包・图生图模型还具备优秀的图片扩展、局部重绘和涂抹能力,在逻辑合理的前提下,充满想象力。

豆包大模型之所以能在图像生成领域跻身上游,与其在技术研发和人才方面的投入密不可分。字节跳动早在豆包大模型诞生前的几年就开始关注图像生成技术,并持续增加研发投入。此外,豆包视觉团队提出了多项创新成果,如Hyper-SD、SDXL-Lightning和UniFL等,从不同维度解决图像生成领域的难题,并将这些成果开放给AI社区。

豆包大模型的图像生成能力已经为字节跳动旗下多个应用提供技术支持,如抖音、剪映、醒图等,为大众生活带来了改变。同时,火山引擎通过提供更丰富的核心插件、更强大的系统性能和更优质的平台体验,推动大模型技术实现更广泛深入的行业落地。目前,豆包大模型家族的成员数量已达到10个,这些针对应用场景细分的模型都将上线火山方舟,开放给企业客户合作共创。

火山引擎凭借充沛的GPU算力资源池,通过潮汐、混部等方式实现资源的高利用率和极致降低成本,即使在大模型价格战激烈的未来,仍具有绝对吸引力。随着AI图像生成技术的持续进步,豆包大模型有望在大模型竞争的下一章中书写更加浓墨重彩的一笔,推动国产大模型走进千行百业,展现充足的后劲。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4056字 | 17分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...