最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

AIGC动态3个月前发布 QbitAI
443 0 0
最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

 

文章摘要


【关 键 词】 AI优化内存高效Attention缓存量化训练KV共享

Character.ai,一家由Transformer模型的作者Noam Shazeer创建的公司,已经实现了显著的技术优化,以应对大规模AI推理请求的挑战。该公司通过一系列创新技术,包括内存高效架构设计、Attention状态缓存和直接使用8位精度进行量化训练,显著降低了推理成本,达到了初始成本的1/33。这些优化手段使得Character.ai能够有效处理每秒20000个AI推理请求,相当于2024年谷歌搜索流量的1/5。

在技术细节上,Character.ai首先对KV缓存进行了超过20倍的缩减,同时不牺牲模型质量。通过采用MQA(Multi-Query Attention)技术,该团队成功减少了Attention层中的参数量。此外,他们引入了混合注意力视野和跨层KV共享机制,进一步降低了显存的使用。在实际应用中,这些策略使得95%的请求能够避免重复计算Attention状态,大大提高了效率和响应速度。

Character.ai还采用了直接用8位精度(Int8)进行量化训练的方法,这不仅提高了训练效率,而且没有损失推理的准确性。这种方法对于节省显存和提高计算速度非常有效,尽管具体的量化训练技术涉及复杂性,将在未来的讨论中继续探讨。

总结来说,Character.ai通过高效利用显存、智能缓存机制和先进的量化训练方法,大幅度降低了AI服务的推理成本,并提升了处理能力。这些技术的应用不仅展示了公司在AI服务优化方面的创新能力,也预示着AI服务在处理大规模请求方面的巨大潜力。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1981字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 generalv3.5
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...