最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

AIGC动态1年前 (2024)发布 QbitAI

1,585 0 0

最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

文章摘要

【关键词】 AI优化、内存高效、Attention缓存、量化训练、KV共享

Character.ai，一家由Transformer模型的作者Noam Shazeer创建的公司，已经实现了显著的技术优化，以应对大规模AI推理请求的挑战。该公司通过一系列创新技术，包括内存高效架构设计、Attention状态缓存和直接使用8位精度进行量化训练，显著降低了推理成本，达到了初始成本的1/33。这些优化手段使得Character.ai能够有效处理每秒20000个AI推理请求，相当于2024年谷歌搜索流量的1/5。

在技术细节上，Character.ai首先对KV缓存进行了超过20倍的缩减，同时不牺牲模型质量。通过采用MQA（Multi-Query Attention）技术，该团队成功减少了Attention层中的参数量。此外，他们引入了混合注意力视野和跨层KV共享机制，进一步降低了显存的使用。在实际应用中，这些策略使得95%的请求能够避免重复计算Attention状态，大大提高了效率和响应速度。

Character.ai还采用了直接用8位精度（Int8）进行量化训练的方法，这不仅提高了训练效率，而且没有损失推理的准确性。这种方法对于节省显存和提高计算速度非常有效，尽管具体的量化训练技术涉及复杂性，将在未来的讨论中继续探讨。

总结来说，Character.ai通过高效利用显存、智能缓存机制和先进的量化训练方法，大幅度降低了AI服务的推理成本，并提升了处理能力。这些技术的应用不仅展示了公司在AI服务优化方面的创新能力，也预示着AI服务在处理大规模请求方面的巨大潜力。