成本直降90%、延迟缩短80%！Anthropic将API玩出了新花样，网友：应该成为行业标配

AIGC动态1年前 (2024)发布 ai-front

1,573 0 0

成本直降90%、延迟缩短80%！Anthropic将API玩出了新花样，网友：应该成为行业标配

文章摘要

Anthropic公司在其API中引入了一项创新功能——提示词缓存，旨在显著降低长提示的成本和延迟。该功能通过记住API调用之间的上下文，帮助开发人员避免重复输入相同的提示内容，从而实现成本降低高达90%和延迟降低80%。目前，该功能已在Claude 3.5 Sonnet和Claude 3 Haiku模型上以beta测试版的形式推出，但尚未支持Claude旗下最大模型Opus。

提示词缓存的概念最早源于2023年的研究论文，允许用户在会话中保留常用的上下文。这样，用户可以在添加额外背景信息时不必重复承担成本，对于需要在提示中发送大量上下文并在不同对话中多次引用的场景尤为重要。此外，提示词缓存还允许开发人员和其他用户更好地微调模型的响应。

Anthropic表示，早期用户已经在多种用例中观察到使用提示词缓存后速度和成本的显著改善，测试范围涵盖从完整知识库到100个样本示例，再到在提示中包含对话的每个轮次。提示词缓存的潜在效果包括降低对话智能体处理长指令和上传文档时的成本和延迟，加快代码自动补全速度，向智能体搜索工具提交多条指令，以及在提示中嵌入完整文档等。

提示词缓存的主要优势在于每token的价格较低。以Claude 3.5 Sonnet为例，初次输入提示词时每100万个token的成本为3.75美元，而后续调用缓存提示词的成本仅为0.30美元。相比之下，Claude 3.5 Sonnet模型的基础提示词输入价格为每100万个3美元。这意味着，只要预先多付一点钱，下次使用缓存提示词时就能将成本压低至十分之一。

尽管初始API调用的成本稍高（需要将提示词存储在缓存中），但所有后续调用的成本仅为正常输入价格的十分之一。Claude 3 Haiku用户在使用提示词缓存时每100万个token需要额外支付0.30美元，而在调用已缓存提示词时每100万个token的价格仅为0.03美元。尽管Claude 3 Opus尚未提供提示词缓存，但Anthropic已经提前公布了具体价格，写入缓存的价格为每100万个token 18.75美元，访问已缓存提示词的价格为每100万个token 1.50美元。

然而，AI意见领袖Simon Willison指出，Anthropic的缓存只有5分钟的生命周期，每次使用时都会刷新。这与Gemini的上下文缓存功能类似，但Anthropic提出了独立的定价模式。Gemini为每100万个token每小时收取4.50美元的费用，以保持上下文缓存。相比之下，Anthropic直接对缓存输入量收费，但“缓存的生命周期只有5分钟，且每次使用缓存内容时都会刷新”。

Anthropic通过定价手段与其他AI平台竞争，此前已大幅下调其token的计费标准。在发布Claude 3系列模型之前，Anthropic为自家平台上的第三方开发商提供低价选项，现在再次针对谷歌和OpenAI等竞争对手展开激烈的价格竞争。

引入提示缓存对Claude模型的AI交互效率是一个重大飞跃。与检索增强生成（RAG）等长上下文模型相比，Claude的提示缓存提供了简单性、一致性和速度等优势。与具有扩展上下文窗口的模型（如谷歌的Gemini Pro）相比，Claude的提示缓存提供了成本效益、灵活性和可扩展性等优势。

其他平台也开始提供类似的提示词缓存版本，如Lamina大语言模型推理系统尝试利用KV缓存降低GPU使用成本。OpenAI的开发者论坛和GitHub上也出现了大量与提示词缓存相关的话题。然而，提示词缓存与大语言模型自身的提示词记忆机制不同，如OpenAI的GPT-4o提供记忆机制，但无法像提示词缓存那样存储具体的提示词及响应结果。

X平台上的讨论显示，许多网友认为提示词缓存具有100%的颠覆性，应成为每家大模型厂商的标准配置。一些网友对AnthropicAI的提示缓存进行了独立评估，结果显示Claude 3.5 Sonnet实现了90%的成本节省，而Claude 3 Haiku甚至实现了97%的成本节省。

总之，Claude的提示缓存为推动更高效、更具成本效益的AI交互迈出了重要一步。通过减少延迟、降低成本并简化复杂知识的整合，这一功能为各行业的AI应用开辟了新的可能性。