RAG 驱动的 Copilot 为 Uber 节省了 13,000 个工程小时

632 0 0

文章摘要

【关键词】 AI Copilot、效率提升、RAG技术、信息检索、性能反馈

Uber最近分享了其开发Genie的经历，Genie是一款AI驱动的随时待命的Copilot，旨在提高随时待命的支持工程师的效率。自2023年9月推出以来，Genie在154个Slack频道中回答了超过70,000个问题，节省了大约13,000个工程小时，用户评估的有效回答率为48.9%。Genie利用检索增强生成（RAG）技术提供准确的实时响应，显著提高事件响应的速度和效率。

Uber的待命工程师通常花费大量时间答复重复的查询或浏览零散的文档，使用户难以独立找到答案。这些情况导致了响应时间过长和生产力下降，这也是构建Genie的驱动力。Uber使用RAG来驱动Genie，RAG是一种创新方法，它将信息检索系统的优势与生成式AI模型相结合，以产生准确且相关的响应。它让Uber可以利用现有知识来源快速部署解决方案，这样就用不着AI模型微调所需的大量示例数据了。

Genie从各种内部来源提取数据，例如Uber的wiki、Stack Overflow和工程文档。信息被抓取后，使用OpenAI模型转换为向量嵌入，并存储在Uber的内部向量数据库Search In Action（SIA）中。Genie仅从预先批准的数据源提取数据，且不包含敏感数据，以避免泄露敏感信息。

当用户在Slack中提出问题时，查询会被转换为嵌入，Genie会使用该嵌入在向量数据库中获取上下文相似的数据。然后它将这些数据输入到大型语言模型中，以根据检索到的信息生成准确的响应。Uber实施了一个指标框架，通过持续的实时用户反馈来提高Genie的性能。在Genie回答问题后，用户可以通过选择“已解决”、“有帮助”或“不相关”等选项来提供反馈。

这些反馈通过Slack插件收集，并使用Uber的内部数据流系统处理，将指标发送到Hive表中分析。反馈循环允许Uber的团队跟踪Genie的帮助有效率，并根据真实的用户体验改进其响应。对于性能评估，Uber设计了一个自定义评估管道，用于评估各种指标，例如幻觉率和响应的相关性。该管道处理的是历史数据，包括Slack元数据、用户反馈和Genie以前的响应。它通过由LLM支持的评分系统来处理这些数据，用这个系统充当评判者。

Uber还采用了一套文档评估流程，以保障Genie在其响应中检索和使用的信息的质量。系统将抓取的知识库转换为结构化格式，其中一行代表一个文档。Genie将这些文档输入带有自定义评估提示的LLM来评估每个文档的清晰度、准确性和实用性。然后，LLM返回分数并提供改进每个文档的可行建议。此过程有助于保持底层文档的高标准，确保Genie的响应保持可靠和有效。