揭秘大模型技术在快手搜索的应用

AIGC动态1年前 (2024)发布 ai-front

3,724 0 0

文章摘要

快手搜索部门技术专家许坤在QCon 2024北京的分享中，深入探讨了大模型技术在快手搜索领域的应用，特别是多模态理解和生成方面的最新科研进展。许坤介绍了快手大模型技术的研发历程，从2023年3月底至4月初成立联合项目组，到8月份发布快手的第一个大模型——快意大模型。

快意大模型有三个不同规模的版本，分别为13B、66B和175B。在8月份的评估中，快意大模型已接近GPT-3.5的性能水平，经过团队的迭代和优化，175B规模的模型在中文场景下的表现已超过GPT-4，并已应用到快手的多个产品中，实现了技术的落地和商业价值的转化。

快手大模型技术已在多个领域进行尝试和应用，包括AI小快、智能客服和商家视频文案生成等。AI小快允许用户在观看视频时提问，大模型会在评论区中智能解答；智能客服利用大模型能力提供更精准、人性化的服务；商家视频文案生成服务提高了内容生成的效率和质量。此外，快手还推出了GPT卡片、AI搜、GPT多轮对话和角色聊天等产品，以提升搜索效率和补充搜索供给。

在搜索智能问答的设计上，快手构建了一个框架，通过视频检索和文档检索，利用生成式模型进行答案聚合。框架中还加入了强化学习模块，以最合适的形式回答特定类型的问题，形成闭环，使模型能够每天在线自我迭代。在开发过程中，快手面临了大模型幻象、低质索引资源影响答案准确率和Multi-Hop事实类问题等挑战。为此，快手构建了图神经网络模型，通过计算答案被其他文档支持的程度和答案之间的相似度，判断正确答案。

在角色聊天领域，快手面临如何将现有的语言模型升级为角色聊天模型的挑战。快手的产品框架包含角色库、当前对话角色和角色发现三个部分。在指定微调阶段，快手关注模型是否能理解角色含义、场景意义以及是否具备通用能力和多轮对话能力。此外，快手还特别构造了不同角色间的场景对话能力，以及长上下文对话的数据。

在多模态大模型方面，快手提出了将视觉或语音视为一种外语，即另一种语言的理念。通过设计Image Tokenizer组件，将图像、视频或音频转换成一系列token，输入到基础模型中。快手的LaVIT模型将图像离散化，图像的每个patch都有一个独特的ID，在语言模型中它就是一个语义token，实现同质化处理。这种方法使快手能够更灵活地处理多模态数据，并在不同的任务中实现更好的性能。