文章摘要
【关 键 词】 快手搜索、大模型、多模态、智能问答、角色聊天
快手搜索部门技术专家许坤在QCon 2024北京的分享中,深入探讨了大模型技术在快手搜索领域的应用,特别是多模态理解和生成方面的最新科研进展。许坤介绍了快手大模型技术的研发历程,从2023年3月底至4月初成立联合项目组,到8月份发布快手的第一个大模型——快意大模型。
快意大模型有三个不同规模的版本,分别为13B、66B和175B。在8月份的评估中,快意大模型已接近GPT-3.5的性能水平,经过团队的迭代和优化,175B规模的模型在中文场景下的表现已超过GPT-4,并已应用到快手的多个产品中,实现了技术的落地和商业价值的转化。
快手大模型技术已在多个领域进行尝试和应用,包括AI小快、智能客服和商家视频文案生成等。AI小快允许用户在观看视频时提问,大模型会在评论区中智能解答;智能客服利用大模型能力提供更精准、人性化的服务;商家视频文案生成服务提高了内容生成的效率和质量。此外,快手还推出了GPT卡片、AI搜、GPT多轮对话和角色聊天等产品,以提升搜索效率和补充搜索供给。
在搜索智能问答的设计上,快手构建了一个框架,通过视频检索和文档检索,利用生成式模型进行答案聚合。框架中还加入了强化学习模块,以最合适的形式回答特定类型的问题,形成闭环,使模型能够每天在线自我迭代。在开发过程中,快手面临了大模型幻象、低质索引资源影响答案准确率和Multi-Hop事实类问题等挑战。为此,快手构建了图神经网络模型,通过计算答案被其他文档支持的程度和答案之间的相似度,判断正确答案。
在角色聊天领域,快手面临如何将现有的语言模型升级为角色聊天模型的挑战。快手的产品框架包含角色库、当前对话角色和角色发现三个部分。在指定微调阶段,快手关注模型是否能理解角色含义、场景意义以及是否具备通用能力和多轮对话能力。此外,快手还特别构造了不同角色间的场景对话能力,以及长上下文对话的数据。
在多模态大模型方面,快手提出了将视觉或语音视为一种外语,即另一种语言的理念。通过设计Image Tokenizer组件,将图像、视频或音频转换成一系列token,输入到基础模型中。快手的LaVIT模型将图像离散化,图像的每个patch都有一个独特的ID,在语言模型中它就是一个语义token,实现同质化处理。这种方法使快手能够更灵活地处理多模态数据,并在不同的任务中实现更好的性能。
原文和模型
【原文链接】 阅读原文 [ 9674字 | 39分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★