OpenAI新模型用的嵌入技术被网友扒出来了

AIGC动态2年前 (2024)发布 almosthuman2014

3,729 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

这篇文章介绍了OpenAI最近推出的两个新的文本嵌入模型，分别是text-embedding-3-small和text-embedding-3-large。这两个模型使用了一种新的技术，允许开发人员在使用嵌入时权衡性能和成本。这一技术引起了研究者们的广泛关注，与2022年5月的一篇论文中提出的”Matryoshka Representation Learning“方法相同。该方法通过以嵌套方式对低维向量进行显式优化在同一个高维向量中学习不同容量的表征，适用于计算机视觉和自然语言处理中的多个标准任务。

“MRL“方法的核心理念是通过学习Matryoshka表征的自适应部署设置，实现从粗到细的表征法，无需大量的训练或额外的部署开销。研究者将重点放在了现实世界ML系统的两个关键构件上：大规模分类和检索。在分类方面，MRL+自适应分类的结果是，在精度与基线相同的情况下，表征大小最多可缩小14倍。在自适应检索系统中，使用MRL的简单实现可实现128倍的理论速度和14倍的墙上时钟时间速度，同时保持检索精度。此外，MRL还可以用作分析实例分类难易程度和信息瓶颈的方法。

总的来说，这篇文章介绍了OpenAI最新的文本嵌入模型更新，以及与之相关的”Matryoshka Representation Learning“方法的原理和应用。