余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一
文章摘要
【关 键 词】 余弦相似度、机器学习、数据科学、正则化、深度学习
余弦相似度在机器学习和数据科学领域被广泛用于衡量高维对象之间的语义相似度,尤其在推荐系统和自然语言处理中。然而,Netflix和康奈尔大学的研究指出,余弦相似度可能导致任意且无意义的结果。该研究分析了正则化线性模型派生的嵌入,发现相似度可能不唯一,或由正则化隐式控制。研究还探讨了深度学习模型中不同正则化组合对余弦相似度计算的影响,指出这些影响可能使结果不透明且任意。
研究团队提出,余弦相似度的不可靠性源于正则化与自由度的问题。在特定优化目标下,学习到的嵌入可以任意缩放而不改变模型预测,影响余弦相似度。例如,在全秩矩阵分解模型中,通过选择适当的缩放矩阵,可以使得item-item余弦相似度等于单位矩阵,或使得user-user余弦相似度仅基于原始数据,忽略了学习的嵌入。
除了线性模型,深度学习模型中的多种正则化技术也可能对余弦相似度产生意外影响。研究提出了几种解决方案,包括直接针对余弦相似度训练模型、避免在嵌入空间工作、在应用余弦相似度前进行归一化或减少偏差。
博客作者Amarpreet Kaur总结了一些余弦相似度的替代方案,包括欧几里得距离、点积、软余弦相似度、语义文本相似度预测、归一化嵌入与余弦相似度等。选择替代方案时需考虑任务要求、数据性质和模型架构,并在特定领域数据集上进行实证评估。
这项研究提醒我们,在开发AI系统时,应多思考、多测试,确保所使用的工具真正有效。余弦相似度在简单线性模型中已表现出随机性,在更复杂的深度学习模型中问题可能更严重,因为深度学习模型使用的优化技巧会影响模型内部数值大小,从而影响余弦相似度计算。因此,寻找更好的相似度计算方法或研究正则化技术对语义的影响变得尤为重要。
原文和模型
【原文链接】 阅读原文 [ 2062字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★