斯坦福爆火Llama3-V竟抄袭国内开源项目，作者火速删库

AIGC动态1年前 (2024)发布 almosthuman2014

2,599 0 0

文章摘要

在GPT-4o问世后，Llama3的地位受到挑战。然而，斯坦福团队推出的Llama3-V引发关注，这一模型以仅500美元的成本，实现了与GPT4-V、Gemini Ultra和Claude Opus相媲美的多模态性能，且模型体积小100倍。

Llama3-V在发布之初即在推特上获得大量关注，浏览量突破30万，并冲上HuggingFace Trending Top 5。但有网友指出，Llama3-V在未提及的情况下使用了MiniCPM-Llama3-V 2.5的预训练tokenizer，并且两者在模型结构和配置文件上存在高度相似性。

针对质疑，Llama3-V的作者解释称他们使用了MiniCPM-V-2的tokenizer，并参考了LLaVA-UHD架构，但网友Magic Yang通过深入分析发现这些解释存在矛盾。他指出Llama3-V实际上使用了与MiniCPM-Llama3-V 2.5相同的tokenizer和特殊符号，且在Hugging Face上直接导入了MiniCPM-Llama3-V 2.5的代码。

更令人惊讶的是，Magic Yang发现Llama3-V的作者似乎并不完全理解自己的代码，例如对感知器重采样器的描述存在误解。此外，SigLIP的Sigmoid激活功能在多模态大语言模型训练中并未使用，作者对其代码的理解存在偏差。

这些发现加重了对Llama3-V的质疑，使得这一模型的原创性和可靠性受到广泛关注。