端侧模型 OctopusV3 发布：手机上的超级助理，性能媲美 GPT-4V 和 GPT-4 的组合？

AIGC动态1年前 (2024)发布 ai-front

3,248 0 0

端侧模型 OctopusV3 发布：手机上的超级助理，性能媲美 GPT-4V 和 GPT-4 的组合？

文章摘要

随着人工智能技术的不断进步，我们见证了许多创新的AI模型的诞生。最近，Nexa AI团队推出了一款名为OctopusV3的端侧模型，这款模型被设计为一款手机上的超级助理，其性能被宣称可媲美GPT-4V和GPT-4的组合。这一声明无疑引起了业界的广泛关注。

OctopusV3的特点在于它不仅能够流利地掌握英语和中文，还能够熟练地破译文本和图像任务目标，并实现功能调用。这意味着它能够制定复杂的动作序列、生成可执行代码，并且支持安卓和IOS系统。更令人印象深刻的是，尽管OctopusV3的参数量不到10亿，它却拥有可与GPT-4V和GPT-4组合起来的性能相媲美，这使得Nexa AI将其描述为“一个体积最小、性能最强大的多模态On-Device AI模型”。

Nexa AI是一家成立于2023年的初创公司，专注于研究端侧AI代理。公司的创始团队包括来自斯坦福大学的博士和硕士，以及斯坦福大学副教授Charles (Chuck) Eesley作为顾问。这样的背景为公司的研发工作提供了坚实的学术支持。

在开发OctopusV3的过程中，Nexa AI团队关注的两个关键点是整合图像和文本输入以及优化模型预测行动的能力。为了实现这一目标，团队采用了视觉信息编码、功能标记和多阶段训练等技术。在图像处理方面，他们选择了CLIP模型的方法来对视觉信息进行编码，并引入了一种训练策略来管理未见术语，类似于word2vec方案。此外，OctopusV3采用了一种将因果语言模型与图像编码器整合在一起的模型架构，并通过迭代训练方法增强了模型处理和整合多模态信息的能力。

OctopusV3的训练过程分为多个阶段，从建立基础基准模型开始，到合并组件进行对齐训练，再到促进新版本功能标记的学习，最后是功能标记与环境互动提供反馈的阶段。这一多阶段训练过程确保了模型的高效和精准。

除了简单的应用，如购物、搜索和邮件发送，OctopusV3还可以针对特定领域定制高度专业化的AI代理，以提高医疗保健、金融和客户服务等行业的效率和用户体验。Nexa AI未来的计划包括开发能够处理音频、视频等其他数据模式的训练框架，并优化视觉输入带来的延迟问题，以提高推理速度。

总的来说，OctopusV3的发布标志着端侧AI技术的一个重要里程碑，它不仅为用户提供了一个强大的多模态交互工具，也为未来的自动驾驶和机器人技术的发展提供了新的可能性。Nexa AI希望通过这个模型，能够激发更多开发者的创意和应用，共同推动AI技术的发展。