文章摘要
7月4日凌晨,法国知名开源AI研究实验室Kyutai在其官网发布了名为Moshi的多模态大模型。Moshi具备看、听、说的能力,其功能与OpenAI在5月14日展示的最新模型GPT-4o相似,能够实时处理语音提问并进行推理回答。
Moshi的使用流程非常简单,只需登录指定网站,填写一个邮箱地址即可开始使用。Moshi支持手机移动端,但对普通话的支持较差,建议使用英语提问。Kyutai实验室可能很快会开源Moshi,公布代码、模型权重和相关论文。
「AIGC开放社区」对Moshi进行了测试,发现其不锁区,填写邮箱地址后即可使用,无需等待。Moshi的语音模式表现出色,能够进行多轮语音对话,且拟人化语气明显,机器味较少。测试过程中,Moshi能够快速响应用户的语音提问,延迟几乎为零,官方给出的理论延迟为160毫秒。
尽管Moshi目前不支持中文普通话,但其面向的主要用户群体是国外用户,支持英语和法语。Moshi的回答内容相对简略,详细程度不如ChatGPT等纯文本模型,但其使用过程非常方便快捷,仅需提交一个邮箱即可使用。Moshi具备听和说的能力,但看的能力尚未展示,预计未来会添加这一功能。
Moshi在教育领域具有颠覆性作用,例如可以反复讲解高数题,帮助学生更好地理解。用户期待国产类似的GPT-4o和Moshi产品出现,并希望这些产品能支持更多地方语言,如闽南话、粤语、四川话和东北话等。
Moshi的发布引起了广泛关注,尤其是在等待GPT-4o语音模式的用户中。Moshi的推理延迟较低,实际操作中响应速度非常快,给用户留下了深刻印象。尽管目前Moshi的回答内容较为宽泛,但其高效的推理响应和低延迟表现令人期待未来的改进和升级。
网友们对Moshi的发布感到兴奋,并期待Kyutai实验室尽快开源Moshi的代码和模型权重,以便更多开发者能够参与到这一领域的研究和应用中。Moshi的出现为大语言模型的发展和应用落地提供了新的可能性,未来有望在更多领域发挥重要作用。
原文和模型
【原文链接】 阅读原文 [ 2182字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★