刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
文章摘要
【关 键 词】 情感语音、语音模型、多模态、人工通用智能、自我学习
智谱清言近期宣布全量上线「情感语音通话」功能,为用户带来端到端的情感语音体验。该功能在响应速度、情绪感知、语音表达、多语言支持等方面实现突破,提供类似真人的对话体验。同时,智谱清言宣布情感语音模型GLM-4-Voice正式开源,未来还将支持视频通话功能。
GLM-4-Voice模型采用端到端的语音处理方式,避免了传统语音转文字再转语音的级联方案中的信息损失。该模型在超低码率下保留语义信息,并包含语速、情感等副语言信息。预训练方面,智谱将Speech2Speech任务解耦为Speech2Text和Text2Speech两个任务,并设计两种预训练目标,以适应这两种任务形式。
智谱还推出了AutoGLM,让AI能够像人类一样操作电脑和手机,完成阅读网页信息、电商产品购买、点外卖等任务。AutoGLM在Phone Use和Web Browser Use上取得了显著的性能提升。
智谱的技术路线图面向AGI(人工通用智能),计划打造统一多模态模型,不仅认知能力比肩人类,还要与人类价值观保持一致,实现安全可控。智谱的愿景是,未来AI在Level 4阶段具备发明创造能力,并追求内省,具备自我学习、自我反思和自我改进能力;在Level 5阶段,AI的能力将全面超越人类,开始探究科学规律、世界起源等终极问题。
原文和模型
【原文链接】 阅读原文 [ 3625字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...