对话RWKV作者彭博:单枪匹马挑战Transformer的神秘怪才

AIGC动态4个月前发布 Si-Planet
1,487 0 0
对话RWKV作者彭博:单枪匹马挑战Transformer的神秘怪才

 

文章摘要


【关 键 词】 AI创新RWKV模型Transformer开源合作智能硬件

彭博,一位16岁考入香港大学物理系的天才少年,经历了对冲基金量化交易和创业制造智能硬件的洗礼后,如今以RWKV模型开发者的身份在AI领域崭露头角。RWKV模型自2020年诞生以来,不断迭代更新,从Transformer架构的改进到RNN的复兴,彭博坚信RWKV能够在性能和效率上超越现行的Transformer模型。RWKV-6-World 14B在Uncheatable Eval排行榜上展示了其卓越的性能,甚至被Huggingface纳入transformer库,成为首个RNN模型。

在与硅星人的深入对话中,彭博分享了RWKV模型的发展历程和设计理念。他指出,RWKV-1引入了显式衰减和Token-shift技术,显著提升了性能。RWKV-2尝试将模型转换为RNN形式,RWKV-3进一步优化Token-shift,而RWKV-4解决了数值稳定性问题。RWKV-5则将这些技术应用于Linear Transformer,RWKV-6引入了data-dependent dynamic decay,而RWKV-7则是delta rule的改进。

彭博认为,RWKV模型之所以能超越Transformer,是因为其固定大小的state能够激发模型学习真正的东西,而Transformer的state不断增大,导致效率问题。他强调,RWKV是RNN的复兴,它更符合人脑和宇宙的运作方式,具有局域性和因果性,这是物理上的基本原则。

在AI领域,彭博以其独特的视角和创新精神,挑战了现有的Transformer架构。他拒绝了OpenAI的邀请,坚持开源和社区合作的路线。彭博认为,AI的发展太简单,缺乏真正的创新和壁垒。他坚信自己掌握了实现真正智能的答案,虽然这些想法可能需要很长时间才能实现。

彭博的公司目前有2B的商业项目和2C的产品项目,正在进行第二轮融资。他表示自己擅长用有限的资源实现大事,这是他在制造业公司积累的经验。对于RWKV的未来,彭博表示将重点发展RWKV-7和8,特别是RWKV-8,他暗示这将是一个令人意想不到的创新。

总的来说,彭博和他的RWKV模型在AI领域展现出了创新和挑战精神。他坚持开源合作,追求真正的智能,而非简单的算力和数据堆砌。虽然面临争议和挑战,但彭博坚信自己的理念和方向,致力于推动AI技术的突破和发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 6095字 | 25分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...