对话RWKV作者彭博：单枪匹马挑战Transformer的神秘怪才

AIGC动态1年前 (2024)发布 Si-Planet

3,527 0 0

文章摘要

【关键词】 AI创新、RWKV模型、Transformer、开源合作、智能硬件

彭博，一位16岁考入香港大学物理系的天才少年，经历了对冲基金量化交易和创业制造智能硬件的洗礼后，如今以RWKV模型开发者的身份在AI领域崭露头角。RWKV模型自2020年诞生以来，不断迭代更新，从Transformer架构的改进到RNN的复兴，彭博坚信RWKV能够在性能和效率上超越现行的Transformer模型。RWKV-6-World 14B在Uncheatable Eval排行榜上展示了其卓越的性能，甚至被Huggingface纳入transformer库，成为首个RNN模型。

在与硅星人的深入对话中，彭博分享了RWKV模型的发展历程和设计理念。他指出，RWKV-1引入了显式衰减和Token-shift技术，显著提升了性能。RWKV-2尝试将模型转换为RNN形式，RWKV-3进一步优化Token-shift，而RWKV-4解决了数值稳定性问题。RWKV-5则将这些技术应用于Linear Transformer，RWKV-6引入了data-dependent dynamic decay，而RWKV-7则是delta rule的改进。

彭博认为，RWKV模型之所以能超越Transformer，是因为其固定大小的state能够激发模型学习真正的东西，而Transformer的state不断增大，导致效率问题。他强调，RWKV是RNN的复兴，它更符合人脑和宇宙的运作方式，具有局域性和因果性，这是物理上的基本原则。

在AI领域，彭博以其独特的视角和创新精神，挑战了现有的Transformer架构。他拒绝了OpenAI的邀请，坚持开源和社区合作的路线。彭博认为，AI的发展太简单，缺乏真正的创新和壁垒。他坚信自己掌握了实现真正智能的答案，虽然这些想法可能需要很长时间才能实现。

彭博的公司目前有2B的商业项目和2C的产品项目，正在进行第二轮融资。他表示自己擅长用有限的资源实现大事，这是他在制造业公司积累的经验。对于RWKV的未来，彭博表示将重点发展RWKV-7和8，特别是RWKV-8，他暗示这将是一个令人意想不到的创新。

总的来说，彭博和他的RWKV模型在AI领域展现出了创新和挑战精神。他坚持开源合作，追求真正的智能，而非简单的算力和数据堆砌。虽然面临争议和挑战，但彭博坚信自己的理念和方向，致力于推动AI技术的突破和发展。