文章摘要
【关 键 词】 人工智能、科研传奇、技术能力、Scaling Law、语言模型
在2003年夏天的一个周日,AI领域的传奇人物Hinton在他的多伦多大学办公室里,意外迎来了一个年轻的学生Ilya Sutskever。这位学生在经历了整个夏天的炸薯条工作后,决心加入Hinton的实验室,从而开启了一段传奇的科研生涯。Sutskever不仅在Hinton的指导下参与了改变世界的AlexNet和AlphaGo项目,更在OpenAI担任首席科学家期间,领导推出了GPT系列、DALL·E系列、Codex以及ChatGPT等具有重大影响力的模型,多次改变了人工智能的格局。
Hinton在近期的一次访谈中回忆了与Sutskever共事的经历,透露了Sutskever在科研中展现出的惊人直觉和超强的技术能力。例如,Sutskever在入门仅一周时,就对反向传播的论文提出了深度见解,并为解决优化问题提出了独到见解。此外,在没有现代流行框架的年代,他就已经展示出超凡的代码和工程能力。
Sutskever在学生时期就已经坚信Scaling Law,认为通过扩大模型规模可以显著提高其性能。这一观点在当时被认为是一种“逃避责任”的表现,但后来证明他的直觉是正确的。在OpenAI,Sutskever的这一理念得到了进一步的发展和完善。
2010年,Sutskever在Hinton的指导下,与另一位学生合作研究了一种语言模型,使用GPU进行训练,这一做法甚至比AlexNet还要早两年。该模型虽然预测的是单个字符,而非今天的大型语言模型的token,但它已经显示出对语法和结构的理解。
Hinton和Sutskever都认为,语言模型不仅仅是预测下一个token的工具,其背后的预测机制意味着模型必须学会理解问题,这种理解的方式与人类的学习方式相似。通过大规模的语言模型,他们发现即便不刻意训练推理能力,模型也能自发产生推理能力,这一点与大脑的学习机制有共通之处。如今,全世界都在期待着Sutskever的下一个动作,将继续在人工智能领域带来哪些革命性的变革。
原文和模型
【原文链接】 阅读原文 [ 3952字 | 16分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★★