标签:语言模型
「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need
近期,MIT的两位华人学者提出了一种名为L-Mul的新型乘法算法,旨在优化大规模语言模型(LLM)的能耗问题。LLM的能耗问题已经引起了联合国的关注,因为其能耗...
AI 加入 Scrum 团队,生产力翻倍?
在Scrum.org首席运营官Eric Naiburg的文章“AI as a Scrum Team Member”中,他探讨了人工智能(AI)如何作为Scrum团队的一员,提升Scrum Master、产品负责人和...
Cursor创始团队最新访谈:如果Github整合o1,Cursor可能要倒闭了
Cursor是一款基于VS Code的代码编辑器,它集成了AI辅助编程功能,引起了编程界和人工智能界的广泛关注。Cursor的起源可以追溯到2020年左右,当时OpenAI发布了...
00后国人论文登Nature,大模型对人类可靠性降低
这篇论文探讨了大型语言模型(LLMs)的可靠性问题,发现随着模型规模的增大,其在遵循指令方面的表现反而变得不可靠。研究指出,即使是最新的模型,如GPT-4,...
Ilya预言错了!华人Nature一作给RLHF「判死刑」,全球大模型都不可靠
剑桥大学等机构的研究人员在Nature上发表的论文中,对当前领先的大型语言模型(LLM)进行了全面评估,结果发现这些模型存在显著的不可靠性。研究团队对包括o1...
天下苦LangChain久矣
Ell 是一个新发布的语言模型编程库,旨在与 LangChain、Llama-Index 和 DSPy 等现有库竞争,甚至有可能取代它们。Ell 的核心维护者对 LangChain 的抽象表示不...
《Python机器学习》作者科普长文:从头构建类GPT文本分类器,代码开源
在Sebastian Raschka的长文中,他详细阐述了如何将预训练的大型语言模型(LLM)转化为文本分类器。文章首先强调了文本分类在商业应用中的重要性,如垃圾邮件...
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
在新智元的报道中,工程师Riley Goodside通过“Strawberry里有几个r”的问题测试了多个大型语言模型(LLM)的能力。他发现,尽管一些模型声称能够解决这一问题...
用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了
3Blue1Brown的最新视频深入探讨了大型语言模型(LLM)如何存储和处理信息。视频通过动画形式,生动地展示了LLM内部的工作原理,特别是多层感知器(MLP)在其...
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
Transfusion是一种创新的多模态生成模型,由Meta和Waymo等机构的研究者开发,旨在通过单一模型同时处理离散和连续数据。该模型通过结合语言模型和扩散模型的...