标签:自然语言处理
谷歌提出大规模ICL方法——强化和无监督
本文主要讨论了大语言模型(LLM)在自然语言处理任务中的发展,特别是在少样本学习和上下文学习(ICL)方面的进展。文章首先指出,尽管LLM在少样本学习中表现...
清华SuperBench全球测评出炉,Claude 3拿下多个冠军!合成数据才是人类未来?
清华大学SuperBench团队最近发布了新一轮的全球大模型评测结果。在语义理解、智能体能力和代码能力三个测评中,Claude 3模型表现出色,拿下两个第一名,并在...
走近李生教授:培养出周明、王海峰等数位AI科学家,NLP国际最高奖项得主的科研之路
李生教授是中国自然语言处理领域的杰出科学家,他的科研生涯和教育事业为中国人工智能领域的发展做出了巨大贡献。本文详细回顾了李生教授的生平、成就以及对...
图文详解Transformer为什么如此强大
Transformer模型自问世以来,已经在自然语言处理(NLP)领域取得了革命性的进展,并且其影响力已经扩展到了NLP之外的其他领域。Transformer的核心特点在于其...
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
最后,机器之心还宣布将在北京海淀举办AI技术论坛,聚焦于视频生成技术、多模态大模型等前沿领域,旨在帮助企业和从业者掌握最新的技术进展。
讨论下一个token预测时,我们可能正在走进陷阱
机器之心报道,编辑赵阳,最近围绕下一个token预测的讨论日益激烈。然而,许多人认为,下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在...
马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载
马斯克旗下的大模型公司xAI宣布正式开源了3140亿参数的混合专家(MoE)模型「Grok-1」,这是目前参数量最大的开源大语言模型。Grok-1模型从头开始训练,没有...
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
华为诺亚方舟实验室的研究者们提出了一种名为DenseSSM的新方法,用于改进状态空间模型(SSM)中的隐藏信息流动。DenseSSM通过在不同层之间有选择性地整合浅层...
专访85岁冯志伟教授:一个北大中文系学生的机器翻译之梦
冯志伟是中国计算语言学和自然语言处理领域的先驱之一,他的学术生涯跨越了语言学和计算机科学两个领域。他的研究成果包括首次测算汉字的熵值、开发世界上第...
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba
摘要:谷歌 DeepMind 最近推出了两种新的 AI 模型,Hawk 和 Griffin,它们在基础模型方面为 AI 领域提供了新的选择。这些模型是基于循环神经网络(RNN)的,...