标签:自然语言处理
图文详解Transformer为什么如此强大
Transformer模型自问世以来,已经在自然语言处理(NLP)领域取得了革命性的进展,并且其影响力已经扩展到了NLP之外的其他领域。Transformer的核心特点在于其...
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
最后,机器之心还宣布将在北京海淀举办AI技术论坛,聚焦于视频生成技术、多模态大模型等前沿领域,旨在帮助企业和从业者掌握最新的技术进展。
讨论下一个token预测时,我们可能正在走进陷阱
机器之心报道,编辑赵阳,最近围绕下一个token预测的讨论日益激烈。然而,许多人认为,下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在...
马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载
马斯克旗下的大模型公司xAI宣布正式开源了3140亿参数的混合专家(MoE)模型「Grok-1」,这是目前参数量最大的开源大语言模型。Grok-1模型从头开始训练,没有...
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
华为诺亚方舟实验室的研究者们提出了一种名为DenseSSM的新方法,用于改进状态空间模型(SSM)中的隐藏信息流动。DenseSSM通过在不同层之间有选择性地整合浅层...
专访85岁冯志伟教授:一个北大中文系学生的机器翻译之梦
冯志伟是中国计算语言学和自然语言处理领域的先驱之一,他的学术生涯跨越了语言学和计算机科学两个领域。他的研究成果包括首次测算汉字的熵值、开发世界上第...
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba
摘要:谷歌 DeepMind 最近推出了两种新的 AI 模型,Hawk 和 Griffin,它们在基础模型方面为 AI 领域提供了新的选择。这些模型是基于循环神经网络(RNN)的,...
MiniMax发布开发者合作计划,免费提供2000亿tokens!
作者信息 【原文作者】 Founder Park 【作者简介】 来自极客公园,专注与科技创业者聊「真问题」。 【微 信 号】 Founder-Park 原文信息 【原文链接...
清华系面壁MiniCPM:国产AI模型新突破,2B小钢炮成本效率双优
面壁MiniCPM模型是一款由清华系创业团队面壁智能发布的人工智能模型,具有24亿参数。该模型在多项AI评测中取得了领先成绩,成功挑战了70亿参数的国际大模型Mi...
工具 | Julius: AI帮你做数据分析和可视化
Julius AI是一款智能数据分析和可视化工具,通过自然语言处理和机器学习技术,用户可以通过与Julius进行对话的方式快速获取数据分析结果,并进行数据处理、统...