大模型

LLM,VLM,模型

腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?

近年来,Transformer架构在自然语言处理领域取得了显著成就,但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时,Mamba作为一种新兴的状态空间模型(SSM)...

每天2小时成绩逆袭全美前2%!AI助教让学生不再内卷

德克萨斯州的Alpha School通过引入AI助教,显著提升了学生的学习效率和考试成绩,成为教育创新的典范。学生们每天仅需与AI助教学习2小时,剩余时间则用于发展...

“我原以为AI六小虎是为大厂探路,没想到连大厂都给DeepSeek探路”|钛媒体AGI

DeepSeek的开源AI模型在全球范围内引发了巨大反响,迅速吸引了超过1亿用户,并推动了百度、腾讯等大厂以及众多中小企业的接入。这一现象标志着中国AI行业的重...

AI领域的全面战争,从AI爬虫毁灭互联网开始。

Triplegangers是一家乌克兰公司,专注于销售高清3D人体模型,这些模型基于真实人类扫描,广泛应用于游戏开发、动画制作等领域。然而,2023年1月,该公司遭遇...

阿里开源多语言大模型,支持全球90%人口

阿里巴巴开源的多语言大模型Babel,旨在解决资源匮乏语言在人工智能领域中的不足。该模型支持25种主流语言,覆盖全球90%以上的人口,包括豪萨语、波斯语、印...

谷歌对齐大模型与人脑信号!语言理解生成机制高度一致,成果登Nature子刊

谷歌最新研究发现,大语言模型(LLM)的内部嵌入与人类大脑在语言处理过程中的神经活动呈现线性相关关系。这一发现通过将真实对话中的人脑活动与语音到文本模...

蚂蚁华为阿里云罕见联手:AI医疗如何跨过落地鸿沟?

近年来,AI医疗领域迎来了快速发展,各大科技公司和医疗机构纷纷布局,推动AI技术在医疗行业的落地应用。蚂蚁集团、华为、阿里云等企业联手推出了“大模型一体...

如何在 Java 中基于 LangChain 编写大语言模型应用

提示工程是调整 LLM 的关键方法之一,通过构建能够被 LLM 理解和解释的文本,帮助模型执行特定任务。提示工程不仅能够促进 LLM 的安全使用,还能增强其能力,...

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

强化学习在提升大型语言模型(LLM)能力的同时,自身也在不断进化。现实世界中的复杂任务通常需要一系列决策,而直接优化多轮目标(如成功率)是提升智能体性...

「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞

在当前的AI社区中,注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角,认为Transformer中的注意力机制在计算复杂度上应被视为对数级...
1 57 58 59 60 61 590