标签:大模型

突发!DeepSeek开源新版V3,再次震惊国外

国内著名大模型平台DeepSeek近日开源了其V3模型的最新版本V3-0324,尽管发布过程极为低调,未在国内外社交媒体上进行宣传,但该模型迅速引起了广泛关注。V3-0...

“我原以为AI六小虎是为大厂探路,没想到连大厂都给DeepSeek探路”|钛媒体AGI

DeepSeek的开源AI模型在全球范围内引发了巨大反响,迅速吸引了超过1亿用户,并推动了百度、腾讯等大厂以及众多中小企业的接入。这一现象标志着中国AI行业的重...

阿里开源多语言大模型,支持全球90%人口

阿里巴巴开源的多语言大模型Babel,旨在解决资源匮乏语言在人工智能领域中的不足。该模型支持25种主流语言,覆盖全球90%以上的人口,包括豪萨语、波斯语、印...

谷歌对齐大模型与人脑信号!语言理解生成机制高度一致,成果登Nature子刊

谷歌最新研究发现,大语言模型(LLM)的内部嵌入与人类大脑在语言处理过程中的神经活动呈现线性相关关系。这一发现通过将真实对话中的人脑活动与语音到文本模...

蚂蚁华为阿里云罕见联手:AI医疗如何跨过落地鸿沟?

近年来,AI医疗领域迎来了快速发展,各大科技公司和医疗机构纷纷布局,推动AI技术在医疗行业的落地应用。蚂蚁集团、华为、阿里云等企业联手推出了“大模型一体...

实测首个烹饪大模型「食神」:DeepSeek进厨房,看脸生成养生食谱,普通人也能做大餐

在今年的上海AWE展会上,老板电器展示了其全球首个烹饪大模型「食神」的升级版本,该模型不仅接入了DeepSeek,还拓展了多模态功能。这一创新技术不仅能够推荐...

揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...

李开复:超大模型预训练逐渐寡头化,国内将收敛至 DeepSeek、阿里、字节三家

在彭博社的专访中,零一万物 CEO 李开复博士深入探讨了中国大模型行业的发展现状与未来趋势。他指出,DeepSeek 的爆红出圈为中国大模型行业完成了实质意义上...

三大模型巨头比拼思考「幻觉」:DeepSeek 不敌 ChatGPT,Gemini 用词最少

智利大学 CIAE 教育研究所的研究员 Roberto Araya 最近进行了一项关于大模型在应对幻觉问题上的性能对比研究,涉及 Gemini 2.0 Flash、ChatGPT o3-mini 和 De...

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

字节跳动与清华大学AIR联合实验室SIA Lab近期推出了一种名为DAPO的强化学习(RL)算法,该算法在AIME 2024基准测试中表现优异,超越了DeepSeek的GRPO算法。DA...
1 2 3 4 47