标签:深度学习
阿里开源Qwen2.5-Coder,最强开源代码模型来了
阿里巴巴研究人员开源了Qwen2.5-Coder代码生成模型,包含0.5B、3B、14B和32B四个版本,适用于不同开发环境。测试数据显示,32B指令微调模型在多个测试中性能...
著名 AI 学者、天工智能首席科学家颜水成离开昆仑万维,去年 9 月入职
AI领域国际顶尖学者颜水成已离开昆仑万维。颜水成拥有丰富的学术和工作经历,包括在北京大学数学系学习、微软亚洲研究院实习、香港中文大学从事人脸识别研究...
奥特曼专访自曝OpenAI掌握AGI密钥,2025年降临!1人1万块GPU缔造十亿独角兽
OpenAI的CEO奥特曼在最近访谈中分享了他对AGI(人工通用智能)和ASI(人工超级智能)的看法。他预测ASI可能在“几千天内”到来,并认为现在是创办科技公司的最...
教授何恺明在MIT的第二门课——《深度生成模型》,讲座PPT陆续已出
何恺明,残差网络(ResNet)的发明者,自今年2月起在麻省理工学院(MIT)担任副教授,并已开始教授《深度生成模型》(6.S978: Deep Generative Models)课程...
苹果发布高效双EMA梯度优化方法,适配Transformer、Mamba模型
在深度学习模型训练中,优化非凸损失函数是一个挑战,尤其是当使用依赖于指数移动平均(EMA)的优化器如Adam和AdamW时。这些优化器可能在处理超大规模数据集...
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
最近,谷歌DeepMind的一篇论文《Grandmaster-Level Chess Without Search》引发了广泛关注。该论文介绍了一个参数量为2.7亿的Transformer模型,该模型无需依...
成都女生如何改写了AI进程
李飞飞,斯坦福大学终身教授、HAI院长、World Labs创始人,是AI领域内极具影响力的华人科学家。她的学术生涯始于物理学,后转向人工智能,尤其专注于计算机视...
DenseNet共一作者刘壮官宣新去向,将任普林斯顿大学助理教授
刘壮,DenseNet和ConvNeXt的主要开发者之一,将于2025年9月加入普林斯顿大学计算机科学系担任助理教授。在学术界任职前,他将继续在Meta AI Fair担任研究科学...
红杉资本:套壳才是应用层王道,o1改变了大模型行业,年度行业报告更新
AI行业的两份年度报告,Air Street Capital的《State of AI 2024》和红杉资本的《Generative AI's Act o1》,对AI创业和模型发展进行了深入探讨。报告指出,A...
除了Ilya,刚拿诺奖的Hinton还教出了这些AI博士
Geoffrey Hinton,被誉为人工智能领域的教父,最近荣获诺贝尔物理学奖。Hinton在长达数十年的研究生涯中,培养了40位博士生,其中包括多位在人工智能领域取得...