标签:性能提升
1+1>2:复旦大学团队“硅基-二维”异质嵌入式DRAM,开创二维半导体应用新篇章
复旦大学微电子学院的周鹏教授、包文中研究员和信息科学与工程学院的万景研究员合作,研发了一种创新的“硅基-二维”异质集成eDRAM(Si-MoS₂ eDRAM)技术。这项...
北大李戈团队提出新代码模型对齐方法 CodeDPO:显著提升代码准确性与执行效率
北京大学李戈教授团队与字节跳动合作,提出了一种新的代码生成优化框架CodeDPO,旨在解决现有训练方法如监督微调(SFT)在代码生成中的局限性。CodeDPO框架通...
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
艾伦人工智能研究所(Ai2)最近推出了Tülu 3,这是一个开源的大型语言模型,包含8B和70B两个版本,并且未来将推出405B版本。Tülu 3的性能超过了Llama 3.1 Ins...
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
俄亥俄州立大学的研究团队提出了一种名为WebDreamer的新框架,该框架利用大型语言模型(LLM)作为世界模型,以预测网站上的交互结果,从而支持复杂环境中的规...
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
DeepSeek最近推出了一款新的推理模型DeepSeek-R1-Lite-Preview,这款模型在多个权威评测中超越了包括GPT-4o在内的顶尖模型,甚至在某些方面领先于OpenAI o1-p...
阿里发布Qwen2.5-Turbo,上下文长度突破100万
阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo,这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升,尤其是在处理超长上下文的能力上,...
苹果芯片,成功的秘诀
苹果高管在《印度快报》的采访中强调了公司自主设计Apple Silicon芯片和AI技术的战略优势。Mac产品营销副总裁Tom Boger和平台架构副总裁Tim Millet讨论了新M4...
浙大开源“最懂Excel的GPT”!首次将结构化数据作为独立模态训练,刷榜提升40百分点
浙江大学博导赵俊博领衔的团队开发了TableGPT2,这是一个能够理解复杂表格并进行计算的最新模型。TableGPT2首次将结构化数据作为独立模态进行训练,使得大模...
「通用大脑」来了!MIT何恺明用大模型思维玩出机器人预训练新花样
在机器人领域,通用智能的探索正在取得新进展。MIT的何恺明和Lirui Wang等人提出了一种名为“异构预训练Transformers”(HPT)的新架构,旨在解决机器人数据异...
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队最近提出了一种名为超连接(Hyper-Connections)的新方法,旨在替代传统的残差连接,以解决梯度消失和表示崩溃之间的权衡问题。超连接...