标签:性能提升
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
俄亥俄州立大学的研究团队提出了一种名为WebDreamer的新框架,该框架利用大型语言模型(LLM)作为世界模型,以预测网站上的交互结果,从而支持复杂环境中的规...
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
DeepSeek最近推出了一款新的推理模型DeepSeek-R1-Lite-Preview,这款模型在多个权威评测中超越了包括GPT-4o在内的顶尖模型,甚至在某些方面领先于OpenAI o1-p...
阿里发布Qwen2.5-Turbo,上下文长度突破100万
阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo,这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升,尤其是在处理超长上下文的能力上,...
苹果芯片,成功的秘诀
苹果高管在《印度快报》的采访中强调了公司自主设计Apple Silicon芯片和AI技术的战略优势。Mac产品营销副总裁Tom Boger和平台架构副总裁Tim Millet讨论了新M4...
浙大开源“最懂Excel的GPT”!首次将结构化数据作为独立模态训练,刷榜提升40百分点
浙江大学博导赵俊博领衔的团队开发了TableGPT2,这是一个能够理解复杂表格并进行计算的最新模型。TableGPT2首次将结构化数据作为独立模态进行训练,使得大模...
「通用大脑」来了!MIT何恺明用大模型思维玩出机器人预训练新花样
在机器人领域,通用智能的探索正在取得新进展。MIT的何恺明和Lirui Wang等人提出了一种名为“异构预训练Transformers”(HPT)的新架构,旨在解决机器人数据异...
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队最近提出了一种名为超连接(Hyper-Connections)的新方法,旨在替代传统的残差连接,以解决梯度消失和表示崩溃之间的权衡问题。超连接...
xAI、Anthropic同日上线API:Grok免费公测,Claude Haiku价格暴涨
Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型更新了截至2024年...
腾讯放大招,超Meta!史上参数最大,开源专家混合模型
腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型,该模型基于Transformer架构,拥有3890亿参数,其中激活参数为520亿,能够处理长达256K的上...
AI圈卷疯了!xAI、Anthropic同日上线API:Grok免费公测,Claude 3.5 Haiku价格暴涨
Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型...