标签:成本

首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀

DeepSeek团队最新发布的论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》探讨了如何通过软硬件协同设计实现经济高效的大规模训练和推理。随着OpenA...

拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

阿里巴巴的研究人员最近发布了一项名为“ZeroSearch”的新技术,旨在降低训练AI系统进行信息搜索的成本和复杂性,并完全消除对昂贵商业搜索引擎API的需求。这项...

只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍

南加州大学的研究团队近期发表了一篇名为《Tina: Tiny Reasoning Models via LoRA》的论文,提出了一种通过低秩自适应(LoRA)技术实现的高效推理模型。该模...

人人都能有一个满血DeepSeek?清华90后出手,10万块畅玩FP8原版

一款由清华90后团队打造的AI利器——行云褐蚁一体机,首次实现了以14.9万元的低成本流畅运行满血版DeepSeek模型,并支持顶配的128K上下文,性能媲美百万级方案...

刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了

阿里巴巴发布了新一代通义千问模型 Qwen3,该模型采用混合专家(MoE)架构,总参数量为 235B,但激活仅需 22B,显著降低了成本。Qwen3 在性能上全面超越了 De...

阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1

阿里巴巴最新发布的开源模型Qwen3(通义千问3)在性能、成本和灵活性方面取得了显著突破,成为全球最强开源模型。该模型采用混合专家(MoE)架构,总参数量为...

Qwen3深夜正式开源,小尺寸也能大力出奇迹。

阿里最新发布的Qwen3模型系列在多个方面展现了其技术实力和创新。Qwen3系列共包含8个不同尺寸的模型,从0.6B到235B,覆盖了从轻量级到旗舰级的应用场景。其中...

晶圆厂,巨变

全球半导体行业正迎来前所未有的投资热潮,预计到2030年,全球半导体公司将在新晶圆厂建设上投入约1万亿美元,行业年收入也有望突破1万亿美元。这一巨额投资...

“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态

在百度 Create 开发者大会上,百度创始人李彦宏发布了两款新的大模型——文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,并宣布了一系列支持开发者全面拥抱 MCP...

百度李彦宏:如果没有应用,AI 模型和芯片都没有价值|钛媒体AGI

在2024年4月25日武汉举行的百度Create开发者大会上,百度创始人、董事长兼CEO李彦宏正式发布了文心大模型4.5 Turbo和文心大模型X1 Turbo。这两款新模型的推出...
1 2 3