性能优化 | 学习AIGC

训练效率提升25%、成本降23%！上海期智研究院、算秩未来联合推出MegatronApp：专为万亿参数大模型训练打造的系统工具包

上海期智研究院与算秩未来在WAIC 2025世界人工智能大会上联合发布了开源项目MegatronApp，这是国内首个针对Megatron-LM框架的增强工具链。该工具链聚焦高可用...

AIGC动态

2个月前

苹果憋一年终超同参数 Qwen 2.5？三行代码即可接入 Apple Intelligence，自曝如何做推理

苹果在WWDC全球开发者大会上推出了新一代专为增强Apple Intelligence功能开发的基座语言模型。该模型家族包括一个约3B参数的紧凑型设备端模型和一个基于服务...

AIGC动态

3个月前

谷歌Transformer过时了？清华姚班校友等三连击，爆改注意力！

谷歌研究团队提出了一种突破性的AI架构设计框架Miras，通过重新定义注意力机制和记忆管理方式，显著提升了序列模型的性能。该框架的核心创新在于将传统遗忘机...

AIGC动态

3个月前

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

路由LLM是一种通过智能调度机制动态分配请求到多个候选大语言模型（LLM）的技术范式，旨在通过异构模型的协同增效突破单一模型的性能上限。当前大模型研究面...

AIGC动态

5个月前

拿 20 年前的苹果“古董”笔记本跑模型推理：九分之一现代 CPU 速度，但成功了！

软件工程师 Andrew Rossignol 成功在一台已有 20 年历史的 PowerBook G4 笔记本电脑上运行了生成式 AI 模型，展示了旧硬件与现代 AI 技术的兼容性。这台笔记...

AIGC动态

5个月前

刚刚，谷歌用更少参数打败 Qwen 2.5-32B！新模型 Gemma 3 号称“单 GPU 模型王”，团队紧急招兵买马！

谷歌近日发布了Gemma 3，这是一组轻量级的开源AI模型，旨在减少能源消耗和成本，同时提供高性能的推理能力。Gemma 3基于与Gemini 2.0相同的研究和技术构建，...

AIGC动态

6个月前

多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

大型语言模型（LLMs）在处理复杂任务时面临挑战，尤其是在需要多步推理、特定领域知识或外部工具集成的场景中。现有的方法通常需要对模型进行微调或额外训练...

AIGC动态

6个月前

部分国产芯片适配满血版 DeepSeek，仍「遥遥无期」

国内AI芯片行业近期围绕DeepSeek模型的适配展开激烈竞争，真实技术实力通过适配满血版DeepSeek模型的能力得以显现。目前仅有华为、寒武纪、摩尔线程及昆仑芯...

AIGC动态

7个月前

腾讯推出快思考模型：API 成本只有 deepseek 不到一半

腾讯混元团队近期推出自研快思考模型Turbo S，该模型通过架构创新实现首字时延降低44%，部署成本较前代模型下降数倍，定价仅为0.8元/百万tokens输入费用。该...

AIGC动态

7个月前

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

在DeepSeek开源周的第六天，官方意外发布了DeepSeek-V3/R1推理系统的技术细节，展示了其优化大规模语言模型推理效率的核心方法。该系统通过跨节点专家并行（E...

AIGC动态

7个月前

标签：性能优化

训练效率提升25%、成本降23%！上海期智研究院、算秩未来联合推出MegatronApp：专为万亿参数大模型训练打造的系统工具包

苹果憋一年终超同参数 Qwen 2.5？三行代码即可接入 Apple Intelligence，自曝如何做推理

谷歌Transformer过时了？清华姚班校友等三连击，爆改注意力！

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

拿 20 年前的苹果“古董”笔记本跑模型推理：九分之一现代 CPU 速度，但成功了！

刚刚，谷歌用更少参数打败 Qwen 2.5-32B！新模型 Gemma 3 号称“单 GPU 模型王”，团队紧急招兵买马！

多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

部分国产芯片适配满血版 DeepSeek，仍「遥遥无期」

腾讯推出快思考模型：API 成本只有 deepseek 不到一半

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

热门网址

标签：性能优化

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址