训练成本 | 学习AIGC

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

Meta AI 团队本周五正式发布了 MobileLLM-R1，这是 MobileLLM 的全新高效推理模型系列，引发了机器学习社区的讨论。MobileLLM-R1 包含基础模型 MobileLLM-R1 ...

AIGC动态

2周前

端到端 VLA 并非唯一解：分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

RoBridge是一种分层推理的具身基础模型，旨在解决机器人操作技术中的两大核心问题：高昂的训练成本和认知与执行的割裂。传统端到端视觉语言动作（VLA）模型虽...

AIGC动态

4个月前

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

斯坦福大学发布的《2025 AI Index》报告全面梳理了人工智能领域的最新进展与挑战。报告指出，尽管人工智能技术在过去几年取得了显著突破，但同时也面临着技术...

AIGC动态

6个月前

网上关于DeepSeek的说法，哪些是错误的？

DeepSeek近期通过采用PTX编程优化了跨芯片通信能力，但这并不意味着它绕过了NVIDIA CUDA生态。PTX是CUDA编程模型的一部分，DeepSeek直接使用PTX编写程序，虽...

AIGC动态

8个月前

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

DeepSeek R1，一款由中国公司DeepSeek开发的先进大模型，因其开源和性能与OpenAI的o1相当而引发全球关注。该模型以其相对较低的训练预算、易用性和良好的用户...

AIGC动态

8个月前

GPT-5 研发一年半进度堪忧！每轮 5 亿美金训练成本打水漂，还得雇人从头“造数据”

GPT-5（代号Orion）项目自研发以来已超过18个月，但仍未有成品出现。《华尔街日报》报道指出，尽管Orion的性能优于OpenAI当前的模型，但其进步不足以证明继续...

AIGC动态

9个月前

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

OpenAI的GPT-5项目遭遇挑战，尽管已经完成了至少两轮训练，但每次都遇到了新问题，导致效果远不达预期。市场估算，GPT-5的单次训练成本高达5亿美元，而两次训...

AIGC动态

9个月前

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

2019年2月，OpenAI发布了具有15亿参数的GPT-2模型，该模型在文本生成方面表现出色，充分利用了预训练的Transformer架构，被认为是大型预言模型的始祖。现在在...

AIGC动态

1年前 (2024)

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

陈丹琦团队发布了一种名为CEPE（并行编码上下文扩展）的新方法，该方法通过添加小型编码器和交叉注意力模块，扩展了预训练和指令微调模型的上下文窗口。这种...

AIGC动态

2年前 (2024)

深度 | 万模大战，杀出一匹黑马

文章总结：本文主要介绍了近期在多模态大模型领域的最新进展，包括LLaVA-NeXT、SPHINX-X、MobileVLM和CogCoM等多个模型。这些模型在性能、训练成本、多模态理...

AIGC动态

2年前 (2024)

标签：训练成本

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

端到端 VLA 并非唯一解：分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

网上关于DeepSeek的说法，哪些是错误的？

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

GPT-5 研发一年半进度堪忧！每轮 5 亿美金训练成本打水漂，还得雇人从头“造数据”

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

深度 | 万模大战，杀出一匹黑马

热门网址

标签：训练成本

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址