文章摘要
【关 键 词】 AI工程、大模型、代码生成、视觉模型、声音模型
AI领域的发展日新月异,为了成为AI工程专家,更新论文清单至关重要。目前AI工程技术可分为十个领域,每个领域都有其代表作和相关工作。在前沿大模型领域,OpenAI的GPT系列模型是行业标杆,而Claude 3和Gemini是其主要竞争对手。开源模型Llama家族和DeepSeek系列也值得关注。Apple Intellgence论文则展示了在Mac和iPhone上的AI部署。
基准评估领域中,MMLU Pro、GPQA Diamond和BIG-Bench Hard是常用知识基准评估。MuSR评估自然语言叙事中的多步软推理任务,而MATH基准关注数学竞赛。IFEval评估语言模型的指令遵循能力,ARC AGI则用抽象和推理语料库测试模型智能程度。
提示、上下文学习(ICL)和思维链领域,马里兰大学等机构发布的“提示词报告”提供了提示工程的最佳实践和指南。思维链和思维树技术引导大模型逐步思考,提高性能。Prompt Tuning和自动提示工程师(APE)则通过学习“软提示”和搜索优化,自动生成和选择指令。
检索增强生成(RAG)是AI工程的核心,涉及信息检索技术。Meta提出的RAG结合预训练参数和非参数记忆用于语言生成。GraphRAG和RAGAS则分别处理以查询为中心的摘要任务和无参考评估RAG流程。
智能体领域中,SWE-Bench成为知名度高的智能体基准测试。ReAct开启关于工具使用和函数调用的研究,MemGPT提出虚拟上下文管理技术。Voyager是首个由大型语言模型驱动的终身学习智能体。
代码生成领域,The Stack项目展示了根据文本生成代码的潜力。开源代码模型论文包括DeepSeek-Coder等,而HumanEval/Codex论文解释了GitHub Copilot底层技术。AlphaCodium和CriticGPT分别提供通用解决方案和关注代码生成中的安全问题。
视觉模型领域,YOLO v11和CLIP模型是重要进展。MMVP基准量化了CLIP的核心问题,而Segment Anything Model (SAM)及SAM 2是成功的图像和视频分割基础模型。
声音模型领域,OpenAI的Whisper和谷歌的AudioPaLM是成功的ASR模型。Meta发布的Llama 3语音模型和NaturalSpeech也是领先的TTS方法。
图像/视频扩散模型领域,Stable Diffusion和Latent Diffusion模型降低了扩散模型的成本。OpenAI的DALL-E系列和谷歌的Imagen是知名的文生图模型。一致性模型论文是后续工作LCMs的基础。
微调领域中,LoRA/QLoRA是一种低成本微调方法。DPO是PPO的替代方案,而基于人类反馈的强化学习(RLHF)是一个复杂过程。ReFT关注特征而非层,提高微调效率。Orca和Orca2项目展现了使用合成数据提升模型性能。Let’s Verify Step by Step论文解释了OpenAI的o1模型使用的强化学习微调原理。
原文和模型
【原文链接】 阅读原文 [ 4649字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★