2023年总结，“大模型元年” 回顾这一年的「大模型之战」，这也太精彩吧！

AIGC动态2年前 (2024)更新 admin

6,356 0 0

原文作者：AINLPer
作者简介：一个专注自然语言处理（NLP）方向的公众号。机器学习（ML）、深度学习（DL）、自然语言处理相关模型理解、热门论文（Paper）分享分析、pytorch、C++、Python、Java …
微信号：gh_895a8687a10f

关键词：ChatGPT、GPT-4、ChatGLM、PaLM2、DALL-E
文章摘要：
2023年是自然语言处理领域的大模型时代，众多科技巨头、研究机构和高校纷纷发布了自己的大模型。
在1月份，ChatGPT成为研究热点，ICLR会议录用结果公布。
2月份，各大科技巨头开始思考如何将大模型应用于业务场景，Google发布了视频生成类AIGC，元语智能推出了中文语言大模型ChatYuan。
3月份，OpenAI开放了ChatGPT API，Meta开源了LLaMA系列大模型，谷歌发布了PaLM-E模型，OpenAI发布了GPT-4多模态大模型。
4月份，科技公司和研究机构继续发布新的开源模型，大模型进入开源商用阶段。
5月份，各大科技巨头之间的竞争依然激烈，百度发布了文心一言大模型，Google发布了PaLM二代模型。
6月份，各大科技公司更新了他们的大模型产品，同时发布了一些新的模型和改进方法。
7月份，大模型竞争进入下半场，各大科技公司和研究机构发布了重大更新。
8月份，各大科技公司和研究机构继续发布大模型的更新，同时发布了一些新的模型和研究成果。
9月份，国内科技巨头和研究机构开始发力，发布了大模型的商业化应用、大模型训练平台和模型能力提升等方面的成果。
10月份，之前国内科技巨头/研发机构发布的大模型，在本月都迎来了重大更新。除此之外，国内在大模型能力提升、大模型微调训练、智能体等都公布了自己最新的研究成果。
11月份，本月各大科技巨头、研究机构也在做最后的冲刺，本月比较炸裂的消息要数OpenAI公布了ChatGPT的重大更新，及其GPT-4 Turbo的更新，新的大模型更聪明，文本处理上限更高，价格也更便宜，应用商店也开了起来。
12月份，本月最劲爆的消息要数「有望颠覆Transformer的新的架构Mamba」，它在语言建模方面可以媲美甚至击败 Transformer，随上下文长度的增加实现线性扩展，其性能可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升；除此之外，还有「Google发布的原生多模态大模型Gemini」，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。Gemini Pro实现了更为高级的推理、规划、理解等能力，同时继续保持免费。