你知道吗？丨AI补全百科之LLM篇

JasonShane · 2026 年3 月 26 日 05:35

Hi，这里是AI领域知识补全百科计划，主要是因为最近在回补AI领域相关的知识点，在此也分享给大家~
本栏目将以AI的不同领域进行分类分篇，下一篇什么时候更新随心情~
注意：本文中涉及的知识内容旨在用通俗的语言解释名词，但并不保证全面，如果想要深入学习可自行搜索，本系列只适合了解入门~

LLM(Large Language Model，大语言模型)

专业定义：以Transformer 架构为核心，在海量人类文本数据上进行大规模预训练，具备自然语言理解、生成、翻译、推理、问答、对话等能力的超大规模深度学习模型，参数量级通常达到百亿、千亿级别。
通俗理解：它是一个 “读过海量人类书籍、网页、文章” 的 AI 语言大脑，通过学习语言的语法、逻辑、常识和知识规律，能像人一样听懂、说人话，还能写文章、解问题、编代码，本质是用数学模型拟合了人类语言的使用规则。

早期阶段（早期~2017）：传统 NLP，无 “大模型” 早期靠人工写语言规则、简单统计词频，比如早期翻译软件、客服机器人，只会固定话术，完全不理解语义，和现代 LLM 天差地别。
技术基石诞生（2017年） Google 发布Transformer 模型，提出自注意力机制，解决了长文本理解、高效并行训练的核心难题，这是所有 LLM 的底层技术根基，没有它就没有后续大语言模型。
预训练模型时代（2018~2019） Google BERT、OpenAI GPT-1/2 相继出现，属于 “小 / 中型语言模型”，首次实现通用语言理解，但能力有限，还未被称作 LLM。
LLM 正式诞生（2020年：关键阶段） OpenAI 发布GPT-3（1750 亿参数），凭借超大参数 + 海量训练数据，首次展现出零样本 / 少样本学习能力 —— 不用专门训练，就能做翻译、写文案、解数学题，标志着真正意义上的大语言模型（LLM）时代开启，“LLM” 这一概念也随之普及。
爆发期（2022~至今） ChatGPT、Gemini、Claude Opus等，以及国内通义千问、豆包、Kimi、GLM、MiniMax等，开源的 Llama、Mistral 等相继推出，LLM 从实验室走向全民应用，能力覆盖推理、多模态、工具调用等。

TRAE_小橙 · 2026 年3 月 26 日 07:53

已订阅，期待下一章节

Damond · 2026 年3 月 26 日 15:56

让我想起了计算机基础第一堂课