从骰子到聊天机器人：大语言模型发展史

相信吗？ChatGPT，这个先进技术的象征，它的起源竟然是一个在摩纳哥赌场的想法。让我们一起追溯大型语言模型（LLM）的宏大演变史。

人工智能的开端：蒙特卡洛方法的概率思想
人工智能的“寒冬”与多层感知机、深度学习的爆发
催生现代大型语言模型的Transformer架构的革命
从ChatGPT走向Agent AI的技术未来与中国现状

人工智能的黎明：概率与神经网络的出现

2022年的冬天，世界为人工智能聊天机器人ChatGPT的出现而疯狂。这项技术仿佛一夜之间出现，能流畅地回答我们的问题，写诗，写代码，震惊了全世界。这就像科幻电影中的未来突然变成了现实。

但这一切真的是一夜之间的奇迹吗？还是经过了几十年我们不知道的艰辛努力才取得的成果？为了回答这个问题，我们需要回到过去。令人惊讶的是，这段旅程的起点并不是最先进的计算机实验室，而是源于一个在摩纳哥赌场获得的灵感，那里充满了偶然和概率。

1. 赌场的秘密：驾驭不确定性的蒙特卡洛算法

为什么在谈论人工智能历史时要提到赌场？一切的开端都源于一种叫做“蒙特卡洛算法”的独特方法。这个名字来自摩纳哥著名的赌博城市蒙特卡洛，它的原理也与赌博的概率游戏有着密切的关系。

蒙特卡洛方法的核心是**“反复进行大量随机尝试”**。当遇到在数学上计算过于复杂或不可能解决的问题时，通过无数次随机尝试来获得接近答案的近似值。

在正方形内随机打点，计算落在圆内的点数比例，可以得到圆周率（π）的近似值。这就是蒙特卡洛方法的基本原理。 — 用于计算圆周率的蒙特卡洛方法

在一个与正方形内切的圆内随机打点，通过点的数量比例可以计算出圆周率的近似值。

这个想法被用于国际象棋或围棋等组合爆炸的游戏中，不是计算所有可能的局面，而是通过随机探索一些有希望的路径来估计最佳着法。后来击败李世石九段的“AlphaGo”，也使用了“蒙特卡洛树搜索（MCTS）”这一思想作为其核心武器。这种基于概率寻找最可能答案的方法，与后来预测下一个词的大型语言模型的基本理念不谋而合。

2. 人工智能的诞生与两条道路

1956年，在达特茅斯会议上，“人工智能（Artificial Intelligence）”这个词首次出现，AI研究大致分为两个方向：

符号主义（Symbolism）： 将人类智能视为逻辑规则和符号操作的结果，并试图对其进行编程，这是一种自上而下的方法。
连接主义（Connectionism）： 从大脑结构中获得灵感，相信连接大量人工神经元就能涌现出智能，这是一种自下而上的方法。

在连接主义阵营中，1958年心理学家弗兰克·罗森布拉特开发的**“感知机（Perceptron）”**是第一个模仿大脑神经元并具有实用性的人工神经网络模型。它结构简单，接收多个输入，进行加权求和，当总和超过某个阈值时就激活。其创新之处在于，这些权重可以从数据中“学习”。

3. 第一次寒冬：XOR问题让AI受挫

感知机成功解决了AND或OR等可以用一条直线将正例和负例分开的“线性可分”问题，给AI研究界带来了乐观情绪。

但这种乐观情绪在“XOR（异或）”这个非常简单的问题面前破灭了。XOR只有在两个输入值“不同”时才为真，而这个结果无法用任何一条直线来划分。

AND（左）、OR（中）运算可以用一条直线分成两组，但XOR（右）运算则不可能。这个简单的问题让早期人工智能受挫。 — 无法线性分离的XOR问题

1969年，马文·明斯基在数学上证明了这一局限性后，人们对AI的期望变成了失望，投资急剧下降，迎来了“AI寒冬（AI Winter）”。我个人认为XOR问题带来的打击，就像拥有了所有食材和食谱，却因为缺少一种关键调味料而毁了这道菜。这个简单的问题竟然让人们对整个AI的期望破灭，并带来了漫长的低迷期，这给我们上了一课：创新往往不是被巨大的困难绊倒，而是可能栽在微小的细节上。

深度学习的飞跃与大型语言模型的序幕

经历了严酷的冬天，AI以更深、更复杂的结构进化，再次迎来了飞跃的机会。

4. 结束黑暗时期的救星：多层感知机与反向传播

结束第一个AI寒冬的是“当一层不够时，就用多层”的理念实现的“多层感知机（Multi-Layer Perceptron, MLP）”。MLP在输入层和输出层之间增加了一个或多个“隐藏层（hidden layer）”。隐藏层可以对数据进行非线性转换，从而解决单层感知机无法解决的XOR等问题。

通过在输入层和输出层之间增加隐藏层，MLP能够解决单层感知机无法解决的非线性问题。 — 多层感知机（MLP）的结构

但是，训练这些复杂的网络却是个问题。解决了这个难题的是**“误差反向传播（Backpropagation）”**算法。反向传播将最终结果的误差反向传播，计算每个连接（权重）对误差的贡献并进行修正，这成为了训练深度神经网络的强大武器。

5. 2012年，深度学习的爆发：AlexNet的出现

1980年代，理论武器已经准备就绪，但要让深度学习爆发出全部潜力，还需要**“大数据”和“GPU”。2009年发布的包含1400万张图像的“ImageNet”**数据集，以及GPU强大的并行计算能力结合在一起，终于实现了“三位一体”。

2012年AlexNet的出现，大幅降低了图像识别的错误率，标志着深度学习时代的到来。到2015年，甚至超越了人类的错误率（约5%）。 — ImageNet挑战赛错误率变化趋势

2012年，杰弗里·辛顿教授团队的深度卷积神经网络（CNN）“AlexNet”以15.3%的惊人错误率赢得了ImageNet挑战赛，标志着深度学习时代的到来。这一事件 확산了“规模即性能”的信念，预示了后来大型语言模型的出现。

6. 理解时间的流逝：循环神经网络（RNN）

征服图像之后，AI的下一个目标是像语言一样“顺序”很重要的**“序列数据（Sequential Data）”。为此，模型“循环神经网络（Recurrent Neural Network, RNN）”**应运而生。RNN通过在网络内部创建“循环”来记忆前一阶段的信息并将其用于当前的计算。

RNN通过“循环”结构，将前一阶段的信息（隐藏状态）用于当前计算，从而处理诸如上下文之类的顺序信息。 — 循环神经网络（RNN）的工作原理

然而，RNN存在一个致命的缺点，即随着句子变长，它会忘记前面的信息，这就是**“长期依赖问题”。虽然LSTM和GRU**等改进模型出现了，但需要顺序处理的根本性限制仍然存在。

当今的“神”：Transformer与大型语言模型

2017年，一篇改变一切的论文发表，真正开启了大型语言模型的时代。

7. “Attention Is All You Need”：改变世界的Transformer

2017年，谷歌发表的一篇论文介绍了革命性的**“Transformer（Transformer）”**架构，彻底抛弃了曾是序列数据处理基础的“循环”结构。

Transformer通过**“自注意力（Self-Attention）”**机制，一次性展开所有单词，并同时计算每个单词与句子中所有其他单词之间关系的权重。

这是自注意力机制的一个例子，计算“it”这个词与句子中其他词的关系强度，并识别出它与“animal”关系最密切。（图片来源：Jay Alammar） — 自注意力机制示例

这种方式不仅从根本上解决了长期依赖问题，而且由于所有计算都可以并行处理，充分发挥了GPU的性能。这种压倒性的效率开启了一个此前无法想象的**“大型（Large）”**语言模型的时代。

8. 巨头时代：BERT与GPT

基于Transformer，自然语言处理领域出现了两个巨头模型：BERT和GPT。简单来说，BERT是侦探，GPT是说书人。

BERT（语境侦探）： 以**“掩码语言模型”**的方式进行训练，通过查看句子前后文来填充被掩盖的词语。由于它从双向考虑整个句子，因此在理解单词的细微含义方面具有卓越的“理解”能力，并被用作Google搜索引擎的核心技术。
GPT（创意说书人）： 以预测给定单词后最有可能出现的单词的方式进行训练。这种“自回归”方式使其在创造性地“生成”新文本方面具有强大能力。特别是GPT-3通过少量示例就能执行新任务的**“少样本学习（Few-shot learning）”**能力，为通用人工智能的潜力打开了大门。

9. 诞生“人性化”AI：ChatGPT的秘密，RLHF

GPT-3虽然令人惊叹，但有时也会产生虚假或有害的内容。模型需要进行“对齐（Alignment）”的过程，使其符合人类的意图和价值观。

通过人类反馈强化学习（RLHF）通过三个阶段的训练，使语言模型能够按照人类的意图和价值观进行回答。（图片来源：Hugging Face） — RLHF的三个训练阶段

解决了这个问题的、催生ChatGPT的核心技术就是**“通过人类反馈强化学习（RLHF）”**。

第一阶段（指令微调）： 使用“指令-示范回答”数据集，教会模型遵循用户指令的基本能力。
第二阶段（奖励模型训练）： 人类对多个回答进行偏好排序，训练出能够评估回答好坏并打分的“裁判AI”。
第三阶段（强化学习）： 第一阶段的模型生成回答，第二阶段的裁判AI进行评分，模型会自我修正以获得更高的分数。

最近，**“直接偏好优化（DPO）”**等更高效的技术也因简化了这一过程而受到关注。

中国大型语言模型的现状与未来

在ChatGPT引发的LLM大战中，中国企业也在激烈竞争，力求掌握理解中文和中国文化的“主权AI”。

这里是韩国大型语言模型（LLM）的比较。

开发者	模型名称	主要特点
Naver	HyperCLOVA X	基于庞大的Naver数据，专门针对韩语优化，“Thinking”功能，与自家服务（搜索、购物等）集成
Kakao	Koala (原KoGPT)	开源（可商用），轻量化和高效，韩语性能优异，支持多模态
SKT	A.X (A Dot X)	“From Scratch”自主开发，多模态（VLM），高性能文档编码器，通信领域专用
LG AI Research	EXAONE	专家级AI，推理+生成混合模式，专注于数学/编程/科学等专业领域
Upstage	SOLAR	轻量级模型（SLM）但性能顶尖，效率高，成本效益好，全球排行榜第一

在竞争日益激烈的背景下，由Upstage主导的“Open Ko-LLM Leaderboard”成为客观比较国内模型性能的标准基准，为韩国AI生态系统的发展做出了贡献。

结论：通往Agent AI的旅程与我们的任务

AI的旅程始于一次掷骰子，经过70多年，已经迎来了像人类一样对话的大型语言模型（LLM）时代。现在，技术正迈向下一个阶段——“Agentic AI”。Agentic AI是主动的问题解决者，它们能自主设定目标、制定计划，并利用工具来完成复杂的任务。

在这个令人瞩目的未来面前，Geoffrey Hinton警告了超智能的危险，而Yann LeCun则指出当前LLM缺乏“常识”，并主张需要新的架构。他们的争论表明，我们正处于一个新的起点，而非技术的顶峰。

核心要点

始于概率的旅程： AI并非始于完美的计算，而是源于从赌场概率游戏中获得的灵感，即寻找“最可能的答案”的概率方法。
Transformer的革命： Transformer架构克服了顺序处理的局限，最大化了并行处理和上下文理解能力，开启了大型语言模型（LLM）时代。
与人类对齐，及未来： ChatGPT通过RLHF（人类反馈强化学习）与人类意图对齐，现在AI正朝着能够自主规划和执行的“Agentic AI”进化。

接下来如何开发这项强大的新技术，并负责任地将其融入社会，这取决于我们所有人。为了感受这项惊人技术发展对我们的意义，为何不亲自尝试使用我们今天介绍的其中一个韩国LLM，体验它的潜力和局限性呢？

参考资料

蒙特卡洛方法 - Namu Wiki 链接
达特茅斯会议 - Wikipedia 链接
AI寒冬 - Wikipedia 链接
什么是反向传播？ - IBM 链接
ImageNet - Wikipedia 链接
什么是循环神经网络（RNN）？ - AWS 链接
[1706.03762] Attention Is All You Need - arXiv 链接
The Illustrated Transformer - Jay Alammar 链接
Illustrating Reinforcement Learning from Human Feedback (RLHF) - Hugging Face 链接
国内LLM模型现状及比较 - MSAP.ai 链接