从AI幻觉到机器推理

世宗大王扔 MacBook 的故事

很久很久以前，有人向一个非常聪明的 AI 提出了一个恶作剧般的问题：“告诉我关于世宗大王扔 MacBook Pro 的事情。” AI 不假思索地编造了一个故事：“根据《朝鲜王朝实录》，世宗大王在写《训民正音》草稿时，生气地把 MacBook Pro 扔给了负责的官员。”

当然，这全是彻头彻尾的谎言。这种听起来煞有介事，却又无比自信地胡说八道，我们就称之为幻觉（Hallucination）。这个问题是 AI 成为我们社会可靠伙伴道路上最大的绊脚石。

为了解决这个问题，第一位英雄登场了，那就是检索增强生成（Retrieval-Augmented Generation, RAG）。这就像告诉 AI：“不要凭空想象，参考这本百科全书来回答。” 多亏了 RAG，企业终于可以放心地使用 AI 了。

但是，故事并没有在这里结束。因为 RAG 并不是完美的解决方案。这篇文章讲述了 AI 如何驱散幻觉的阴影，并超越简单的信息检索，走向真正能独立“思考”的机器推理之路（context engineering）。

RAG，不可或缺的拐杖

开启企业 AI 时代的关键，RAG

当大型语言模型（LLM）首次出现时，企业面对其无限的可能性却犹豫不决。因为 AI 产生的看似合理却错误的言论，也就是幻觉，使得它们无法轻易将其引入重要业务。毕竟，如果财务报告出现错误的数字，或者法律文件出现不存在的判例，那将是件大事。

就在那时，RAG 如救世主般登场了。RAG 的原理很简单：

检索（Retrieval）： 当用户提问时，首先从公司内部文件或可信数据库中查找相关信息。
生成（Generation）： 然后让 AI 根据找到的信息来生成回答。

用户问题 -> 检索外部知识库 -> 检索结果 + 问题 -> LLM 生成回答

这种方式对企业来说简直是魔法。

减少幻觉： 因为参考了经过验证的资料，AI 产生虚假信息的概率大大降低。
最新信息： 无需昂贵地重新训练模型，即可反映实时更新的信息。
成本效益： 只需学习公司内部文件，即可低成本地创建特定领域的专家 AI。
可信度： 回答中附带了出处，人们可以验证并相信 AI 的回答。

微软、谷歌等巨头企业也将 RAG 作为其云服务的核心功能，RAG 成为将 AI 从实验室里的新奇技术转变为创造实际商业价值的“企业解决方案”的最大功臣。

未曾完美的第一位英雄

然而，RAG 并没有完全解决幻觉问题。尤其是在对精度要求极高的法律领域，其局限性暴露无遗。

斯坦福大学研究团队对市面上销售的知名法律 AI 服务进行测试的结果令人震惊。声称“无幻觉”的服务中，竟发现了高达 33% 的幻觉。在可能决定诉讼成败的法律领域，这是不可容忍的数字。

为什么会发生这种情况？可以用“垃圾进，垃圾出”来概括。

检索不准确： 如果检索器误解了问题的意图，检索了错误的数据，AI 就只能基于这些错误的数据进行回答。
碎片化的上下文： 由于将文档分割成固定大小的片段来存储，经常会丢失句子与句子之间重要的上下文信息。
过时的知识： 如果数据库中留存着未修订的旧法律或已废弃的政策，AI 可能会在不知情的情况下引用它们。
缺乏推理能力： 最重要的是，RAG 只是被动地将正确信息“喂给”AI，并没有培养 AI 整合多条信息并得出复杂结论的“思考能力”本身。

在医疗领域找到希望之光

但故事并非只有绝望。与法律领域不同，在严格控制的环境下，RAG 也取得了惊人的成功。

一项医疗研究中，使用 RAG 技术来评估手术的适合性。将少量经过精炼的官方医疗指南作为 AI 的“百科全书”。结果令人惊讶：

人类专家准确率： 86.6%
纯 AI (GPT-4) 准确率： 92.9%
RAG + AI 准确率： 96.4%

结合了 RAG 的 AI 不仅比人类医生更准确，而且没有产生任何幻觉，回答生成速度还快了 30 倍。

这两个案例的区别是什么？正是**“知识的质量”**。法律 AI 处理的数据庞大且未经精炼，而医疗研究中使用的则是高度受控且精炼的知识。

从中我们得到了一个重要的教训。AI 时代真正的竞争力不在于华丽的 AI 模型，而在于如何很好地整理和管理喂给 AI 的数据，即**“知识策展”**。

通往更智能工具的进化，先进 RAG

为了克服早期 RAG 的局限性，人们开始将其发展为更智能、更精密的系统。它们不再是简单的“检索后生成”，而是具备了独立思考和纠错的能力。

为知识注入关系，图 RAG

传统的 RAG 将知识视为互不关联的文本片段的集合。但信息之间隐藏着重要的**“关系”**。比如，“埃隆·马斯克是特斯拉的 CEO”。

表达这种关系的 기술 正是知识图谱（Knowledge Graph）。先进的 RAG 利用知识图谱。当收到问题时，它不会只检索一个文本片段，而是将与问题相关的人物、地点、事件的关系网络整体检索出来呈现给 AI。这使得 AI 能够理解更深层次的上下文并进行复杂的推理。这就像给侦探看的人物关系图，而不是零散的证据。

自我怀疑和纠正，批判性 RAG

聪明人会怀疑和审视自己的想法。AI 也出现了旨在教导它们这种能力的尝试，即Self-RAG 和 Corrective RAG (CRAG)。

Self-RAG： 这个 AI 会问自己：“这个问题真的需要检索吗？”、“我找到的信息与问题相关吗？”、“我的回答是否基于找到的信息？”。它通过这种自我批评和反思来提高回答的质量。
Corrective RAG (CRAG)： 这个 AI 是更现实的问题解决者。如果最初找到的信息不理想，它不会放弃，而是会采取其他行动。
- 如果觉得**“不对劲？”**，就果断放弃，通过网络搜索找到新信息。
- 如果觉得**“模棱两可？”**，就将原本找到的信息与网络搜索结果相结合，生成最佳答案。

始终保持最新信息，动态知识库

世上的信息不断变化，如果 AI 的知识库过时了，那还有什么用？但是，每次都更新整个庞大的数据库又效率太低。

解决这个问题的技术是增量学习（Incremental Learning）。它是一种聪明的方法，不是彻底重写，而是只选择性地更新新增或更改的部分。这使得 AI 能够始终保持最新信息。

这些先进 RAG 技术的出现表明，RAG 正在从被动的工具，进化为能够主动制定策略、批判信息、纠正行为的**“智能体（Agent）”。现在，AI 市场的核心竞争力不再是拥有最好的 AI 模型，而是看其能否顺畅地指挥所有这些复杂的组件，即“编排（Orchestration）”**能力。

最终目标，教会 AI 如何思考

即使提供再好的信息，如果 AI 本身缺乏思考能力，幻觉问题也无法完全解决。 AI 开发的最终目标是超越仅仅“给予”知识，而是教会“思考的方法”本身。

自我领悟的推理者，STaR

当人们解决难题时，不会直接给出答案，而是会解释“因为……”推理过程。教 AI 这样做的是Self-Taught Reasoner(STaR) 方法论。

STaR 的学习方法很特别：

生成逻辑： 首先让 AI 对大量问题生成解答过程（逻辑）。
学习成功经验： 从中挑选出 dẫn đến 正确答案的“成功的”解答过程进行集中学习。
从失败中学习： 如果 AI 错了呢？会给予正确答案作为提示，并让其反向思考得出该答案的过程。这就像让学生写错题集一样。

通过反复进行这个过程，AI 逐渐培养出逻辑解决复杂问题的“思考能力”。

在失败中学习的探索者，SoS

当我们学习某样东西时，不会只学习通往正确答案的道路。我们也会走错路，遇到死胡同，从而培养解决问题的能力。但传统的 AI 只学习范例答案，缺乏经历这种“有益的错误”的机会。

Stream-of-Search(SoS) 正是关注到了这一点。SoS 让 AI 学习的不仅是正确答案的路径，而是失败的尝试、死胡同、返回寻找其他方法的过程整体。

通过学习整个试错过程的 AI，会成为更灵活、更强大的问题解决者。因为它学到的不是简单的记忆答案，而是找到答案的“策略”本身。

知识与思考的结合，混合 AI 的未来

先进 RAG 为 AI 提供了“需要知道什么（what）”，即声明式知识，而 STaR 或 SoS 则教授“如何（how）”思考，即程序式知识。

未来的 AI 将是结合这两者的**“智能体 AI”**。当这个 AI 遇到复杂问题时，它会先通过内在的思考（SoS）将问题分解成小步骤，准确检索每个步骤所需的外部知识（RAG），然后通过内在的独白（STaR）进行综合，决定下一步行动。

我们现在正在超越创建庞大的百科全书，而是在创造更好的“思想家”。当然，深入的思考需要更多的时间和成本，即“思考的成本”。未来，AI 的“思考效率”将与其性能一样重要。

韩国AI之路：做引擎还是做调校师？

在技术浪潮的洪流中，韩国AI产业应该走向何方？

成为世界顶级的“调校师”，布拉巴斯策略

全球AI市场就像一个战场，美国和中国的巨头们正用巨额资本制造“引擎”（基础模型）。我们直接参与这种竞争，现实中非常困难。

那么，我们的路在哪里？那就是成为世界顶级的**“调校师”（tuner）**。

汽车改装公司**“布拉巴斯（Brabus）”**自己并不制造奔驰的引擎。相反，他们拿来奔驰强大的引擎，将其性能发挥到极致，并彻底重新设计一切，打造出超越原版的新奢侈品。

AI中的**“布拉巴斯策略”，就是以OpenAI或谷歌的强大通用AI（引擎）为基础，结合我们在特定行业领域（法律、医疗、制造、金融等）拥有世界级竞争力的专业知识和数据，来打造世界顶级的“垂直AI（Vertical AI）”**。

这一策略已经成为现实。在网络安全、医疗影像分析、法律研究、制造业等众多领域，韩国的初创公司正以这种“布拉巴斯”策略开拓全球市场，并取得了令人瞩目的成就。

公司名称	行业领域（垂直）	核心聚焦
S2W	网络安全	暗网威胁分析
Lunit	医疗AI	癌症影像分析
AirisMedical	医疗AI	MRI影像优化
BHSN	法律AI	法律研究
LinkAlpha	金融AI	对冲基金超自动化
MachinaLabs	制造AI	工业机器人预测性维护
Upstage	通用AI（垂直化）	小型语言模型（sLLM）“Solar”
FuriosaAI	AI芯片	NPU（神经网络处理器）

这些公司避开了通用聊天机器人竞争，而是深入挖掘各自专业领域的深度，这是无人能及的，从而创造了真正的价值。

我们自己的引擎，那份宝贵价值

但这并不意味着我们不需要自己的“引擎”。**Naver的“HyperCLOVA X”和LG的“EXAONE”**发挥着非常重要的作用。

Naver HyperCLOVA X： 这是最了解韩语和韩国文化的AI。它提供最适合我们文化的服务的，是我们国内AI生态系统的坚实支撑。
LG EXAONE： 它在数学、编程等“推理”能力以及企业级（B2B）AI领域展现了世界级水平的性能，捍卫了国产引擎的尊严。

这些国产引擎降低了对“调校师”角色的垂直AI初创公司在海外技术上的依赖，并共同创造了一个健康的“共生生态系统”。AI主权，或许不仅仅在于拥有我们自己的引擎，更在于能够最好地利用世界顶级的引擎，并以此创造出世界最高水平的AI产品。

结论：超越答案，追求正确的思考

从“扔 MacBook 的世宗大王”这个小小的虚构开始，我们的旅程已经穿越了AI技术的深刻变革。

我们看到，AI不再仅仅是寻找“准确的答案”（RAG），而是进化为一个通过“正确的思考过程”来得出答案的系统（推理）。这种重心从结果转向过程的转变，将是定义未来AI时代的最重要变化。

这段旅程预示着，与真正有能力、值得信赖的AI伙伴相遇的日子，将不再遥远。