posts / 科学

从AI幻觉到机器推理

phoue

2 min read --

世宗大王扔 MacBook 的故事

身穿龙袍的国王愤怒地扔 MacBook 的样子
身穿龙袍的国王愤怒地扔 MacBook 的样子

很久很久以前,有人向一个非常聪明的 AI 提出了一个恶作剧般的问题:“告诉我关于世宗大王扔 MacBook Pro 的事情。” AI 不假思索地编造了一个故事:“根据《朝鲜王朝实录》,世宗大王在写《训民正音》草稿时,生气地把 MacBook Pro 扔给了负责的官员。”

当然,这全是彻头彻尾的谎言。这种听起来煞有介事,却又无比自信地胡说八道,我们就称之为幻觉(Hallucination)。这个问题是 AI 成为我们社会可靠伙伴道路上最大的绊脚石。

为了解决这个问题,第一位英雄登场了,那就是检索增强生成(Retrieval-Augmented Generation, RAG)。这就像告诉 AI:“不要凭空想象,参考这本百科全书来回答。” 多亏了 RAG,企业终于可以放心地使用 AI 了。

但是,故事并没有在这里结束。因为 RAG 并不是完美的解决方案。这篇文章讲述了 AI 如何驱散幻觉的阴影,并超越简单的信息检索,走向真正能独立“思考”的机器推理之路(context engineering)。

context engineering
context engineering


RAG,不可或缺的拐杖

开启企业 AI 时代的关键,RAG

当大型语言模型(LLM)首次出现时,企业面对其无限的可能性却犹豫不决。因为 AI 产生的看似合理却错误的言论,也就是幻觉,使得它们无法轻易将其引入重要业务。毕竟,如果财务报告出现错误的数字,或者法律文件出现不存在的判例,那将是件大事。

就在那时,RAG 如救世主般登场了。RAG 的原理很简单:

  1. 检索(Retrieval): 当用户提问时,首先从公司内部文件或可信数据库中查找相关信息。
  2. 生成(Generation): 然后让 AI 根据找到的信息来生成回答。

用户问题 -> 检索外部知识库 -> 检索结果 + 问题 -> LLM 生成回答
用户问题 -> 检索外部知识库 -> 检索结果 + 问题 -> LLM 生成回答

这种方式对企业来说简直是魔法。

  • 减少幻觉: 因为参考了经过验证的资料,AI 产生虚假信息的概率大大降低。
  • 最新信息: 无需昂贵地重新训练模型,即可反映实时更新的信息。
  • 成本效益: 只需学习公司内部文件,即可低成本地创建特定领域的专家 AI。
  • 可信度: 回答中附带了出处,人们可以验证并相信 AI 的回答。

微软、谷歌等巨头企业也将 RAG 作为其云服务的核心功能,RAG 成为将 AI 从实验室里的新奇技术转变为创造实际商业价值的“企业解决方案”的最大功臣。

未曾完美的第一位英雄

然而,RAG 并没有完全解决幻觉问题。尤其是在对精度要求极高的法律领域,其局限性暴露无遗。

斯坦福大学研究团队对市面上销售的知名法律 AI 服务进行测试的结果令人震惊。声称“无幻觉”的服务中,竟发现了高达 33% 的幻觉。在可能决定诉讼成败的法律领域,这是不可容忍的数字。

为什么会发生这种情况?可以用“垃圾进,垃圾出”来概括。

  • 检索不准确: 如果检索器误解了问题的意图,检索了错误的数据,AI 就只能基于这些错误的数据进行回答。
  • 碎片化的上下文: 由于将文档分割成固定大小的片段来存储,经常会丢失句子与句子之间重要的上下文信息。
  • 过时的知识: 如果数据库中留存着未修订的旧法律或已废弃的政策,AI 可能会在不知情的情况下引用它们。
  • 缺乏推理能力: 最重要的是,RAG 只是被动地将正确信息“喂给”AI,并没有培养 AI 整合多条信息并得出复杂结论的“思考能力”本身。

在医疗领域找到希望之光

医务人员查看 AI 分析结果并讨论
医务人员查看 AI 分析结果并讨论

但故事并非只有绝望。与法律领域不同,在严格控制的环境下,RAG 也取得了惊人的成功。

一项医疗研究中,使用 RAG 技术来评估手术的适合性。将少量经过精炼的官方医疗指南作为 AI 的“百科全书”。结果令人惊讶:

  • 人类专家准确率: 86.6%
  • 纯 AI (GPT-4) 准确率: 92.9%
  • RAG + AI 准确率: 96.4%

结合了 RAG 的 AI 不仅比人类医生更准确,而且没有产生任何幻觉,回答生成速度还快了 30 倍。

这两个案例的区别是什么?正是**“知识的质量”**。法律 AI 处理的数据庞大且未经精炼,而医疗研究中使用的则是高度受控且精炼的知识。

从中我们得到了一个重要的教训。AI 时代真正的竞争力不在于华丽的 AI 模型,而在于如何很好地整理和管理喂给 AI 的数据,即**“知识策展”**。


通往更智能工具的进化,先进 RAG

为了克服早期 RAG 的局限性,人们开始将其发展为更智能、更精密的系统。它们不再是简单的“检索后生成”,而是具备了独立思考和纠错的能力。

为知识注入关系,图 RAG

传统的 RAG 将知识视为互不关联的文本片段的集合。但信息之间隐藏着重要的**“关系”**。比如,“埃隆·马斯克是特斯拉的 CEO”。

节点如“埃隆·马斯克”、“特斯拉”通过“CEO”这样的边连接起来
节点如“埃隆·马斯克”、“特斯拉”通过“CEO”这样的边连接起来

表达这种关系的 기술 正是知识图谱(Knowledge Graph)。先进的 RAG 利用知识图谱。当收到问题时,它不会只检索一个文本片段,而是将与问题相关的人物、地点、事件的关系网络整体检索出来呈现给 AI。这使得 AI 能够理解更深层次的上下文并进行复杂的推理。这就像给侦探看的人物关系图,而不是零散的证据。

自我怀疑和纠正,批判性 RAG

聪明人会怀疑和审视自己的想法。AI 也出现了旨在教导它们这种能力的尝试,即Self-RAGCorrective RAG (CRAG)

  • Self-RAG: 这个 AI 会问自己:“这个问题真的需要检索吗?”、“我找到的信息与问题相关吗?”、“我的回答是否基于找到的信息?”。它通过这种自我批评和反思来提高回答的质量。
  • Corrective RAG (CRAG): 这个 AI 是更现实的问题解决者。如果最初找到的信息不理想,它不会放弃,而是会采取其他行动。
    • 如果觉得**“不对劲?”**,就果断放弃,通过网络搜索找到新信息。
    • 如果觉得**“模棱两可?”**,就将原本找到的信息与网络搜索结果相结合,生成最佳答案。

始终保持最新信息,动态知识库

世上的信息不断变化,如果 AI 的知识库过时了,那还有什么用?但是,每次都更新整个庞大的数据库又效率太低。

解决这个问题的技术是增量学习(Incremental Learning)。它是一种聪明的方法,不是彻底重写,而是只选择性地更新新增或更改的部分。这使得 AI 能够始终保持最新信息。

这些先进 RAG 技术的出现表明,RAG 正在从被动的工具,进化为能够主动制定策略、批判信息、纠正行为的**“智能体(Agent)”。现在,AI 市场的核心竞争力不再是拥有最好的 AI 模型,而是看其能否顺畅地指挥所有这些复杂的组件,即“编排(Orchestration)”**能力。


最终目标,教会 AI 如何思考

即使提供再好的信息,如果 AI 本身缺乏思考能力,幻觉问题也无法完全解决。 AI 开发的最终目标是超越仅仅“给予”知识,而是教会“思考的方法”本身。

自我领悟的推理者,STaR

大脑结构图,类似于国际象棋大师深思熟虑
大脑结构图,类似于国际象棋大师深思熟虑

当人们解决难题时,不会直接给出答案,而是会解释“因为……”推理过程。教 AI 这样做的是Self-Taught Reasoner(STaR) 方法论。

STaR 的学习方法很特别:

  1. 生成逻辑: 首先让 AI 对大量问题生成解答过程(逻辑)。
  2. 学习成功经验: 从中挑选出 dẫn đến 正确答案的“成功的”解答过程进行集中学习。
  3. 从失败中学习: 如果 AI 错了呢?会给予正确答案作为提示,并让其反向思考得出该答案的过程。这就像让学生写错题集一样。

通过反复进行这个过程,AI 逐渐培养出逻辑解决复杂问题的“思考能力”。

在失败中学习的探索者,SoS

当我们学习某样东西时,不会只学习通往正确答案的道路。我们也会走错路,遇到死胡同,从而培养解决问题的能力。但传统的 AI 只学习范例答案,缺乏经历这种“有益的错误”的机会。

Stream-of-Search(SoS) 正是关注到了这一点。SoS 让 AI 学习的不仅是正确答案的路径,而是失败的尝试、死胡同、返回寻找其他方法的过程整体

通过学习整个试错过程的 AI,会成为更灵活、更强大的问题解决者。因为它学到的不是简单的记忆答案,而是找到答案的“策略”本身。

知识与思考的结合,混合 AI 的未来

先进 RAG 为 AI 提供了“需要知道什么(what)”,即声明式知识,而 STaR 或 SoS 则教授“如何(how)”思考,即程序式知识

未来的 AI 将是结合这两者的**“智能体 AI”**。当这个 AI 遇到复杂问题时,它会先通过内在的思考(SoS)将问题分解成小步骤,准确检索每个步骤所需的外部知识(RAG),然后通过内在的独白(STaR)进行综合,决定下一步行动。

我们现在正在超越创建庞大的百科全书,而是在创造更好的“思想家”。当然,深入的思考需要更多的时间和成本,即“思考的成本”。未来,AI 的“思考效率”将与其性能一样重要。

韩国AI之路:做引擎还是做调校师?

在技术浪潮的洪流中,韩国AI产业应该走向何方?

成为世界顶级的“调校师”,布拉巴斯策略

奔驰与布拉巴斯 G Wagon改装图片
奔驰与布拉巴斯 G Wagon改装图片

全球AI市场就像一个战场,美国和中国的巨头们正用巨额资本制造“引擎”(基础模型)。我们直接参与这种竞争,现实中非常困难。

那么,我们的路在哪里?那就是成为世界顶级的**“调校师”(tuner)**。

汽车改装公司**“布拉巴斯(Brabus)”**自己并不制造奔驰的引擎。相反,他们拿来奔驰强大的引擎,将其性能发挥到极致,并彻底重新设计一切,打造出超越原版的新奢侈品。

AI中的**“布拉巴斯策略”,就是以OpenAI或谷歌的强大通用AI(引擎)为基础,结合我们在特定行业领域(法律、医疗、制造、金融等)拥有世界级竞争力的专业知识和数据,来打造世界顶级的“垂直AI(Vertical AI)”**。

这一策略已经成为现实。在网络安全、医疗影像分析、法律研究、制造业等众多领域,韩国的初创公司正以这种“布拉巴斯”策略开拓全球市场,并取得了令人瞩目的成就。

公司名称 行业领域(垂直) 核心聚焦
S2W 网络安全 暗网威胁分析
Lunit 医疗AI 癌症影像分析
AirisMedical 医疗AI MRI影像优化
BHSN 法律AI 法律研究
LinkAlpha 金融AI 对冲基金超自动化
MachinaLabs 制造AI 工业机器人预测性维护
Upstage 通用AI(垂直化) 小型语言模型(sLLM)“Solar”
FuriosaAI AI芯片 NPU(神经网络处理器)

这些公司避开了通用聊天机器人竞争,而是深入挖掘各自专业领域的深度,这是无人能及的,从而创造了真正的价值。

我们自己的引擎,那份宝贵价值

但这并不意味着我们不需要自己的“引擎”。**Naver的“HyperCLOVA X”LG的“EXAONE”**发挥着非常重要的作用。

  • Naver HyperCLOVA X: 这是最了解韩语和韩国文化的AI。它提供最适合我们文化的服务的,是我们国内AI生态系统的坚实支撑。
  • LG EXAONE: 它在数学、编程等“推理”能力以及企业级(B2B)AI领域展现了世界级水平的性能,捍卫了国产引擎的尊严。

这些国产引擎降低了对“调校师”角色的垂直AI初创公司在海外技术上的依赖,并共同创造了一个健康的“共生生态系统”。AI主权,或许不仅仅在于拥有我们自己的引擎,更在于能够最好地利用世界顶级的引擎,并以此创造出世界最高水平的AI产品。


结论:超越答案,追求正确的思考

从“扔 MacBook 的世宗大王”这个小小的虚构开始,我们的旅程已经穿越了AI技术的深刻变革。

我们看到,AI不再仅仅是寻找“准确的答案”(RAG),而是进化为一个通过“正确的思考过程”来得出答案的系统(推理)。这种重心从结果转向过程的转变,将是定义未来AI时代的最重要变化。

这段旅程预示着,与真正有能力、值得信赖的AI伙伴相遇的日子,将不再遥远。

#AI#LLM#幻觉#RAG#机器推理#知识图#竖直 AI#TAG: 洽谈会策略#TAG: 超级 क्लोबा X#TAG: 엑사원

Recommended for You

谷歌“倒闭”新闻是假象:AI大战的三件秘密武器

谷歌“倒闭”新闻是假象:AI大战的三件秘密武器

1 min read
在AI耗尽地球电力之前,我们为何必须走向太空

在AI耗尽地球电力之前,我们为何必须走向太空

4 min read
混沌理论:蝴蝶效应改变你人生的真正原因

混沌理论:蝴蝶效应改变你人生的真正原因

2 min read

Advertisement

评论