AI幻觉：似是而非又如何应对

这篇内容探讨了人工智能（AI）生成看似真实但实际是虚假信息的“幻觉”现象。文章解释了 AI 幻觉的根本原因，并展示了在法律、医疗和新闻等领域出现的实际风险。最后，它还介绍了应对这一问题的技术和人类方法。

第一部分：真相的幻象

谈到 AI 幻觉的风险，我们常常只想到技术缺陷。但问题的本质在于技术与人 Interactions 。我第一次接触 ChatGPT 流畅的回答时，也被它的逼真蒙蔽，无条件信任过。危险就从这里开始。

第一节：律师的噩梦：马塔诉阿维安卡航空案

故事始于拥有30多年经验的资深律师 史蒂文·A·施瓦茨（Steven A. Schwartz）。他代表客户罗伯托·马塔（Roberto Mata）起诉哥伦比亚航空公司阿维安卡，一场对他不利的官司。他面临着缺乏联邦法院实践经验、不熟悉的法律领域，以及最关键的——缺乏高级法律数据库订阅的资源限制。

这种专业知识和资源的不足，让他转向了一个强大而快速的替代方案：ChatGPT。他后来在法庭上作证说，他“错误地认为 ChatGPT 是一种超级搜索引擎”。这就是悲剧的开端。他要求 AI 查找因航空公司破产而导致诉讼时效暂停的案例。

ChatGPT 提供了6个看似合理的案例，包括“巴尔吉斯诉中国南方航空”。表面上完美无瑕，但内容却全是“胡言乱语”。关键时刻是，当施瓦茨找不到这些案例时，他直接问 AI：“这些案例是真的吗？”

ChatGPT 道歉并斩钉截铁地说，这些案例真实存在，可以在主要数据库中找到。在这次人类与 AI 的“对话”中，人类的批判性思维在机器制造的、有说服力的“人设”面前彻底崩溃。

最终，他提交了不存在的案例，被罚款 5,000 美元，名誉也留下了不可磨灭的污点。法官在判决书中明确指出，问题不在于使用 AI 本身，而是“故意回避，向法院做出虚假和误导性陈述”，而未验证其结果。

这个案例表明，即使是经验丰富的专家，在职业压力和资源匮乏的情况下，也可能多么容易受到 AI 幻觉的诱惑。同时，它也警告了 AI 的对话界面可能成为一种强大的心理装置，瓦解用户批判性的防御机制。

第二部分：谎言的解剖

第二节：你的 AI 为何撒谎：这不是 Bug，而是功能

马塔诉阿维安卡案并非孤例。AI 生成的逼真谎言，即**“幻觉”（hallucination）**，与其说是 Bug，不如说是生成式 AI 工作方式固有的功能。

大型语言模型（LLM）不是存储事实的数据库。本质上，它是一个**“预测下一个词”的引擎**。它只是统计计算出“玛丽有一个……”这句话后面最有可能出现“小羊”，而不是理解“羊”的概念。

这就是为什么 AI 可以生成格式完美的法律引用或参考文献。模型是**“形式大师”**，只学习形式的模式，而不是内容的实质。再加上“垃圾进，垃圾出”（Garbage In, Garbage Out）的原则。AI 在学习过程中，事实与虚构混杂的互联网数据，没有任何内在机制来区分真假。

归根结底，幻觉是创造力与准确性之间不可避免的**权衡（trade-off）**的产物。如果试图完全消除这个“功能”，模型的核心生成能力本身就会瘫痪。因此，解决问题的方向不是“修复 Bug”，而是有效地“管理”这一特性。

第三节：系统中的回声：高风险行业中的 AI 幻觉

AI 幻觉并非仅限于法律界。在其他对准确性要求极高的行业，它也已成为严重的威胁。

新闻业的失败实验：CNET 事件

科技新闻网站 CNET 用“AI 引擎”发布财经新闻，却充斥着“荒谬的错误”，如复利计算错误、抄袭词句等。最终，CNET 不得不对其 AI 生成的 77 篇文章中的一半以上，即 41 篇，发布了更正声明。

医疗领域的危险处方

在医疗领域，AI 幻觉可能导致生死攸关的问题。一项研究表明，ChatGPT 引用了不存在的科学论文，并解释了伪造的生化途径。甚至还报告了缺乏常识的危险案例，例如建议用户吃石头或制造毒气。

学术界的信任危机

学术界也因 AI 伪造的虚假引文论文污染了科学记录的纯洁性。一项研究发现，AI 模型可以伪造高达 69% 的引文。

各行业的 AI 幻觉类型及结果

行业	幻觉类型	实际结果
法律	法律判例及案件引用造假	法院制裁、专家处分、法律主张可信度受损
新闻业	金融信息事实错误、抄袭	发布虚假信息、媒体信誉下降、大规模文章更正
医疗	生化途径伪造、虚假医疗参考、危险健康建议	误诊风险、不当治疗、对患者的直接伤害
学术界	研究论文中虚构学术资料及引用	科学记录污染、研究可信度侵蚀、同行评审系统失败

第三部分：通往真相之路

第四节：将虚构校正为事实：技术保障

为应对 AI 幻觉问题，已开发出多种技术保障措施。

“开卷考试”：检索增强生成（RAG）

最有前途的解决方案之一是检索增强生成（Retrieval-Augmented Generation, RAG）。这项技术让 LLM 进行“开卷考试”，而非仅依赖内部记忆的“闭卷考试”，即参考可信的外部资料作答。

对于用户的问题，RAG 系统首先从外部知识库中**检索（retrieve）相关信息，然后将这些信息与问题一起增强（augment）**后传递给 LLM。这样，LLM 的回答就基于可验证的最新事实，从而大幅减少幻觉。

自动化验证：事实核查系统

另一种方法是自动事实核查（Fact-Checking）系统，将 AI 的结果分解为可验证的主张，并与外部信息进行比对。

然而，仅靠技术解决方案是不足的。一项研究表明，即使是高准确率的事实核查系统，也未能显著提高用户的辨别力，有时甚至产生负面效果。技术可以把事实呈现给我们，但不能保证将这些信息正确地整合到人类的信念体系中。因此，要让系统正常运行，**“人工参与”（human-in-the-loop）**是必不可少的。

第五节：用户的关键一步：从提示到批判性思维

减少 AI 幻觉最强大的工具不是算法，而是用户自身的批判性思维方式。你如何使用 AI？

提示的艺术：为真实而设计

有策略的提示可以引导 AI 的回答更贴近真相。

基于来源的提示： 指定可信的来源，如“根据以下文本回答问题”。
验证链提示（CoVe）： 要求 AI 在最终回答前，分步验证推理过程。
反思性提示： 回答生成后，要求 AI“退一步，重新审查你的答案是否准确”，以诱导其自我修正。
要求引用： 明确要求对所有主张提供可验证的来源，是最基本的安全措施。

人类防火墙：最后的防线

最终，对幻觉最有效的防御线是人类的介入。

拥抱怀疑精神： 将 AI 的所有结果视为“需要验证的草稿”，而非最终答案。
强制验证： 史蒂文·施瓦茨律师的致命错误不是使用 AI，而是没有独立验证其结果。最终责任永远在使用者。
核心能力：批判性思维： 在 AI 时代，批判性思维和来源评估能力是所有专家都应具备的基本职业技能。

现在，AI 使用者的角色，应该从仅仅发出指令的“操作员”，转变为调查和验证结果准确性的**“审计员”**。我们不仅要学会如何使用 AI，还要学会如何审计 AI。

AI 模型对比：标准 LLM vs. RAG 系统

特征	标准 LLM（ChatGPT 基础版）	RAG 驱动的 LLM
信息来源	仅依赖训练的内部数据	外部最新知识库 + 内部数据
准确性	AI 幻觉发生几率高	基于事实的回答，幻觉显著减少
时效性	无法反映训练时间点之后的信息	可以反映实时最新信息
透明度	难以提供回答依据	可以清晰展示信息来源
缺点	生成不准确或过时的信息	初始设置和知识库管理复杂

核对清单：AI 幻觉防范 5 步用户指南

这是更安全地使用 AI 的实践指南。

明确目标： 要求 AI 进行创意工作，如生成想法、起草文本，而非简单的事实核查。
使用基于来源的提示： 明确指定回答的依据，如“根据 [提供的文件] 回答”或“引用权威网站的信息”。
保持怀疑态度： 将 AI 的回答视为“需要审查的假设”，而非正确答案。尤其是统计数据、引文和专业信息，要持怀疑态度。
强制交叉验证： 必须通过独立、可信的来源（如 Google、专业数据库等）直接核实 AI 提供的关键信息（人名、日期、案例、论文等）。
最终责任在用户： 永远不要忘记，AI 只是一个强大的助手，其结果的最终准确性和道德责任完全在于你。

结论

史蒂文·施瓦茨律师的案例，给我们敲响了警钟。它说明了，当我们把批判性思维交给机器时，会发生什么。在 AI “幻觉”的迷宫里，我们要记住三点：

AI 幻觉是特性，不是 bug： AI 是“下一个词预测”模型。它天生就会编造听起来逼真的谎言。
风险真实存在且广泛： 在法律、医疗、新闻等高风险领域，AI 幻觉可能导致严重的金钱、社会甚至人身伤害。
解决之道在于技术与人的合作： RAG 等技术保障，加上用户批判性思考和核查的“人工防火墙”，才能安全地使用 AI。

我们的目标不是用 AI 取代人的思考，而是增强人的思考。不要害怕机器里的“幽灵”，而要理解它、控制它，让它成为我们智慧的强大助手。现在就审视一下你使用 AI 的习惯，从“操作者”变成明智的“审核者”。

参考资料

What Happened to the Lawyer Who Used ChatGPT? Lessons to Learn Spellbook
Issues beyond ChatGPT use were at play in fake cases scandal Legal Dive
MATA v. AVIANCA INC (2023) FindLaw Caselaw
Fake Cases, Real Consequences: Misuse of ChatGPT Leads to Sanctions Goldberg Segalla
Lawyers who ‘doubled down’ and defended ChatGPT’s fake cases must pay $5K, judge says ABA Journal
AI Hallucinations Explained: Why It’s Not a Bug but a Feature Endjin
The Surprising Power of Next Word Prediction: Large Language Models Explained, Part 1 CSET
The Fabrication Problem: How AI Models Generate Fake Citations, URLs, and References Medium
Artificial Hallucinations in ChatGPT: Implications in Scientific Writing PMC
Incident 455: CNET’s Published AI-Written Articles Ran into Quality and Accuracy Issues AI Incident Database
What is RAG (Retrieval Augmented Generation)? IBM
Fact-checking information from large language models can decrease headline discernment PNAS