掘金阅读 ( ) • 2024-06-16 23:33

003期--与GPT的信任危机

这是我第一次看海，没想到是因为出差顺便看的，之前一直有计划，但也仅限于在计划当中...

>>想聊的

保持怀疑

这周看到了这样一篇文章：一个简单的GPT错误导致了1万刀的损失，目前网站似乎正在构建中，也许你查看的时候文章暂时无法查看，但查看标题基本上就能知道大致发生了什么。

根据我的记忆，文章中作者使用ChatGPT来做了Prisma/TS -> Python这个翻译不同类型但相同逻辑结构的工作，结果出现了一句错误，然后没有发现，导致损失了1万刀的故事。

ChatGPT自问世以来，我们基本上都知道它是有幻觉的，从最开始的一些经典问题开始，比如“鲁迅为何暴打周树人”，这个问题在GPT-3.5turbo中得不到很好的回答，但在GPT-4中能很好的理清楚其中的关系。

随着OpenAI不断地发布新的产品，模型能力不断地增强，ChatGPT帮助我们的次数越来越多，我们就可能逐渐忽略它仍然包含幻觉的缺点。

也许之前用GPT-3.5的时候，你还不信任它，用它写出的代码都会写不少测试用例；
但现在，GPT-4时代了，它已经帮助我们解决了无数个问题，你特别地信任它，于是你没写测试用例，然后某次就导致了巨大的损失！

想到一些词语、短句，比如“家贼难防”、“淹死的都是会游泳的”应该就是形容这种场景吧。

而且，也没有任何一位开发人员能保证自己写的代码没有BUG，也是靠一些流程化的东西去保证产品的一个下限，所以使用GPT应该也是这样。

最后，我们需要时刻保持怀疑的态度，即使ChatGPT给出的答案总是令人信服，逐渐“权威化”...

模型为什么会有幻觉？

首先，大型通用模型在保持事实方面表现不佳。它们擅长概念和解释概念，但询问一个通用模型关于一个人的生日通常是一个禁区。原因是因为在数据集中，即使正确答案最有可能，也会有许多类似的信息片段可以作为模型响应的一部分选择。一个很好的例子是，当我询问一个通用的 Llama2-7B 模型 AMD 首席执行官 Lisa Su 的生日时 - 它得到了正确的年份，但实际日期是与晶体管发现相关的日期。Lisa Su 与芯片和晶体管密切相关，因此在嵌入空间中，它被选为一个可能的候选者来适应答案。模型产生了幻觉。

第二个问题是这些通用模型是如何训练的。数据集可能是公开信息，正确或不正确（cough，reddit，维基百科），甚至是矛盾的信息，但这些模型被设计为给出一个答案，无论对错。除非问题被困在“不回答关于这个主题的问题”的防护栏中，几乎所有语言模型都倾向于给出答案，无论它们是否实际上正确。这不仅适用于事实，还适用于并未直接包含在数据集中但可能源自数据集的概念。对于特定模型，激光雷达和雷达可能相似，或者 1000 万这个数字可能与 300 万具有相同的权重-如果你在使用模型处理雇佣合同，这会有很大的差异。

如何解决呢？