掘金 阅读 ( ) • 2024-06-16 23:33

003期--与GPT的信任危机

这是我第一次看海,没想到是因为出差顺便看的,之前一直有计划,但也仅限于在计划当中...

>>想聊的

保持怀疑

这周看到了这样一篇文章:一个简单的GPT错误导致了1万刀的损失,目前网站似乎正在构建中,也许你查看的时候文章暂时无法查看,但查看标题基本上就能知道大致发生了什么。

根据我的记忆,文章中作者使用ChatGPT来做了Prisma/TS -> Python这个翻译不同类型但相同逻辑结构的工作,结果出现了一句错误,然后没有发现,导致损失了1万刀的故事。

ChatGPT自问世以来,我们基本上都知道它是有幻觉的,从最开始的一些经典问题开始,比如“鲁迅为何暴打周树人”,这个问题在GPT-3.5turbo中得不到很好的回答,但在GPT-4中能很好的理清楚其中的关系。

随着OpenAI不断地发布新的产品, 模型能力不断地增强,ChatGPT帮助我们的次数越来越多,我们就可能逐渐忽略它仍然包含幻觉的缺点。

  • 也许之前用GPT-3.5的时候,你还不信任它,用它写出的代码都会写不少测试用例;
  • 但现在,GPT-4时代了,它已经帮助我们解决了无数个问题,你特别地信任它,于是你没写测试用例,然后某次就导致了巨大的损失!

想到一些词语、短句,比如“家贼难防”、“淹死的都是会游泳的”应该就是形容这种场景吧。

而且,也没有任何一位开发人员能保证自己写的代码没有BUG,也是靠一些流程化的东西去保证产品的一个下限,所以使用GPT应该也是这样。

最后,我们需要时刻保持怀疑的态度,即使ChatGPT给出的答案总是令人信服,逐渐“权威化”...

模型为什么会有幻觉?

首先,大型通用模型在保持事实方面表现不佳。它们擅长概念和解释概念,但询问一个通用模型关于一个人的生日通常是一个禁区。原因是因为在数据集中,即使正确答案最有可能,也会有许多类似的信息片段可以作为模型响应的一部分选择。一个很好的例子是,当我询问一个通用的 Llama2-7B 模型 AMD 首席执行官 Lisa Su 的生日时 - 它得到了正确的年份,但实际日期是与晶体管发现相关的日期。Lisa Su 与芯片和晶体管密切相关,因此在嵌入空间中,它被选为一个可能的候选者来适应答案。模型产生了幻觉。

第二个问题是这些通用模型是如何训练的。数据集可能是公开信息,正确或不正确(cough,reddit,维基百科),甚至是矛盾的信息,但这些模型被设计为给出一个答案,无论对错。除非问题被困在“不回答关于这个主题的问题”的防护栏中,几乎所有语言模型都倾向于给出答案,无论它们是否实际上正确。这不仅适用于事实,还适用于并未直接包含在数据集中但可能源自数据集的概念。对于特定模型,激光雷达和雷达可能相似,或者 1000 万这个数字可能与 300 万具有相同的权重-如果你在使用模型处理雇佣合同,这会有很大的差异。

如何解决呢?

  • 微调特定领域的模型,嵌入一些已知的、经过筛选的数据进行微调;
  • 使用RAG,让一个经过验证的数据库,来帮助模型生成输出;

总之,就是把一些硬性事实放入模型之中。

>>该看的

WWDC 2024

苹果做了10几年的计算器终于做好了,效果感觉确实不错,就像平常打草稿一样,能很好地进行头脑风暴。同时,这里还有一个开源的类似于苹果的计算器仓库

域名转让成了赌博网站

最近有一名独立开发人员把自己经营多年的网站比如**du.com卖了,du在原来网站的意思是读书的“读”。

这里对域名脱敏,就不引流的,可能这也是买家希望看到的。

本来以为又是一个独立开发成功的经历,但结果是买家看重了这个域名的名称以及其自带的流量,转眼就改造成了**du(赌).com,这里就是赌博的“赌”了。

前几个月还看到一篇文章--备案过的域名过期后没管,竟被博彩网站接管了,这种危害更大,就是用自己的备案信息给别人违法...

所以,在处理域名时,小心为上吧!

DockerHub镜像国内安装更困难了

近期,不少DockerHub镜像被封禁了,甚至安装docker服务也变得很困难了。

>>好用的

手绘风格的无限画布

一个小众、开源、但也很不错的无限画布“djmjs”(和excalidraw类似的手绘风格)

功能如下:

  • 💡 智能形状(脚本、约束、扩展属性)
  • 🔧无头组件(React)
  • 📑多页支持
  • 👥实时协作
  • 🎨深色模式(自适应颜色)
  • 📸导出图像、JSON
  • 🔤富文本

免费可商用的icon与矢量图网站

又一个赛博菩萨级别的网站!40000+优质icon,以及1500+矢量插图,支持SVG、PNG格式的下载。

关键是:免费且可用于商用!!!炸裂了~

一个真实物理交互的进度条

气泡随鼠标拖动进度条时,会出现一个甩动效果,还挺有意思。

开源的截图软件Flameshot

  • 可定制外观
  • 易于使用
  • 应用内截图编辑,编辑套件丰富 - DBus 接口
  • 上传到 Imgur

(相对于pixpin的劣势在于没有OCR识别,但毕竟是开源的,开源的咱都支持,还可以魔改一些地方玩玩)

25款免费可商用的书法字体

其他效果演示:

很有意思,只是没有简体的。

几个独立开发者导航站

这是我近期逛社区发现的推友们开发的导航站点,都非常不错,收集了不少好用的工具、网站等!

吴恩达推出的translation-agent

翻译代理人:使用反思工作流的主体性翻译

这是一个 Python 演示,展示了机器翻译的反射代理工作流程。步骤:

  1. 提示一个LLM将文本从 source_language 翻译到 target_language ;
  2. 让LLM反思翻译,提出建设性建议以改进它;
  3. 使用建议来改进翻译。

>>有趣的

探索世界各地森林的声音

这里还有一份更全的世界各地的声音,感兴趣的也可以瞧瞧。

马斯克调侃苹果发布会

WWDC 2024召开后,由于苹果也是用的openai的服务,所以马斯克发了这样一张图:

>>可读的

好的代码很少被阅读

编写代码时的目标是尽可能少地阅读它。这听起来可能有些反直觉,但如果您的代码非常易于使用,不需要深入理解就能使用,那么它就是好代码。它应该结构良好,命名得当,以至于其目的和功能立即显而易见。这样可以最大程度地减少他人阅读和解释代码的需要,使他们能够更有效地使用它。

Github Copilot的十个功能

速查表:

  1. 工作空间代理
  2. 提问代码问题
  3. 补全剩余代码
  4. 代码重构与改进
  5. 修复错误与警告
  6. 生成单元测试用例
  7. 生成提交消息
  8. 语言翻译
  9. 重命名建议
  10. VSCode代理

看看有没有你不知道的,有的话就可以点进文章瞧瞧,增加编码效率!

markdown的快速简易指南

一份非常适合新手入门markdown语法的教程。

设计一个乐高天文钟

如何成为更好的软件工程领导者

Prompt 高级技巧:借助伪代码精准的控制 LLM 的输出结果和定义其执行逻辑

Prompt 的本质是一种对 LLM 的控制指令,那么我们可以不必局限于传统自然语言描述的方式写 Prompt,还可以借助伪代码(pseudocode)来精准的控制 LLM 的输出结果和定义其执行逻辑。