优享资讯 | Linux 一社区封杀大模型代码！“shit”7次出现在小作文，网友：此举非常明智！

InfoQ 推荐 ( ) • 2024-04-18 15:51

Linux 一社区封杀大模型代码！“shit”7次出现在小作文，网友：此举非常明智！

Gentoo Linux发行版已经正式叫停由AI生成及辅助编写的代码贡献。

4 月 14 日，Gentoo 理事会一致通过了一项新的 AI 政策：明令禁止向 Gentoo 提供任何借助 AI 自然语言处理工具创建的内容。如果此类工具不涉及版权、道德和质量问题，则可重新讨论这一动议。

这项政策限制了 Gentoo 代码贡献与官方 Gentoo 项目，但并不禁止为 AI 相关软件或上游借助 AI 工具开发的软件添加软件包。

Gentoo Linux是一种Linux操作系统，基于Portage包管理系统，而拥有几乎无限制的适应性特性，被官方称作元发行版（meta-distribution）。Gentoo理事会是专门管理该Linux发行版的民选委员会。

禁止AI代码贡献最初是由Gentoo理事会成员Michał Górny于2月27日提出的建议。他在邮件里表示：

鉴于近来“AI”泡沫的迅速蔓延，Gentoo Linux项目组也开始认真考虑由此带来的相关问题。在我看来，目前唯一合理的行动方针就是彻底禁止由“AI”创作的项目贡献。具体来讲，应明确禁止人们使用ChatGPT、Bard、GitHub Copilot等创建Gentoo Linux所使用的ebuild、代码、文档、消息及错误报告等。需要澄清一点，这里讨论的仅为Gentoo Linux项目的“原创”内容；对于上游项目使用AI技术的行为，我们无法干涉。理由如下： 1. 版权问题。目前，生成内容的版权归属仍不够明确。而且可以肯定的是，几乎所有大语言模型都接受过大量版权保护素材的训练，而当前在市面上具有知名度的各“AI”厂商显然并不关心版权侵犯问题。而这些AI工具的生成结果，很可能根本无法为我们所合法使用。 2. 质量问题。大语言模型特别擅长输出看似合理的废话。我认为只要足够小心，大模型确实能够提供有效帮助，但也不可能指望Gentoo Linux项目的所有贡献者都具备敏锐的风险意识。 3. 道德问题。如前所述，“AI”厂商既不关心版权，也不关心人的权益。AI泡沫正在造成巨大的能源浪费，这又反过来成为裁员和进一步剥削IT从业者的借口。AI技术正在推动互联网内容的垃圾化，如今各种垃圾邮件及欺诈内容正又以前所未有的速度涌现。 Gentoo始终拥有自己的价值判断，希望为那些缺少主流发行版可用的人们提供支持。我认为由“真人纯手工开发”将成为Gentoo Linux项目的一大特色和优势，同时也将制定适当政策以确保不会有垃圾内容（英文原文为“shit”）流入项目。

Michał Górny 还在邮件里列出了AI垃圾内容示例链接，在链接的示例中，出现了很多描述错误：

来源：https://github.com/pkgxdev/pantry/issues/5358"

除了禁止提交AI生成的代码之外，Górny还希望Gentoo能为整个Linux社区做出其他独特的贡献。

Górny在采访中表示，“我认为这正好是个宣传项目的好机会。目前很多项目都热衷于采用AI，而我发现Gentoo的很多用户其实更欣赏传统的软件工程方法，就是说人要比‘生产力’更重要。”

此番禁令属于提前防范，Gentoo社区中并未出现由AI生成代码引发的具体问题。Górny解释称，“我们是在采取早期预防措施。”

AI 被全面禁止，但后续可能放开

版权无疑正成为AI模型领域的一个长期挑战。这些模型大多在训练期间使用到受版权保护的素材，就连英伟达都面临着起诉纠纷。此外，众所周知，AI会生成各种无意义的文本和代码，甚至有人观察到其会出于“幻觉”而输出整个软件包。

该委员会最初于3月10日在预定的月度会议上讨论了Górny的禁令提议。但由于禁令的具体条款尚未确定，因此多位理事会成员希望讨论更多细节，且暂时不采取实际行动。该禁令最终在4月14日的理事会会议上颁布，会议以6比0票数通过，只有一名成员因故缺席投票。

Górny表示，“我的个人观点是，我们才刚刚开始关注这个议题。等到禁令实际公布并与广大用户见面时，应该会有更多用户反馈供我们参考。”

Gentoo社区还讨论了在电子邮件线程与IRC聊天室中剔除AI的潜在禁令。Górny指出，大家一致认为应当实施“某些限制”。随着禁令的全面生效，未来可能会有更多Gentoo社区成员分享自己对于AI技术的观点。

当然，这项禁令的执行也将充满挑战，毕竟区分真人编写的代码与机器生成的代码并非易事。在Górny看来，禁令的最大意义并不在于实际效果。

他提到，“我们的主要目标是要明确哪些行为可以接受、哪些不行不能接受，同时礼貌地要求贡献者们尊重社区规范。”具体来讲，AI禁令主要是对现行版权保护代码规则的延伸。

Górny补充称，“如果我们收到的贡献中包含‘怪异’的错误，那这种错误似乎不可能由人为引发。我们会就此提出问题，而且恐怕也只能做到这个程度了。”

值得一提的是，该项禁令中明确包含相关条款，规定未来政策内容可进行重新审查，这反映了部分理事会成员的前瞻性关注。董事会成员Sam James表示，“事情可能会在一年之间发生重大变化，当然也可能原地踏步，这个没人能够准确预测。”

该理事会已经预见到了未来可能出现的情况，并考虑在必要时向AI敞开大门，利用Gentoo代码作为素材训练相应的模型。这在理论上既能消除对版权侵犯问题的担忧，也将带来质量更高的代码。

网友：明智！

“看了链接线程后，我完全同意 Gentoo 的观点。”这是Hacker News 上的热门评论。有网友跟帖称，“帖子里内容真是让我难以置信，人们怎么会认为自动生成的无意义描述会比根本不描述更好？”

“抛弃毫无意义的描述是非常明智的，尝试制定某种政策来预防也是明智的。”有网友表示。人们确实已经厌倦了大模型的废话。像Górny就在2月27日的原文邮件里，7 次使用了“shit”一词，虽然被有些网友说他有些情绪化，但也可以看出他对大模型问题的反感。

当然，也有人认为“禁止 LLM 内容”是一种错误的努力。“如果你想确保代码的质量，则应该专注于确保代码审查和合并过程更彻底，能更有效地过滤低于标准的贡献，而不是浪费时间来尝试执行根本无法执行的策略，这只会给人一种虚假的信任感和安全感。”网友Tooster表示，这是一种合理的担忧，但也应该是在组织层面解决的问题。

而对于大模型和版权的讨论，大多数都围绕着“学习意味着什么”这一核心问题。简单来说就是：人脑记忆学习不侵犯版权，那么算法抓取学习侵犯版权吗？Gentoo 的禁用公告让人们再次讨论起这个话题。

有网友认为，“公平的是，任何人都不能逐字使用复制的版权代码，无论是通过人类记忆某些内容还是通过计算机复制它。”但禁止人类、AI或其他智能体学习互联网上的自由共享代码学习，违背了开源精神。

人类通过阅读代码学习并不侵犯版权（通过某种方式将知识复制到人的大脑中），但通过处理从 GitHub 等公共资源抓取的代码标记来学习的深度学习算法，却不具有同样的明显性。“人脑难道是一种版权洗白机器？”网友“zdimension ”提出疑问。他认为算法抓取学习，也是一种学习行为，不应该被禁止，但他不否认这样做的后果，“我们已经看到 GPT 民主化带来了很多不好的结果。”

事实表明，这个问题还是无解。

反观 Linux 操作系统的创始人、开源运动的领导者 Linus Torvalds，却是对这个问题很乐观。Torvalds 曾在今年2月份的访谈中表示，不把大型语言模型当作一种威胁，而是一种有益的工具。像审查代码、维护子系统就是大模型可以大显身手的一个领域，可以发现那些明显的愚蠢错误。

“我们大多数人的工作方式，其实在某种程度上都是强效版的自动校正。我把它当作一个可以帮助我们做得更好的工具。”Torvalds说道。他也不为人工智能的炒作所困扰，而是坚持自己对低层次硬件的热情。

对于大模型幻觉和错误内容，Torvalds也很乐观，“我每天都看到没有大型语言模型的情况下也会出现的错误。所以我可能不太担心这个问题。我觉得我们自己已经做得不错了。”想到他时不时会为社区里提交的一些错误发飙，也就不难理解他的说法了。

参考链接：

https://projects.gentoo.org/council/meeting-logs/20240414.txt"

https://www.mail-archive.com/[email protected]/msg99042.html"

https://news.ycombinator.com/item?id=40038372"

https://www.theregister.com/2024/04/16/gentoo_linux_ai_ban/"

https://www.infoq.cn/article/dEMW7egksha9r6laMTim?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search"