优享资讯 | 大模型未来发展：RAG vs 长文本，谁更胜一筹？

资讯-虎嗅网 ( ) • 2024-04-19 09:13

本文来自微信公众号：质朴发言（ID：zhipufayan），作者：主持：严宽、zR，整理：崔浩、Yizheng、严宽、郑寒、汪柯璇，审核：李文珏、邓瑞恒‍‍‍‍，题图来自：视觉中国

本文讨论了大模型在未来发展中的两种方向：长文本和RAG。长文本模型具有处理多轮对话和复杂问题的能力，而RAG方法则在信息检索方面更具优势。文章还分享了产业界和学术界对于长上下文和RAG的看法，并探讨了它们在AI应用中的作用。

• 💪 随着大模型上下文窗口长度的增加，长文本模型在处理复杂问题和多轮对话方面表现出色。

• 💡 RAG方法在信息检索方面成本更低，因此大部分公司倾向于使用RAG进行信息检索。

• 🌐 长文本和RAG各有所长，长文本模型能处理长上下文的相互依赖关系，而RAG更擅长辅助模型获取背景知识。

当前，AIGC的迭代速度正以指数级的速度增长。2024 年 2 月，谷歌发布的 Gemini 1.5 Pro 再次将上下文刷新为 100 万 token，创下了最长上下文窗口的纪录，相当于 1 小时的视频或者 70 万个单词。

由于 Gemini 在处理长上下文方面表现出色，甚至有人高喊“RAG 已死”。爱丁堡大学博士付尧表示：“一个拥有 1000 万 token 上下文窗口的大模型击败了 RAG。

大语言模型已经是非常强大的检索器，那么为什么还要花时间构建一个弱小的检索器，并将时间花在解决分块、嵌入和索引问题上呢？”随着模型上下文长度的提升，一个问题也逐渐显现：RAG技术是否会被取代？

针对这些问题，我们邀请了产业界和学术界的朋友们共同碰撞思想，交流观点。他们分享了关于长上下文和 RAG 的看法，并对上下文长度是否存在摩尔定律展开了精彩讨论。同时，投资人与产业从业者也分享了长上下文及 RAG 如何赋能 AI 应用。

一、长文本 & RAG 发展近况

1. 长文本发展近况

随着大模型上下文窗口长度不断增加，各个厂商对于文本生成模型呈现出“军备竞赛”的态势。

目前，主流的文本生成模型是聊天模型，比如GPT、Claude 3 等，也有少部分 Base 模型，例如 Yi-34 开源模型。

两位技术研究人员分享了他们对于大模型的看法：

用户使用最多的是 GPT，但对外开放的版本性能较差，用户交互端无法传输大文件，只能通过 API 接口上传。
月之暗面的 Kimi 模型大海捞针测试分数很高，但实际使用效果没有达到理想状态。
百川 192K 的闭源模型，对于 6 万字的长文本，其表现的推理能力和回答效果很优秀。
各种长文本的跑分数据，最高的是 Claude 3 模型。‍

2. RAG 发展近况

目前，大部分公司倾向于使用 RAG 方法进行信息检索，因为相比长文本的使用成本，使用向量数据库的成本更低。

而在 RAG 应用过程中，一些公司会使用微调的 Embedding Model，以增强 RAG 的检索能力；而有些公司会选择使用知识图谱或者 ES 等非向量数据库的 RAG 方法。

一个正常的模型使用 RAG 仍然是当前的主流选择。

由于大语言模型信息的滞后性以及不包含业务知识的特点，我们经常需要外挂知识库来协助大模型解决一些问题。

在外挂知识库的过程中，Embedding 模型的召回效果直接影响大模型的回答效果，因此，在许多场景下，我们都需要微调 Embedding 模型来提高召回效果。

来自马里兰大学、劳伦斯利弗莫尔国家实验室、纽约大学的研究学者提出了一个大模型微调的方法；‍

在微调时只需要简单地在 Embedding 层上加随机噪声，即可大幅度提升微调模型的对话能力，而且也不会削弱模型的推理能力。

用 Alpaca 微调 LLaMA-2-7B 可以在 AlpacaEval 上取得 29.79% 的表现，而用加了噪声的嵌入则提高到 64.69%。不过该工作只在较小的模型上进行微调。

二、RAG vs 长文本，谁更胜一筹？

1. 观点一：RAG 与长文本各有所长

人们普遍认为将文本切片，然后进行相应的检索是最节省资源的方式。但因为检索是速度检索，受到阈值的影响，可能要多次反复检索，反而会造成一些 token 消耗的问题。

在多轮对话过程中，特别是在金融分析和客服场景，需要使用长文本来解决问题。如果进行切片处理，可能会丢失上下文之间的相互依赖关系。

对于大模型厂商，选择长文本或者 RAG 应该考虑哪种方式最节省 token。

一位投资人分享了一个项目：国内有一个做代码生成工具的公司，相比仅仅生成代码，他们更注重软件工程。

因为 GitHub 或 Copilot 生成代码分析和代码片段的能力已经很完美，国内真正需要解决的是能够围绕多个指标进行策略生成；

以操作系统为例，当我们想在操作系统中增加 AI 助手时，大模型不仅能实现底层部署，还能生成交互界面。

这种生成能力依赖于向模型输入的数据规模，可能涉及到的代码量会达到百万行甚至千万行。如果仍然使用比较原始的一次性输入方式，可能会遇到很多问题。

对此，这位投资人分享了两个观点：

长文本是一种智力能力。拥有一个更好的上下文窗口，可以更好地解决代码的相互依赖和逻辑性问题。
‍如果只是用 RAG 方式去分段代码，然后再连接起来，再分段提问，是无法满足需求的。
RAG 更像是能力的边界。如果只使用上下文窗口，而没有好好利用 RAG 基于检索的方式，很难解决同一个代码工程在多个模块，或者在多个功能上的问题。
‍只能解决比较局部的问题，无法处理多个模块之间的相互关联，例如进行联调测试，而合理使用 RAG 辅助可以拓展模型的知识边界。

对上述观点解释、拓展一下：

长文本是一种智力能力：从认知科学的角度看，人类处理长文本信息的能力是高级智力的体现。
阅读理解一本小说，写作一篇论文，都需要在大脑中维护一个宏大的上下文，同时进行逻辑推理、情节关联等复杂的认知活动。
这种能力区别于对简单句子或短语的机械处理。对语言模型而言，长文本建模能力意味着更强的抽象和归纳能力。
RAG更像是能力的边界：RAG 通过检索相关片段来辅助生成，在一定程度上弥补了语言模型在长文本建模上的不足。
‍它提供了一种即时获取背景知识的机制，减轻了模型的记忆负担，但它并不能取代模型本身的语言理解和推理能力。

针对代码生成，研究人员分享了一个最新技术：Task Weaver。Task Weaver 是微软的框架，用 GPT 的一个常规模型来完成的。

本质是把一个复杂任务拆成很多小部分，然后再把每个小部分再去做 code intervention，中间用代码的形式来交互。

在每一个小部分里面，开始套各种模板。这种用在长文本的话，可以解决掉内容丢失的问题。但是这个模型上下文不长，超过 8K 就结束了。

特别是它里面有个 Tools 叫 RAG，它占用上下文很大，每次调用 Tools，就会把 RAG 里面的东西全部抛进来，RAG 会作为一个 Tools 的 Observation 返回给 Agent。

之后，把整个 Agent 的结果成为下一个 RAG 的内容，在下一次 Agent 的时候再套，再把这个记录套回去。如果长文本技术的发展提升，Agent 上限可能会提高。

TaskWeaver 是一款代码优先的 Agent 框架，能将用户的自然语言请求转化为可执行代码，并支持海量数据结构、动态插件选择以及专业领域适应的规划过程。

作为开源框架，TaskWeaver 充分发挥了大语言模型的潜力，通过可定制的示例和插件融入特定领域知识，让用户能够轻松打造个性化虚拟助手。TaskWeaver 项目已在 GitHub 上开源，并于发布当日登上 GitHub 趋势榜。

2. 观点二：长文本将取代 RAG

引用付尧的观点，即长文本正在取代 RAG。长文本相比于 RAG 在解码过程中检索具有明显的优越性。

爱丁堡大学博士付尧在评价Gemini 1.5 Pro 的帖子中写道：

“一个有 1000 万 token 上下文窗口的大模型击败了 RAG。LLM 已是强大的检索器，那为什么还构建一个弱小的检索器并花时间在解决分块、嵌入和索引问题上呢？”

他表示，1000 万 token 上下文杀死了 RAG。（Twitter地址：https://twitter.com/Francis_YAO_/status/1758934303655030929）

虽然当前上下文模型的计算成本很高，上下文窗口的消耗成本和时间消耗是非线性增长的，但有人认为未来可能会有更好的方式来重复利用缓存，从而释放压力。

从 AI 的历史发展来看，现有模型的成本能降低 90%，RAG 可能会从现在的 50% 的应用场景缩减到 10%。

编者按：在大规模语言模型中，重复利用缓存是一种优化策略，旨在提高模型的推理效率和速度。

它的基本思路是：将模型在处理长文本时生成的中间结果（如隐藏状态、注意力矩阵等）存储在缓存中；

当遇到相似的上下文时，直接从缓存中读取这些中间结果，而不是重新计算。比较常见的是Key-Value Cache、Hidden State Cache 等。

对于长文本替代RAG，有人提出了一个很有意思的 idea：如果有一个无限长的上下文模型，直接将 wiki 里面所有的文本和相关信息全部输入，然后再去问问题。

实际上就相当于大模型直接做 RAG，不需要有任何外部的知识库，再去进行上游检索。模型的推理成本是个门槛，即模型输入的信息越多，模型推理的时间越长，成本越高。

但依旧存在可行的解决方案，即信息压缩：交给 RAG 或在线数据库处理的信息，本质上是可以被压缩的。

比如检查 GitHub 里的 Star 数量或者 wiki 上的访问量、贡献的数量等，都是可以被压缩的，进而转化为结构化的信息。

但此方法的前提条件是，需要找出哪些数据真的可以被压缩，并且它的压缩失真情况在接受的范围内。

3. 观点三：RAG 和长文本分工已经明确，不存在争议空间

对于一些严肃的场景中，如法规条文、保险或教育等，RAG 可以更好解决的问题。在进行向量化的初期，开发者设计的就是认为里面的内容是法定正确的；

或者至少为大模型提供向量数据库时，我们认为这些是客观事实，不应该对这些事实进行歪曲或改变。

如果将其交给大模型的幻觉或者概率去判断，实际上可能会出现问题。如果完全依赖长文本，结果一定是不准确的。

对于多轮对话的场景，RAG 能解决的问题并不是很清晰。如客服场景，很多大模型会出现与它对话的时候，会做一些后端的成本精简，不需要动用全部算力来解答一个问题。

如果反复去确认，要给一个真实答案，这个时候只能交给长文本去解决这个问题，而 RAG 只是去把它向量化。

此外，对于软件工程领域，涉及到代码的补全、翻译或重构时，输入 token 会非常大，只交给滑动窗口去处理，会存在理解的障碍。

编者按：Devin 是全球首个 AI 软件工程师，由公司 Cognition 推出。它有全栈技能，包括开发工具集，如 shell、代码编辑器、沙箱浏览器等，并能用它们来高效编程。

Devin 在经过长期的推理训练后，能够规划并完成复杂的任务，包括构建和部署应用程序、自主查找并修复 Bug、训练和微调自己的 AI 模型等。不过最近 Devin 又被曝光造假，震撼了整个硅谷。

4. 观点四：长文本和 RAG 需要结合

RAG的特点是准确、事实性和时效性。用 RAG 的方式，可以将原有系统的元素变成多维标签，甚至将系统本身做成一个端到端的向量，或是一个标签化的端到端的实体，以防信息损失。

但如果只用 RAG 的方法去做模型，可能在多轮对话后，它就不知道说什么了。长上下文在解决问题时，是一个泛化和上下文理解的过程，要避免信息丢失。

长文本和RAG 都比较依赖于上游检索的输出。如果大模型对上下文的容纳程度比较低，那对检索的要求就更高，必须把最重要的信息检索出来。

但是，如果大模型可以接受更多的上下文，那么对检索的要求就相对降低，而对数据准备的要求就会相对提高。

对于大模型厂商来说，无论是做大模型基座还是其他，未来最终都是要转向消费端。只有当消费端起来之后，大模型才可能有一个大的爆发。

从消费端来看，一般考虑的是成本性能、泛化能力以及信息丢失。在消费端应用的场景下，最终是希望成本越来越低，性能越来越快，泛化能力越来越强。

如果不能接受信息损失，需要在系统里面投入更高的 RAG 成本。
如果只是进行角色扮演，或者是给出一个笼统的回答，那么长文本比较合适。

长文本和RAG 的结合更像是一种趋势，在输入大模型之前，我们不仅可以通过向量库去做文本检索；

还可以通过一些 function 去获取更多的文本来做集中的召回，通过大模型做能力整合再做 RAG。长上下文能够代表所有情况，但 RAG 系统仍然会存在。

以大模型基座为例，我们觉得它最终在市场上的竞争方向有两个：

长文本
性能越来越好，可以远程部署

5. 观点五：RAG 是大模型发展的中间态，短期内长文本无法替代 RAG

无论是传统还是新架构，不断扩大模型的处理长度后，其性能必然会有所损失。目前的大模型而言，可能较合适的处理窗口是 4K 到 8K，因为预训练是在这个长度范围内。

RAG 相当于我们把模型的存储扩展到了无限，我们要做的是把有用的、最重要的信息给大模型。

因此，RAG 一定是很重要的，只不过它未来可能会有多种形态，不一定是现在这种大模型和向量检索分开的形态，它的形态可能会有所不同。

但是，这种通过一些方法提前对信息进行精炼和提取的思想，一定会在大模型的发展中长期发挥重要的作用。

长文本处理和RAG 这两个技术会共同发展。对长文本处理已经有一些优化的方法。比如，通过微调的方法把训练的参数量已经提升到了十亿或者是百亿；

在推理上的话，减少长文本的处理开销也有一些优化方法，比如 MIT 的韩松实验室有一个 Streaming LLM 的方法，可以识别出长文本中哪些是重点的 Context 或者 Token；‍

然后保留这些部分和最近的一些信息，可以进行推理长度的优化，从而降低推理的成本。

除了长文本处理在不断进步之外，RAG 最近也有很多新的技术，未来可能会结合 agent，在其他方面提高模型解决具体实际问题的能力。

来自MIT、Meta AI、CMU 的研究者提出了一种名为 Streaming LLM 的方法，使语言模型能够流畅地处理无穷无尽的文本。

使用 StreamingLLM，包括 Llama-2- 7/13/70B、MPT- 7/30B 在内的模型可以可靠地模拟 400 万个 token，甚至更多。

与唯一可行的 baseline——重新计算滑动窗口相比，StreamingLLM 的速度提高了 22.2 倍，而没有损耗性能。

以目前的推理成本来看，RAG 必不可少，可能会隐藏在产品里。比如说网易的逆水寒，它里面做了很多 AI 的具体应用，比如 NPC 对话。

MiniMax 的模型有一个功能叫做 Glyph，它可以去控制模型输出的结果，可以标准化它的格式，对于很多场景来说，它的推理是非常有帮助的。

逆水寒：《逆水寒》手游中的智能 NPC 系统，是利用网易伏羲 AI 技术，实装了国内首个游戏 GPT。这是一种基于深度学习的自然语言生成模型，可以根据上下文和输入，生成合理的文本输出。在游戏中，这意味着 NPC 不再是固定的对话框和任务分配者，而是可以与玩家自由对话，并且基于对话内容，自主给出有逻辑的行为反馈。

MiniMax 的限制返回格式（glyph）：该功能可以帮助用户强制要求模型按照配置的固定格式返回内容。

三、上下文长度是否存在摩尔定律？

1. 观点一：存在

目前，上下文长度正在持续增长，并且其增长速度远超摩尔定律。如果按照 18 个月翻倍的标准来计算，从之前的几百万、几千万，到现在达到十兆；

上下文长度在一年内的变化就已经远远翻倍。这种增长速度本身就已经打破了摩尔定律所描述的增长曲线。

随着上下文长度的增长，算力将成为一个瓶颈。当所有的推理和训练任务都转移到处理上下文时，我们会发现仍然需要大量的能源。

以前可能只需要一张 A100 显卡，而现在可能需要一整台 A100 服务器才能完成任务。从产业界的角度来看，无论是算力还是能源，都会限制其增长速度。

因此，在考虑上下文长度增长的同时，还需要考虑到成本和资源限制的问题。

近日，Kimi 智能助手在长上下文窗口技术上再次取得突破，无损上下文长度提升了一个数量级到 200 万字。

从模型预训练到对齐、推理环节月之暗面均有原生的重新设计和开发。月之暗面认为，大模型无损上下文长度的数量级提升，也会扩大对 AI 应用场景的想象力。

包括完整代码库的分析理解、可以自主帮人类完成多步骤复杂任务的智能体 Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等等。

月之暗面创始人杨植麟表示：“上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。”

2. 观点二：不存在

上下文的增长是包含了各个单元之间的逻辑关系，其复杂度的增长会高于计算能力的增长。

而且，现在大模型还是有非常多问题的，即使是顶尖的大型模型，在应用于工业产品时，也需要将需求范围缩小到非常具体的领域。

当需求被高度收敛时，相应的用户需求也会减小，这可能导致一种螺旋下降的趋势：投资减少，进一步导致研究和开发的动力减弱。

针对观点二拓展一下：

应用价值的不确定性：上下文长度的增加能带来多大的应用价值提升，还缺乏足够的实证支撑。
一些研究表明，过长的上下文能引入噪音，对模型性能的提升效果并不明显。如果投入产出不成正比，继续增加上下文长度的动力会减弱。
数据质量的瓶颈制约：高质量的长文本数据是上下文长度增长的基础，但现有的数据质量普遍不高，噪音、错误、不一致等问题严重。
数据瓶颈可能成为上下文长度增长的羁绊，单纯增加上下文长度而不解决数据问题，效果可能适得其反。

3. 观点三：不确定

摩尔定律是基于一段时间技术积累后观察到的规律，需要大量的资本投入和成本控制来驱动。

对于大模型和 RAG 这类技术，业界目前可能还处于探索阶段，从时间窗口来看还非常短暂，仅仅一两年的时间，并且没有大规模投入到特定场景中应用；

因此还没有足够的数据来进行经验总结。从这个角度来看，与晶体管发展的摩尔定律相比，上下文长度的增长规律还不够成熟。

四、模型层：大模型如何优化？如何有效对大模型测试？

1. 优化数据质量

在训练模型的时候，数据量并不是越大越好。真正重要的是训练数据的质量，而不仅仅是数量。使用 RAG 进行搜索的过程中，当数据量大了以后，它匹配出来的结果可能会有很多冗余。

比如，我们去搜索一个新的领域，不知道哪些文章是最好的，如果搜索出了 100 篇，不可能让模型全部去处理，需要加一些权重；

比如，文章的影响因子，或者是它的引用率、引用次数等，把这些因素考虑进去，然后对结果进行排序。

但这涉及到一些问题，有些优秀的文章并不一定引用率很高，特别是在一些特定的领域，它们可能引用的文章也相对较少。针对此问题，研究人员提出了一些想法：

学科的交叉会使得大模型效果更好。对于学科交叉的问题，最好的解决办法既不是依赖于长文本处理，也不是 RAG，而是微调。
‍在训练模型的过程中，我们需要考虑如何控制在各个大的领域里进行搜索。我们现在面临的是海量的文献，不可能把所有的数据都加进去，还需要人工智能来辅助。
‍现在面临的一个挑战，不仅要深度学习，还要广度学习，而且还要控制好搜索的范围，否则成本就会急剧上升。
我们的平台每天都有大量的科研数据，包括用户的行为数据和点赞数据等，这些数据对我们来说非常有用，当我们将这些数据纳入训练时，效果就非常明显。
‍所以现在的挑战是如何检索出大量的文本，并从中筛选出真正有价值的信息，将其他的信息过滤掉，然后再将这些信息放入模型中。
在应用层面，包括成本和产品质量，问题的核心在于是否需要数据的可靠性。如果要可靠的数据，就要使用 Agent。如果数据可以压缩或者有损，需要考虑其他的方法。

2. 节省计算资源

现在大部分模型，即使是长文本模型，在反向传播阶段，从第一步到最后一步文本窗口不可能一直保持很长。

一定是在最后的时候去解决这个问题，以节约计算资源。在科研中，我们接触到的预训练阶段的长度是 4K 或 8K。

学术界也有人提出，我们应该尽量让一个窗口内的数据尽可能相似，即在一个窗口或者一个数据条中，数据应该是相似的主题或内容。从论文来看，这可能对预训练有好处。

3. 大海捞针是否是唯一？

目前主流测试还是靠大海捞针，现在有一些新的测试，提出了一个更加复杂的大海捞针 Benchmark。

从产品侧，需要看受众端的用户。来自教育产品的从业者分享其观点：我们试过把哈利·波特做成一个鲜活的角色，帮助用户了解哈利·波特的内容。

但家长对于内容的真实性和准确性要求是很高的，我们的产品无法达到他们的要求，所以这个方案就暂时搁置了。

对于非家长的产品，用户直接面向小孩，这种精确度就比较适合孩子体验。所以，从应用侧来讲，测试大模型需要考虑受众端的内容。

来自情感陪伴的从业者分享观点：我们较关注用户的使用时长、满意度、分页系数等，对于不同的模型，我们直接进行AB 测试，哪个测试高，我们就会选择这个模型。

编者按：

目前大海捞针广泛用于长文本测试，这种方法并不完全合理，尤其是对于需要检索多个事实并在此基础上进行推理的应用。

对此，研究人员提出了多针检索加推理测试，通过扩展 Greg Kamradt 的“LLMTest_NeedleInAHaystack”项目，以支持多针评估，评估工具使用了 LangSmith 。

五、长文本及 RAG 在大模型场景落地时的角色

1. 投资人的看法

投资人目前关注内存的增长。内存的增大使任务或应用有了更丰富的展现，从以前玩的简单游戏，到现在复杂的 3A 大作，上下文窗口的提升肯定能提升整个应用的能力。

RAG的外挂知识库可能是很重要的资产。有些人会把 RAG 或者留存下来的外挂知识库看作是没有长期价值的资产。

‍有些人认为 RAG 里面会留存下来一些有价值的东西，例如，对于某些客户或某一类行业的客户，会在库里面封装一些客户业务逻辑的知识。

‍将来去服务这一类客户，或者满足这个客户的长期需求的过程中，无论用哪个模型，这个模型是无法知道这些私密、个人化的信息或路径的。

‍这一部分对于公司将来能持续在这一类行业里面的交付能力，是有长期价值的。投资人会评估哪种行业能够留存下这方面的东西。‍比如代码生成能力，在不断地积累人和代码生成的监督过程中，RAG 里面留存下来的信息可以持续帮助到模型。

2. 情感陪伴

一位情感陪伴行业的从业者分享了他的观点：我们认为 RAG 是对 Long-Context 的补充，特别是对外部知识的补充。

如果没有 RAG，每次都需要将知识输入到上下文中，但上下文的长度有限，而且 Token 的使用也要成本。因此，RAG 可以使上下文的内容更丰富，同时节省成本。

在情感陪伴方面，为了让人物更加细腻，我们通常会使用prompt 来解决问题。在面向消费者的应用层面，将上下文和 RAG 结合在一起是每个人在情感上最需要的。

对于情感陪伴来说，回忆是非常重要的。如果能让上下文和 RAG 结合，直接作为大脑使用，那就达到了目的。

图片和其他角度可以增加想象力，就像微信可以发送图片、视频、语音和进行语音电话一样。这些功能对于微信的发展非常重要。

对于情感应用来说，如果你可以发送图片，然后你的朋友圈下面有人可以回复，这将为用户提供很大的情绪价值。目前，Agent 聊天仍然能够明显感觉到对方不是真人。

3. 教育产品

一位教育产品领域的从业者分享了他的见解：在教育产品中，我们需要打通孩子不同年龄段的信息，以提供更有逻辑性的服务。

比如，学龄前的一个产品，它的登录是通过家长的手机端的APP，就是他的微信和手机号。目前我们只能通过标签的方式把这件事给连接起来，但这种方式是比较低效的。

会场上一位专家提供了解决思路：可以采用特定的 Agent，比如 Read Agent，来处理这个问题。

他建议将 3-6 岁和 7-12 岁儿童的信息分别存储在两个数据库中，并使用大型模型对 3-6 岁儿童的信息进行总结，然后在每次需要读取时将其放入第二个数据库。

这种方法的核心是利用数据压缩技术，以提高处理效率。

Read Agent 是由 Google DeepMind 开发的一个类似人类阅读的 LLM 智能体系统，它能将有效上下文长度扩大 3-20 倍，同时取得更高的准确率和 ROUGE 得分。

Read Agent 系统通过三个主要步骤实现：

分割成片段，根据 LLM 的提示决定在连续文本中的何处暂停，形成片段；
摘要记忆，将每个片段压缩成更短的摘要，关联上下文信息；
交互查找，在给定任务和完整的摘要记忆中，决定查找哪些片段，将摘要与原始文本结合，解决任务。

ReadAgent 系统可以通过提示经过训练的 LLM 来实现。

4. 医疗领域

在医疗领域，大模型在理解文本和图像方面表现出色，但它们在 Mapping 上存在不足，传统的 RAG 和 Embedding model 可能效果不佳。

与医疗公司建立合作关系成为一种有效的解决策略。通过合作，让医疗公司在 Embedding 的过程贡献他们的算法；

包括他们对病例的诊断，将这些信息加到 Embedding 的工具库里，这些数据的向量数大致在百万到千万之间。同时，为保证技术真正应用，需找到有实际付费能力的客户。

有研究人员发现，引入了In context learning，可以显著提升了效果。以 COVID-19 的 X 光诊断为例，我们可以先向模型展示一些样本，包括阴性和阳性病例。

先给模型看一张阳性病例的图片，然后是阴性病例的。接下来，当模型再次看到新图片并询问其是阳性或阴性时，通过学习，判断效果会比无预先学习的情况下好很多。

相比于那些已经通过人工标注训练的模型，如果能够实现 CNN 方法，它可能会比使用 RAG 方法更加经济高效。

5. 未来发展趋势

随着视频和图像时代的到来，信息传递的方式将发生显著变化，这时传统的文本编码和解码方式将不再适用。

在这个新时代，Token 不再仅仅代表一个文字，而是可能代表更复杂的信息单元，因此传统的 NLP 方法将不足以处理计算机视觉领域的问题。

在算力方面，一些公司下一代的计算芯片放弃 GPU 架构，自己有一套硬件架构做深度学习，而且性能更高，耗电量会更少。

从 2014 年至今，谷歌已经构建了 6 种不同的 TPU 芯片。虽然单体性能仍然与 H100 差距明显，但 TPU 更贴合谷歌自己生态内的系统。

这也促使 Gemini 的内容生成速度非常快，虽然精度没有那么高，但生成速度远超 GPT 和 Claude。下图以 Gemini Pro 和 Claude 3-Haik 代码生成速度为例。

您目前设备暂不支持播放
Gemini Pro 代码生成速度示例

您目前设备暂不支持播放
Claude 3-Haik 代码生成速度示例

在谷歌发布 Gemini 大模型的同时，DeepMind 团队还写了 60 页技术报告阐述 Gemini 多模态的技术原理，报告提到谷歌用 TPU v5e 和 TPU v4 来训练 Gemini。

当日，谷歌还发布了 TPU v5p，称训练速度比前代快 2.8 倍，有望帮助开发者和企业客户更快地训练大规模生成式 AI 模型。

训练大模型需要大量的计算能力，因为它们通常在包含数十亿个单词的数据集上进行训练。

传统的CPU 和 GPU 架构难以处理这种计算负载，通常会减慢训练过程并限制大模型的功能。Google TPU 专门针对矩阵乘法和二维卷积进行了优化。

据谷歌的解析 TPU v4 论文，相较用英伟达 A100 构建的超级计算机，用谷歌 TPUv4 建的超级计算机速度快 1.2-1.7 倍，功耗降低 1.3-1.9 倍。目前，谷歌超过 90% 的 AI 训练都在 TPU 上。

本文来自微信公众号：质朴发言（ID：zhipufayan），作者：主持：严宽、zR，整理：崔浩、Yizheng、严宽、郑寒、汪柯璇，审核：李文珏、邓瑞恒‍‍‍‍