优享资讯 | 大模型应用（十一）一文搞懂RAG，原理，流程，最佳实践

掘金后端 ( ) • 2024-06-28 18:13

大模型应用（十一）一文搞懂RAG，原理，流程，最佳实践

highlight: androidstudio theme: smartblue

前言

最近遇到好多人和我交流RAG相关的技术，同事在说，面试在说，甚至我多年未联系的挚爱亲朋都突然来问我RAG是个啥？要怎么搞？

我印象中22年23年，讨论大模型应用，都在讲pe，rag，agent三个方向。但是随着越来越多的应用被开发出来，RAG相对另外两者稍显走弱。

我们组今年甚至几乎没有RAG相关的规划，都还在之前搭的老一套上用。

所以，一文搞懂RAG。

发展历史

懒得听我bb的请RAG论文传送门

这里贴一下发展图：

原理&流程

RAG一句话说明白：通过检索外部数据，增强大模型的生成效果

顾名思义他的流程如下：

graph LR
P[数据处理] -.-> R[检索]
R --> A[利用]
A --> G[生成]

数据预处理：是我们经常忽略的一步，一个好的效果必定依赖一个高准确的检索，而一个高准确的检索也同样依赖数据的处理。
检索：根据query按照一定策略从茫茫多的数据中找到匹配的内容。
利用 | 增强，生成：将检索到的数据利用起来，比如交给模型，扩充它的知识。

1. 数据的处理

目标是把数据变成特征

1.1 数据结构化

传统上，我们把数据分成三种：

高度结构化的数据，比如markdown，html，一些json yaml文件
半结构化的数据，比如word
低结构化的数据，pdf，html

传统数据结构化的方法是将数据先处理成文本，再进一步提取特征。比如通过一下ocr识别这样的方法。

但是，时代变了，像gpt4 这种模型支持多模态，这给我们可操作的空间就很多了。

更多的时候，我们是将广义上的模态，转变为模型可接受的狭义上的多模态。详见# 大模型应用（七）多模态和大模型是如何相互成就的。

多模态的转化策略：略，放在这里有点啰嗦，感兴趣我单开一章说。

1.2 特征提取

如果你需要提特征，请直接使用大模型embedding，下面的内容仅做了解

embedding对内容进行特征提取通常也有三种方法：对称语义，非对称，混合

1.2.1 对称语义（Symmetric Semantics）

对称语义意味着两个向量之间的相似性度量是对称的，即如果向量A和向量B的相似性是某个值，那么向量B和向量A的相似性也是同样的值。在这种情况下，两个向量之间的关系是互相的，常见的应用包括：

词向量（Word Embeddings） ：例如，Word2Vec、GloVe等模型，这些模型生成的词向量可以用于计算词语之间的相似性，通常使用余弦相似度（cosine similarity）等对称度量方式。

文档相似度：在信息检索中，文档与文档之间的相似性计算也通常是对称的。

1.2.2 非对称语义（Asymmetric Semantics）

非对称语义意味着两个向量之间的相似性度量是非对称的，即向量A和向量B的相似性可能与向量B和向量A的相似性不同。在这种情况下，两个向量之间的关系具有方向性，常见的应用包括：

问答系统（QA Systems） ：在问答系统中，问题和答案之间的关系是非对称的。一个问题对应一个特定的答案，但反过来并不一定成立。

推荐系统：在推荐系统中，用户与物品之间的关系也通常是非对称的。用户可能对某个物品有兴趣，但物品并不会对用户有兴趣。

翻译模型：在翻译模型中，源语言和目标语言之间的关系也是非对称的。一个句子从源语言翻译到目标语言，但反向翻译不一定能得到原句。

1.2.3 混合

混合结合了前两者的优点，并且通常会有instruction tuning。能够让模型理解指令。

这类的通常有：m3e,bge,gte

1.2.4 范围

踩坑。有的时候，并不是把所有的内容参与特征化，效果会更好。尤其是在生成式场景里，尤为明显。

举个例子：oncall小助手场景下，我们过往的oncall记录通常作为一个数据集。这个数据集中参与特征化的部分应该只有问题，而不是问题和答案全部参与特征化，效果会更好。

当然这个例子是有问题的，下面会说到。

1.3 关于大文本问题

受限于文件内容，对于大文本分而治之是十分有必要的。

比较常见的，有langchain中的CharacterTextSplitter和RecursiveCharacterTextSplitter，它们基于一定的规则，对文本进行分割，并且可以保留一定部分的重叠。
langchain还有固定结构的切割器，比如MarkdownTextSplitter，PythonCodeTextSplitter，HTMLHeaderTextSplitter等，用来切割固定结构的文本。
langchain中还提供了按token切割的方法SentenceTransformersTokenTextSplitter
也可以基于一定算法的文件分割：比如基于bert的中文的分割模型nlp_bert_document-segmentation_chinese-base，或者将基于NLTK的NLTKTextSplitter，再或者基于 spaCy 库的SpacyTextSplitter。

2. 检索 | 召回

当我们准备好数据后，就可以检索了

2.1 常见的检索方法

向量检索：我们将提取到的特征放到向量数据库中，在发起query时，从数据库中召回我们需要的topn内容。
关键字检索：我们不需要提特征，直接把文本放到ElasticSearch,OpenSearch这种数据库中，然后根据query的关键词进行检索，相似度可以用传统的算法计算，比如tfidf，或者knn，当然这些算法数据库本身就支持。
图数据检索：将数据按照一定关系放入ne4j,nebula等图数据库中。然后查询使用。在社交网络分析这类场景中很常用。
关系数据库检索：比如电商推荐，智能客服，或者导购数字人这种场景，会从关系型数据中检索信息。
搜索引擎：在开放域中，通常会先走搜索引擎进行信息填充。当然现在比计较流行后置的ReAct范式。

2.2 混合检索

还记得我们在传统推荐系统中，为了达到比较好的推荐效果，通常不会只用一种方法。

同样的，RAG我们也可以进行多路召回，将结果按照一定策略排序，以达到更好效果。

混合策略：略

2.3 query生成

还记得双塔模型吗，我们的query的特征生成通常需要一个复杂的机制来完成。而检索阶段通常发生在prompt拼装之前，prompt又是查询准确率的关键指标。而prompt是经常变的。这就使得传统召回的神经网络非常复杂。

我们必须简化一下这个操作。

最简单的情况：根据用户输入召回

我们直接把用户的输入作为query进行检索。通常在一些workflow的场景中非常实用。因为workflow通常处理一个固定的问题，它的输入也通常是明确的，所以直接作为query同样能够保证检索的准确率。

拼模板

我们将相关信息，比如用户画像，上下文，用户输入，prompt设定部分等，按照一定个模版格式，拼装在一起，然后特征化，再进行检索。

这种方式在虚拟社交中比较常见。

小模型生成法

拼模板有时候会带上太多不必要的信息，会加大模型幻觉。这时候我们可以用小模型进行总结，再进行检索。

那推而广之，可以用ReAct范式动态检索。不但节约了时间，还增加了准确率。

其他待补充。。。

3. 利用 | 增强 | 生成

当我们拿到检索结果后，就可以进行生成增强了。那具体怎么用那？

3.1 prompt/上下文拼接

最简单的方式，就是将检索结果直接拼接在prompt或者上线文中，直接给到大模型进行处理。

大多数的场景都可以这样处理，比如langchain的RAG链就是这种方式。

3.2 先拼接，再总结

为了减少input token的大小，可以先拼接，再总结，再发给大模型进行处理。

不过这种用法很少见，一般是把这个小模型直接做在模型层面，和大模型一起做成一个混合模型，并且会做大量的意图识别的训练。不理解为啥这样做，为了创收吗？

4. RAG场景

4.1 knowledge

RAG最常见的就是knowledge，也是我们通常理解上的RAG。

4.2 memory

memory理论上也是RAG，但是大家好像都有意将它们区分开。

4.3 意图识别

RAG在意图识别里非常非常好用。通常的做法是将检索结果作为few-shot辅助模型做cot。

4.4 ReAct

ReAct严格来说是CoT的一个优化范式，但是RAG也可以作为action用。

尾语

RAG的思想非常简单，但是实现上花样还挺多的。

具体怎么做还是要结合你的场景。

如果你有更新奇的想法，欢迎留言讨论。