最近都在讲的个人知识库，其背后的技术原理是什么？

@via 24/03/2025

个人知识库最近成了热门话题，但你知道这背后有哪些技术在支撑吗？

1、上传文档，文档的分块技术

当你把一份文档（比如一本PDF或Word文件）上传到个人知识库时，第一步就是要把这个“大块头”切成小块，这就是文档分块技术。

常见的几种分块方法包括：

以按语义分块为例，它背后用到了自然语言处理（NLP）的技术，核心是语义相似度。具体过程是这样的：

这样，每个小块就是一个独立的“知识单元”，为后面的处理打好基础。

分好块后，下一步是对这些小块文本进行向量化处理，然后存起来。

向量化就是把文字变成一串数字（向量），这串数字能反映文字的语义。意思相近的文本，向量也“长得像”。比如，“猫喜欢吃鱼”和“狗喜欢吃骨头”转成向量后，它们在某些维度上会很接近，因为都跟“宠物饮食”有关。

向量化靠的是预训练语言模型，比如BERT或GPT。这些模型在海量文本上训练过，能理解语言的深层含义。你把一个小块文本丢给它，它就吐出一个向量。比如：

这些向量会被存到向量数据库里，比如FAISS或Pinecone。为什么要用向量数据库呢？因为普通数据库只能存文字或数字，而向量数据库能高效存储和检索这些语义向量。它的厉害之处在于：

简单说，向量数据库就像一个超级聪明的“语义搜索引擎”。

RAG（Retrieval-Augmented Generation，检索增强生成）是个人知识库的核心技术。它让AI在回答问题时，不只靠自己脑子里的“老知识”，还能从你的知识库里实时找资料，生成更准确、更贴合你需求的回答。

RAG的流程分两步：

检索（Retrieval）：
- 你提一个问题，系统先把问题转成向量。
- 在向量数据库里，找到与问题向量最相似的几个文本块，这些就是最相关的“知识片段”。
生成（Generation）：
- 把检索到的文本块和问题一起喂给大模型（比如DeepSe ek）。
- 大模型根据这些信息，生成一个流畅的回答。

打个比方，RAG就像一个助理，先翻书找到答案，再用自己的话讲给你听。

到了这一步，大模型（DeepSeek）拿到问题和检索到的文本块后，开始“开工”：

个人知识库之所以这么强大，靠的就是这几步技术：