LangChain系列之如何使用LangChain4j构建RAG应用2
bigegpt 2025-06-18 19:15 2 浏览
<<<<书接上文
配置嵌入存储
嵌入存储(Embedding Store)是 RAG 应用的知识库,所有的向量嵌入及其相关元数据都会存储在这里。下面,我们来添加一个方法,并在主方法中调用它:
private static EmbeddingStore<TextSegment> createEmbeddingStore(MongoClient mongoClient) {
String databaseName = "rag_app";
String collectionName = "embeddings";
String indexName = "embedding";
Long maxResultRatio = 10L;
CreateCollectionOptions createCollectionOptions = new CreateCollectionOptions();
Bson filter = null;
Set<String> metadataFields = new HashSet<>();
IndexMapping indexMapping = new IndexMapping(1536, metadataFields);
Boolean createIndex = true;
return new MongoDbEmbeddingStore(
mongoClient,
databaseName,
collectionName,
indexName,
maxResultRatio,
createCollectionOptions,
filter,
indexMapping,
createIndex
);
}
让我们来研究一下我们设置的各个参数:
- 数据库名称(databaseName):我们指定 "rag_app" 作为存储嵌入数据的数据库名称。你可以根据你的应用需求自行更改这个名称。
- 集合名称(collectionName):集合 "embeddings" 将用于存放嵌入数据及其元数据。在 MongoDB 中,集合相当于关系型数据库中的表。
- 索引名称(indexName):"embedding"
- 索引用于实现高效的向量搜索操作。该索引对于基于相似度评分快速检索非常关键。
- 最大结果比例(maxResultRatio):定义在检索过程中返回的最大结果数量,用于保持返回结果的可管理性。
- 创建集合选项(createCollectionOptions)
- 可以在此自定义创建集合时的选项。例如,你可以配置特定的验证规则或分片键(shard key)。
- 过滤器(filter):目前设置为null,但你可以根据需要为特定的检索操作定义自定义的过滤条件。
- 元数据字段(metadataFields):一组可以与嵌入数据一起建立索引的元数据字段名称,使搜索功能更丰富,支持基于向量相似度和元数据的联合查询。
- 索引映射(indexMapping):用于映射嵌入向量的维度(例如 OpenAI 的 text-embedding-ada-002 模型为 1536 维),确保与所使用的向量模型兼容。
- 创建索引(createIndex):当设置为 true 时,该标志会自动创建用于向量搜索所需的索引。
在主方法中,我们调用该方法并将结果赋值给一个 EmbeddingStore 实例:
package com.mongodb;
public class LangChainRagApp {
public static void main(String[] args) {
try {
// MongoDB setup
MongoClient mongoClient = MongoClients.create("CONNECTION_URI");
// Embedding Store
EmbeddingStore<TextSegment> embeddingStore = createEmbeddingStore(mongoClient);
} catch (Exception e) {
e.printStackTrace();
}
}
}
这个 embeddingStore 现在已经准备好用于存储、检索和管理我们的嵌入数据。
创建嵌入模型
嵌入模型是将原始文本转换为数值表示(即嵌入)的引擎。这些嵌入是数据的高维表示,能够捕捉文本的语义含义,是在检索增强生成(RAG)应用中进行相似度搜索的基础。
在本节中,我们使用 OpenAI 的 text-embedding-ada-002 模型来设置一个嵌入模型。为了配置这个嵌入模型,我们使用了LangChain4J提供的OpenAiEmbeddingModel构建器,它封装了与 OpenAI API 交互的复杂细节。以下是具体的实现方式:
package com.mongodb;
public class LangChainRagApp {
public static void main(String[] args) {
try {
// ...
// Embedding Model setup
OpenAiEmbeddingModel embeddingModel = OpenAiEmbeddingModel.builder()
.apiKey("OPEN_AI_API_KEY")
.modelName(OpenAiEmbeddingModelName.TEXT_EMBEDDING_ADA_002)
.build();
} catch (Exception e) {
e.printStackTrace();
}
}
}
// ...
- API密钥(apiKey):该密钥用于访问OpenAI的服务。请将
- "OPEN_AI_API_KEY" 替换为你实际的 OpenAI API 密钥。
- 模型名称(modelName):我们指定使用 OpenAiEmbeddingModelName.TEXT_EMBEDDING_ADA_002。该模型具有以下特点:
- 高维度(1536 维):能够捕捉丰富的语义信息。
- 通用型嵌入向量:适用于多种嵌入任务,如文档检索、聚类和分类等。
配置我们的聊天模型
在检索增强生成(RAG)应用中,聊天模型充当对话引擎的角色。它根据用户的查询和检索到的内容生成具备上下文感知、类人风格的回复。
在本教程中,我们使用 OpenAI 的 GPT-4 来配置聊天模型(当然也可以选择其他 AI 模型),并通过 LangChain4J 简洁直观的 API 实现这一过程。
package com.mongodb;
public class LangChainRagApp {
public static void main(String[] args) {
try {
// ...
// Chat Model setup
ChatLanguageModel chatModel = OpenAiChatModel.builder()
.apiKey("OPEN_AI_API_KEY")
.modelName("gpt-4")
.build();
} catch (Exception e) {
e.printStackTrace();
}
}
}
// ...
就像之前一样,这里也需要替换 API 密钥。同时,我们还需要指定使用的模型名称。
在 RAG(检索增强生成)流程中,聊天模型是回答用户查询的核心组件:
- 检索相关内容:嵌入存储会根据用户的查询检索相关的文档。
- 生成响应:聊天模型利用检索到的内容作为上下文,生成详细且准确的回答。
例如,对于如下查询:
“Atlas 的向量检索是如何工作的?”
系统会从 MongoDB 的向量存储中检索出与 Atlas 向量检索相关的嵌入内容,然后 GPT-4 会基于这些上下文生成回复。
如何加载我们的数据
我们将加载一份可以从 MongoDB 的 Hugging Face 页面下载的数据。这是一组大约 600 篇来自 MongoDB Developer Center 的文章和教程集合。
我们需要将这个文件放入项目的 resources 文件夹中。
接下来,我们需要编写一个名为 loadJsonDocuments 的方法来处理数据加载的逻辑。该方法负责:
- 读取 JSON 文件;
- 提取相关内容(如标题、正文、元数据);
- 将内容拆分为更小的片段,以便进行嵌入处理。
private static List<TextSegment> loadJsonDocuments(String resourcePath, int maxTokensPerChunk, int overlapTokens) throws IOException {
List<TextSegment> textSegments = new ArrayList<>();
// Load file from resources using the ClassLoader
InputStream inputStream = LangChainRagApp.class.getClassLoader().getResourceAsStream(resourcePath);
if (inputStream == null) {
throw new FileNotFoundException("Resource not found: " + resourcePath);
}
// Jackson ObjectMapper
ObjectMapper objectMapper = new ObjectMapper();
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
// Batch size for processing
int batchSize = 500; // Adjust batch size as needed
List<Document> batch = new ArrayList<>();
String line;
while ((line = reader.readLine()) != null) {
JsonNode jsonNode = objectMapper.readTree(line);
String title = jsonNode.path("title").asText(null);
String body = jsonNode.path("body").asText(null);
JsonNode metadataNode = jsonNode.path("metadata");
if (body != null) {
String text = (title != null ? title + "\n\n" + body : body);
Metadata metadata = new Metadata();
if (metadataNode != null && metadataNode.isObject()) {
Iterator<String> fieldNames = metadataNode.fieldNames();
while (fieldNames.hasNext()) {
String fieldName = fieldNames.next();
metadata.put(fieldName, metadataNode.path(fieldName).asText());
}
}
Document document = Document.from(text, metadata);
batch.add(document);
// If batch size is reached, process the batch
if (batch.size() >= batchSize) {
textSegments.addAll(splitIntoChunks(batch, maxTokensPerChunk, overlapTokens));
batch.clear();
}
}
}
// Process remaining documents in the last batch
if (!batch.isEmpty()) {
textSegments.addAll(splitIntoChunks(batch, maxTokensPerChunk, overlapTokens));
}
return textSegments;
}
文档需要被拆分成更小的片段,以满足嵌入模型的 token 限制。我们通过调用 splitIntoChunks 方法来实现这一点。在这里,我们使用 LangChain4j 提供的工具 —— DocumentSplitter,它可以将文档划分为易于处理的小片段,同时尽量保留原始上下文的信息。这种方式既保证了每段文本能够顺利进行向量化处理,又不会丢失语义上的连续性,是构建高质量检索系统的重要一环。
private static List<TextSegment> splitIntoChunks(List<Document> documents, int maxTokensPerChunk, int overlapTokens) {
// Create a tokenizer for OpenAI
OpenAiTokenizer tokenizer = new OpenAiTokenizer(OpenAiEmbeddingModelName.TEXT_EMBEDDING_ADA_002);
// Create a recursive document splitter with the specified token size and overlap
DocumentSplitter splitter = DocumentSplitters.recursive(
maxTokensPerChunk,
overlapTokens,
tokenizer
);
List<TextSegment> allSegments = new ArrayList<>();
for (Document document : documents) {
List<TextSegment> segments = splitter.split(document);
allSegments.addAll(segments);
}
return allSegments;
}
参数说明
- maxTokensPerChunk:每个文本片段允许的最大 token 数量。这个设置确保每段文本都符合嵌入模型的 token 限制。
- overlapTokens:相邻片段之间的重叠 token 数量。通过设置重叠,可以在划分片段时更好地保留上下文信息,避免语义断裂。
接下来,把这些整合进主方法中主方法将协调整个流程,包括:
- 加载数据:读取并处理原始 JSON 数据;
- 嵌入生成:将文本拆分后传入嵌入模型,生成向量表示;
- 存储嵌入:将生成的向量及其相关信息保存到嵌入存储中(embedding store)。
package com.mongodb;
public class LangChainRagApp {
public static void main(String[] args) {
try {
// ...
// Load documents
String resourcePath = "devcenter-content-snapshot.2024-05-20.json";
List<TextSegment> documents = loadJsonDocuments(resourcePath, 800, 200);
System.out.println("Loaded " + documents.size() + " documents");
for (int i = 0; i < documents.size()/10; i++) {
TextSegment segment = documents.get(i);
Embedding embedding = embeddingModel.embed(segment.text()).content();
embeddingStore.add(embedding, segment);
}
System.out.println("Stored embeddings");
} catch (Exception e) {
e.printStackTrace();
}
}
}
我在代码里添加了一些注释,方便我们跟踪数据导入的进度。同时,我调整了只加载前 10% 的文档。因为我之前尝试加载整个数据集时,慢速网络环境下花了 30 多分钟。
你可以根据实际情况自行调整这个比例——导入的数据越多,模型的回答通常越准确。
>>>> 未完,下一章节继续
相关推荐
- 悠悠万事,吃饭为大(悠悠万事吃饭为大,什么意思)
-
新媒体编辑:杜岷赵蕾初审:程秀娟审核:汤小俊审签:周星...
- 高铁扒门事件升级版!婚宴上‘冲喜’老人团:我们抢的是社会资源
-
凌晨两点改方案时,突然收到婚庆团队发来的视频——胶东某酒店宴会厅,三个穿大红棉袄的中年妇女跟敢死队似的往前冲,眼瞅着就要扑到新娘的高额钻石项链上。要不是门口小伙及时阻拦,这婚礼造型团队熬了三个月的方案...
- 微服务架构实战:商家管理后台与sso设计,SSO客户端设计
-
SSO客户端设计下面通过模块merchant-security对SSO客户端安全认证部分的实现进行封装,以便各个接入SSO的客户端应用进行引用。安全认证的项目管理配置SSO客户端安全认证的项目管理使...
- 还在为 Spring Boot 配置类加载机制困惑?一文为你彻底解惑
-
在当今微服务架构盛行、项目复杂度不断攀升的开发环境下,SpringBoot作为Java后端开发的主流框架,无疑是我们手中的得力武器。然而,当我们在享受其自动配置带来的便捷时,是否曾被配置类加载...
- Seata源码—6.Seata AT模式的数据源代理二
-
大纲1.Seata的Resource资源接口源码2.Seata数据源连接池代理的实现源码3.Client向Server发起注册RM的源码4.Client向Server注册RM时的交互源码5.数据源连接...
- 30分钟了解K8S(30分钟了解微积分)
-
微服务演进方向o面向分布式设计(Distribution):容器、微服务、API驱动的开发;o面向配置设计(Configuration):一个镜像,多个环境配置;o面向韧性设计(Resista...
- SpringBoot条件化配置(@Conditional)全面解析与实战指南
-
一、条件化配置基础概念1.1什么是条件化配置条件化配置是Spring框架提供的一种基于特定条件来决定是否注册Bean或加载配置的机制。在SpringBoot中,这一机制通过@Conditional...
- 一招解决所有依赖冲突(克服依赖)
-
背景介绍最近遇到了这样一个问题,我们有一个jar包common-tool,作为基础工具包,被各个项目在引用。突然某一天发现日志很多报错。一看是NoSuchMethodError,意思是Dis...
- 你读过Mybatis的源码?说说它用到了几种设计模式
-
学习设计模式时,很多人都有类似的困扰——明明概念背得滚瓜烂熟,一到写代码就完全想不起来怎么用。就像学了一堆游泳技巧,却从没下过水实践,很难真正掌握。其实理解一个知识点,就像看立体模型,单角度观察总...
- golang对接阿里云私有Bucket上传图片、授权访问图片
-
1、为什么要设置私有bucket公共读写:互联网上任何用户都可以对该Bucket内的文件进行访问,并且向该Bucket写入数据。这有可能造成您数据的外泄以及费用激增,若被人恶意写入违法信息还可...
- spring中的资源的加载(spring加载原理)
-
最近在网上看到有人问@ContextConfiguration("classpath:/bean.xml")中除了classpath这种还有其他的写法么,看他的意思是想从本地文件...
- Android资源使用(android资源文件)
-
Android资源管理机制在Android的开发中,需要使用到各式各样的资源,这些资源往往是一些静态资源,比如位图,颜色,布局定义,用户界面使用到的字符串,动画等。这些资源统统放在项目的res/独立子...
- 如何深度理解mybatis?(如何深度理解康乐服务质量管理的5个维度)
-
深度自定义mybatis回顾mybatis的操作的核心步骤编写核心类SqlSessionFacotryBuild进行解析配置文件深度分析解析SqlSessionFacotryBuild干的核心工作编写...
- @Autowired与@Resource原理知识点详解
-
springIOCAOP的不多做赘述了,说下IOC:SpringIOC解决的是对象管理和对象依赖的问题,IOC容器可以理解为一个对象工厂,我们都把该对象交给工厂,工厂管理这些对象的创建以及依赖关系...
- java的redis连接工具篇(java redis client)
-
在Java里,有不少用于连接Redis的工具,下面为你介绍一些主流的工具及其特点:JedisJedis是Redis官方推荐的Java连接工具,它提供了全面的Redis命令支持,且...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)