百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

LangChain系列之如何使用LangChain4j构建RAG应用2

bigegpt 2025-06-18 19:15 2 浏览

<<<<书接上文

配置嵌入存储

嵌入存储(Embedding Store)是 RAG 应用的知识库,所有的向量嵌入及其相关元数据都会存储在这里。下面,我们来添加一个方法,并在主方法中调用它:

private static EmbeddingStore<TextSegment> createEmbeddingStore(MongoClient mongoClient) {
    String databaseName = "rag_app";
    String collectionName = "embeddings";
    String indexName = "embedding";
    Long maxResultRatio = 10L;
    CreateCollectionOptions createCollectionOptions = new CreateCollectionOptions();
    Bson filter = null;
    Set<String> metadataFields = new HashSet<>();
    IndexMapping indexMapping = new IndexMapping(1536, metadataFields);
    Boolean createIndex = true;
    return new MongoDbEmbeddingStore(
            mongoClient,
            databaseName,
            collectionName,
            indexName,
            maxResultRatio,
            createCollectionOptions,
            filter,
            indexMapping,
            createIndex
    );
}

让我们来研究一下我们设置的各个参数:

  • 数据库名称(databaseName):我们指定 "rag_app" 作为存储嵌入数据的数据库名称。你可以根据你的应用需求自行更改这个名称。
  • 集合名称(collectionName):集合 "embeddings" 将用于存放嵌入数据及其元数据。在 MongoDB 中,集合相当于关系型数据库中的表。
  • 索引名称(indexName):"embedding"
  • 索引用于实现高效的向量搜索操作。该索引对于基于相似度评分快速检索非常关键。
  • 最大结果比例(maxResultRatio):定义在检索过程中返回的最大结果数量,用于保持返回结果的可管理性。
  • 创建集合选项(createCollectionOptions)
  • 可以在此自定义创建集合时的选项。例如,你可以配置特定的验证规则或分片键(shard key)。
  • 过滤器(filter):目前设置为null,但你可以根据需要为特定的检索操作定义自定义的过滤条件。
  • 元数据字段(metadataFields):一组可以与嵌入数据一起建立索引的元数据字段名称,使搜索功能更丰富,支持基于向量相似度和元数据的联合查询。
  • 索引映射(indexMapping):用于映射嵌入向量的维度(例如 OpenAI 的 text-embedding-ada-002 模型为 1536 维),确保与所使用的向量模型兼容。
  • 创建索引(createIndex):当设置为 true 时,该标志会自动创建用于向量搜索所需的索引。

在主方法中,我们调用该方法并将结果赋值给一个 EmbeddingStore 实例:

package com.mongodb;  
public class LangChainRagApp {  
    public static void main(String[] args) {  
        try {  
            // MongoDB setup  
            MongoClient mongoClient = MongoClients.create("CONNECTION_URI");  
            // Embedding Store  
EmbeddingStore<TextSegment> embeddingStore = createEmbeddingStore(mongoClient);
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
    }  
}

这个 embeddingStore 现在已经准备好用于存储、检索和管理我们的嵌入数据。

创建嵌入模型

嵌入模型是将原始文本转换为数值表示(即嵌入)的引擎。这些嵌入是数据的高维表示,能够捕捉文本的语义含义,是在检索增强生成(RAG)应用中进行相似度搜索的基础。

在本节中,我们使用 OpenAI 的 text-embedding-ada-002 模型来设置一个嵌入模型。为了配置这个嵌入模型,我们使用了LangChain4J提供的OpenAiEmbeddingModel构建器,它封装了与 OpenAI API 交互的复杂细节。以下是具体的实现方式:

package com.mongodb;  
public class LangChainRagApp {  
    public static void main(String[] args) {  
        try {  
            // ...
            // Embedding Model setup  
OpenAiEmbeddingModel embeddingModel = OpenAiEmbeddingModel.builder()  
        .apiKey("OPEN_AI_API_KEY")  
        .modelName(OpenAiEmbeddingModelName.TEXT_EMBEDDING_ADA_002)  
        .build();
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
    }  
}
// ...
  • API密钥(apiKey)该密钥用于访问OpenAI的服务。请将
  • "OPEN_AI_API_KEY" 替换为你实际的 OpenAI API 密钥。
  • 模型名称(modelName):我们指定使用 OpenAiEmbeddingModelName.TEXT_EMBEDDING_ADA_002。该模型具有以下特点:
    • 高维度(1536 维):能够捕捉丰富的语义信息。
    • 通用型嵌入向量:适用于多种嵌入任务,如文档检索、聚类和分类等。

配置我们的聊天模型

在检索增强生成(RAG)应用中,聊天模型充当对话引擎的角色。它根据用户的查询和检索到的内容生成具备上下文感知、类人风格的回复。

在本教程中,我们使用 OpenAI 的 GPT-4 来配置聊天模型(当然也可以选择其他 AI 模型),并通过 LangChain4J 简洁直观的 API 实现这一过程。

package com.mongodb;  
public class LangChainRagApp {  
    public static void main(String[] args) {  
        try {  
            // ...
            // Chat Model setup
            ChatLanguageModel chatModel = OpenAiChatModel.builder()
                    .apiKey("OPEN_AI_API_KEY")
                    .modelName("gpt-4")
                    .build();
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
    }  
}
// ...

就像之前一样,这里也需要替换 API 密钥。同时,我们还需要指定使用的模型名称。

在 RAG(检索增强生成)流程中,聊天模型是回答用户查询的核心组件:

  • 检索相关内容:嵌入存储会根据用户的查询检索相关的文档。
  • 生成响应:聊天模型利用检索到的内容作为上下文,生成详细且准确的回答。

例如,对于如下查询:

“Atlas 的向量检索是如何工作的?”

系统会从 MongoDB 的向量存储中检索出与 Atlas 向量检索相关的嵌入内容,然后 GPT-4 会基于这些上下文生成回复。

如何加载我们的数据

我们将加载一份可以从 MongoDB 的 Hugging Face 页面下载的数据。这是一组大约 600 篇来自 MongoDB Developer Center 的文章和教程集合。

我们需要将这个文件放入项目的 resources 文件夹中。

接下来,我们需要编写一个名为 loadJsonDocuments 的方法来处理数据加载的逻辑。该方法负责:

  • 读取 JSON 文件;
  • 提取相关内容(如标题、正文、元数据);
  • 将内容拆分为更小的片段,以便进行嵌入处理。
private static List<TextSegment> loadJsonDocuments(String resourcePath, int maxTokensPerChunk, int overlapTokens) throws IOException {
    List<TextSegment> textSegments = new ArrayList<>();
    // Load file from resources using the ClassLoader
    InputStream inputStream = LangChainRagApp.class.getClassLoader().getResourceAsStream(resourcePath);
    if (inputStream == null) {
        throw new FileNotFoundException("Resource not found: " + resourcePath);
    }
    // Jackson ObjectMapper
    ObjectMapper objectMapper = new ObjectMapper();
    BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
    // Batch size for processing
    int batchSize = 500;  // Adjust batch size as needed
    List<Document> batch = new ArrayList<>();
    String line;
    while ((line = reader.readLine()) != null) {
        JsonNode jsonNode = objectMapper.readTree(line);
        String title = jsonNode.path("title").asText(null);
        String body = jsonNode.path("body").asText(null);
        JsonNode metadataNode = jsonNode.path("metadata");
        if (body != null) {
            String text = (title != null ? title + "\n\n" + body : body);
            Metadata metadata = new Metadata();
            if (metadataNode != null && metadataNode.isObject()) {
                Iterator<String> fieldNames = metadataNode.fieldNames();
                while (fieldNames.hasNext()) {
                    String fieldName = fieldNames.next();
                    metadata.put(fieldName, metadataNode.path(fieldName).asText());
                }
            }
            Document document = Document.from(text, metadata);
            batch.add(document);
            // If batch size is reached, process the batch
            if (batch.size() >= batchSize) {
                textSegments.addAll(splitIntoChunks(batch, maxTokensPerChunk, overlapTokens));
                batch.clear();
            }
        }
    }
    // Process remaining documents in the last batch
    if (!batch.isEmpty()) {
        textSegments.addAll(splitIntoChunks(batch, maxTokensPerChunk, overlapTokens));
    }
    return textSegments;
}

文档需要被拆分成更小的片段,以满足嵌入模型的 token 限制。我们通过调用 splitIntoChunks 方法来实现这一点。在这里,我们使用 LangChain4j 提供的工具 —— DocumentSplitter,它可以将文档划分为易于处理的小片段,同时尽量保留原始上下文的信息。这种方式既保证了每段文本能够顺利进行向量化处理,又不会丢失语义上的连续性,是构建高质量检索系统的重要一环。

private static List<TextSegment> splitIntoChunks(List<Document> documents, int maxTokensPerChunk, int overlapTokens) {  
    // Create a tokenizer for OpenAI  
    OpenAiTokenizer tokenizer = new OpenAiTokenizer(OpenAiEmbeddingModelName.TEXT_EMBEDDING_ADA_002);  
    // Create a recursive document splitter with the specified token size and overlap  
    DocumentSplitter splitter = DocumentSplitters.recursive(  
            maxTokensPerChunk,  
            overlapTokens,  
            tokenizer  
    );  
    List<TextSegment> allSegments = new ArrayList<>();  
    for (Document document : documents) {  
        List<TextSegment> segments = splitter.split(document);  
        allSegments.addAll(segments);  
    }  
    return allSegments;  
}

参数说明

  • maxTokensPerChunk:每个文本片段允许的最大 token 数量。这个设置确保每段文本都符合嵌入模型的 token 限制。
  • overlapTokens:相邻片段之间的重叠 token 数量。通过设置重叠,可以在划分片段时更好地保留上下文信息,避免语义断裂。

接下来,把这些整合进主方法中主方法将协调整个流程,包括:

  1. 加载数据:读取并处理原始 JSON 数据;
  2. 嵌入生成:将文本拆分后传入嵌入模型,生成向量表示;
  3. 存储嵌入:将生成的向量及其相关信息保存到嵌入存储中(embedding store)。
package com.mongodb;  
public class LangChainRagApp {  
    public static void main(String[] args) {  
        try {  
            // ...
            // Load documents
            String resourcePath = "devcenter-content-snapshot.2024-05-20.json";
            List<TextSegment> documents = loadJsonDocuments(resourcePath, 800, 200);
            System.out.println("Loaded " + documents.size() + " documents");
            for (int i = 0; i < documents.size()/10; i++) {
                TextSegment segment = documents.get(i);
                Embedding embedding = embeddingModel.embed(segment.text()).content();
                embeddingStore.add(embedding, segment);
            }
            System.out.println("Stored embeddings");
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
    }  
}

我在代码里添加了一些注释,方便我们跟踪数据导入的进度。同时,我调整了只加载前 10% 的文档。因为我之前尝试加载整个数据集时,慢速网络环境下花了 30 多分钟。

你可以根据实际情况自行调整这个比例——导入的数据越多,模型的回答通常越准确。

>>>> 未完,下一章节继续

相关推荐

悠悠万事,吃饭为大(悠悠万事吃饭为大,什么意思)

新媒体编辑:杜岷赵蕾初审:程秀娟审核:汤小俊审签:周星...

高铁扒门事件升级版!婚宴上‘冲喜’老人团:我们抢的是社会资源

凌晨两点改方案时,突然收到婚庆团队发来的视频——胶东某酒店宴会厅,三个穿大红棉袄的中年妇女跟敢死队似的往前冲,眼瞅着就要扑到新娘的高额钻石项链上。要不是门口小伙及时阻拦,这婚礼造型团队熬了三个月的方案...

微服务架构实战:商家管理后台与sso设计,SSO客户端设计

SSO客户端设计下面通过模块merchant-security对SSO客户端安全认证部分的实现进行封装,以便各个接入SSO的客户端应用进行引用。安全认证的项目管理配置SSO客户端安全认证的项目管理使...

还在为 Spring Boot 配置类加载机制困惑?一文为你彻底解惑

在当今微服务架构盛行、项目复杂度不断攀升的开发环境下,SpringBoot作为Java后端开发的主流框架,无疑是我们手中的得力武器。然而,当我们在享受其自动配置带来的便捷时,是否曾被配置类加载...

Seata源码—6.Seata AT模式的数据源代理二

大纲1.Seata的Resource资源接口源码2.Seata数据源连接池代理的实现源码3.Client向Server发起注册RM的源码4.Client向Server注册RM时的交互源码5.数据源连接...

30分钟了解K8S(30分钟了解微积分)

微服务演进方向o面向分布式设计(Distribution):容器、微服务、API驱动的开发;o面向配置设计(Configuration):一个镜像,多个环境配置;o面向韧性设计(Resista...

SpringBoot条件化配置(@Conditional)全面解析与实战指南

一、条件化配置基础概念1.1什么是条件化配置条件化配置是Spring框架提供的一种基于特定条件来决定是否注册Bean或加载配置的机制。在SpringBoot中,这一机制通过@Conditional...

一招解决所有依赖冲突(克服依赖)

背景介绍最近遇到了这样一个问题,我们有一个jar包common-tool,作为基础工具包,被各个项目在引用。突然某一天发现日志很多报错。一看是NoSuchMethodError,意思是Dis...

你读过Mybatis的源码?说说它用到了几种设计模式

学习设计模式时,很多人都有类似的困扰——明明概念背得滚瓜烂熟,一到写代码就完全想不起来怎么用。就像学了一堆游泳技巧,却从没下过水实践,很难真正掌握。其实理解一个知识点,就像看立体模型,单角度观察总...

golang对接阿里云私有Bucket上传图片、授权访问图片

1、为什么要设置私有bucket公共读写:互联网上任何用户都可以对该Bucket内的文件进行访问,并且向该Bucket写入数据。这有可能造成您数据的外泄以及费用激增,若被人恶意写入违法信息还可...

spring中的资源的加载(spring加载原理)

最近在网上看到有人问@ContextConfiguration("classpath:/bean.xml")中除了classpath这种还有其他的写法么,看他的意思是想从本地文件...

Android资源使用(android资源文件)

Android资源管理机制在Android的开发中,需要使用到各式各样的资源,这些资源往往是一些静态资源,比如位图,颜色,布局定义,用户界面使用到的字符串,动画等。这些资源统统放在项目的res/独立子...

如何深度理解mybatis?(如何深度理解康乐服务质量管理的5个维度)

深度自定义mybatis回顾mybatis的操作的核心步骤编写核心类SqlSessionFacotryBuild进行解析配置文件深度分析解析SqlSessionFacotryBuild干的核心工作编写...

@Autowired与@Resource原理知识点详解

springIOCAOP的不多做赘述了,说下IOC:SpringIOC解决的是对象管理和对象依赖的问题,IOC容器可以理解为一个对象工厂,我们都把该对象交给工厂,工厂管理这些对象的创建以及依赖关系...

java的redis连接工具篇(java redis client)

在Java里,有不少用于连接Redis的工具,下面为你介绍一些主流的工具及其特点:JedisJedis是Redis官方推荐的Java连接工具,它提供了全面的Redis命令支持,且...