轻松构建聊天机器人、准确性新SOTA，RAG有了更强大的AI检索器

日期：2024-12-23 作者：xhb273511 评论：0 移动：http://w.yusign.com/mobile/news/1287.html

核心提示：黄志恒拥有爱丁堡大学博士和加州大学伯克利博士后研究经历。志恒曾在微软、百度、Facebook、腾讯和亚马逊等 IT 公司工作。志恒在

黄志恒拥有爱丁堡大学博士和加州大学伯克利博士后研究经历。志恒曾在微软、百度、Facebook、腾讯和亚马逊等 IT 公司工作。志恒在亚马逊 AWS 担任首席科学家领导了 Amazon Kendra 和 Amazon Q。志恒现在是 Denser.ai 的创始人。截至 2024 年 5 月，Google Scholar 引用次数超过 13,300 次。

李万钧是一位资深全栈工程师，同时具备设计师和运维工程师的专长。他曾在多个大型项目中担任核心工程师和架构师，拥有丰富的实战经验。目前在 denser.ai 担任全栈工程师，专注于将 AI 技术深度融合到软件开发的各个阶段。

检索增强生成 (RAG) 是将检索模型与生成模型结合起来，以提高生成内容的质量和相关性的一种有效的方法。RAG 的核心思想是利用大量文档或知识库来获取相关信息。各种工具支持 RAG，包括 Langchain 和 LlamaIndex。

AI Retriever 是 RAG 框架的基础，确保 AI 应用中的准确和无缝体验。Retriever 大致分为两类：关键词搜索和向量搜索。关键词搜索依赖于关键词匹配，而向量搜索则关注语义相似性。流行的工具包括用于关键词搜索的 Elasticsearch 和用于向量搜索的 Milvus、Chroma 和 Pinecone。

在大语言模型时代，从工程师和科学家到市场营销等各个领域的专业人士，都热衷于开发 RAG AI 应用原型。像 Langchain 这样的工具对此过程至关重要。例如，用户可以使用 Langhian 和 Chroma 快速构建一个用于法律文档分析的 RAG 应用。

本文中，DenserAI 团队推出的 Denser Retriever 在快速原型设计方面表现突出。用户可以通过一个简单的 Docker Compose 命令快速安装 Denser Retriever 及其所需工具。Denser Retriever 不仅仅止步于此，它还提供了自托管解决方案，支持企业级生产环境的部署。

此外，Denser Retriever 在 MTEB 检索数据集上提供了全面的检索基准测试，以确保部署中的最高准确性。用户不仅可以享受 Denser Retriever 的易用性，还可以享受其最先进的准确性。

Denser Retriever 能做什么？

Denser Retriever 的初始版本提供了以下功能：

为什么选择 Denser Retriever？

在这篇博客中，我们将展示如何安装 Denser Retriever，从文本文件或网页页面构建检索索引，并在此索引上进行查询。

由于篇幅限制，本文不会涵盖更多高级主题，如使用自定义数据集训练 Denser Retriever、在 MTEB 基准数据集上进行评估以及创建端到端 AI 应用（如聊天机器人）。有兴趣的用户可参考以下资源获取这些高级主题的信息。

设置

安装 Denser Retriever

我们使用 Poetry 安装和管理 Denser Retriever 包。在仓库根目录下使用以下命令安装 Denser Retriever。

更多细节可以在 DEVELOPMENT 文档中找到：https://github.com/denser-org/denser-retriever/blob/main/DEVELOPMENT.md

安装 Elasticsearch 和 Milvus

运行 Denser Retriever 需要 Elasticsearch 和 Milvus，它们分别支持关键词搜索和向量搜索。我们按照以下指示在本地计算机（例如，您的笔记本电脑）上安装 Elasticsearch 和 Milvus。

要求：docker 和 docker compose，它们都包含在 Docker Desktop 中，适用于 Mac 或 Windows 用户。

索引和查询用例

在索引和查询用例中，用户提供一组文档，如文本文件或网页，以构建检索器。然后用户可以查询该检索器以从提供的文档中获取相关结果。此用例的代码可在 index_and_query_from_docs.py 中找到。

代码地址：https://github.com/denser-org/denser-retriever/blob/main/experiments/index_and_query_from_docs.py

要运行此示例，请导航到 denser-retriever 仓库并执行以下命令：

如果运行成功，我们预期会看到类似以下的输出。

在接下来的部分中，我们将解释其中的基础过程和机制。

概述

下图说明了 Denser Retriever 的结构，它由三个组件组成：

配置文件

我们在以下 yam 文件中配置上述三个组件。大多数参数是不言自明的。关键字、向量、重排序的部分分别配置 Elasticsearch、Milvus 和重排序器。

我们使用 combine: model 通过一个 xgboost 模型（experiments/models/msmarco_xgb_es+vs+rr_n.json）来结合 Elasticsearch、Milvus 和重排序器，该模型是使用 mteb msmarco 数据集训练的（参见训练配方了解如何训练这样的模型）。

除了模型组合，我们还可以使用线性或排名来结合 Elasticsearch、Milvus 和重排序器。在 MTEB 数据集上的实验表明，模型组合可以显著提高准确性，优于线性或排名方法。

一些参数，例如 es_ingest_passage_bs，仅在训练 xgboost 模型时使用（即查询阶段不需要）。

生成 passages (段落)

我们现在描述如何从给定的文本文件（state_of_the_union.txt）构建一个检索器。以下代码显示如何读取文本文件，将文件分割成文本块并将其保存为 jsonl 文件（passages.jsonl）。

passages.jsonl 中的每一行都是一个段落，包含 source、title、text 和 pid（段落 ID）字段。

构建 Denser 检索器

我们可以使用给定的 passages.jsonl 和 experiments/config_local.yaml 配置文件来构建 Denser 检索器。

查询 Denser 检索器

我们可以简单地使用以下代码来查询检索器以获得相关段落。

每个返回的段落都会接收一个置信分数，以指示它与给定查询的相关性。我们得到类似以下的结果。

将所有内容整合在一起

我们将所有代码整合如下。代码也可在 repo 中找到。

从网页构建检索器

与上述方法类似，除了段落语料库的生成。index_and_query_from_webpage.py 源代码可以在这里找到。

要运行这个用例，请进入 denser-retriever repo 并运行：

poetry run python experiments/index_and_query_from_webpage.py

如果成功，我们预计会看到类似以下的内容。

进一步阅读

由于篇幅限制，我们在这篇博客中未包括以下主题。

Denser Retriever文档：https://retriever.denser.ai/docs

转载请联系本公众号获得授权

本文地址：http://w.yusign.com/news/1287.html 述古往 http://w.yusign.com/static/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

资讯

点击排行

• 竞价排名网络广告模式亟须严管	• 诗歌本 ios直接下载
• 智能电视／投影本地播放器哪款好用？这五款亲测	• 高度内卷的游戏云生意，如何做到“两年翻两倍”
• 项目解决方案：视频监控AI智能分析和识别系统设	• 福州茉莉花茶：福建十大名茶排行榜中的无冕之王
• 盘点刷装备的手机游戏大全2024 好玩的刷装备游	• 群晖生态系统优势解析：硬件与DSM软件的完美共
• 畜牧兽医主要收录哪些类型的论文？	• 可视化容器管理工具-portainer.io使用