本系列记录大模型 (LLMs) 以及 RAG 项目背景下的问答提取工程化相关背景、理论、技术与实践,分 3 篇(即基础入门、技术综述、项目与实践),本文是第 2 篇,主要是技术路线综述。
问答提取(QA Extract)核心机制包括问题理解、信息检索和答案抽取。主要技术路线有抽取式 QA、多选式 QA、生成式 QA 和基于知识图谱的 QA。
最新技术框架包括生成-检索框架、抽取式问答系统、开放式和封闭式生成问答系统以及基于深度学习的技术。在问答提取中,最好是有效利用知识图谱。
抽取式 QA 和生成式 QA 各有优缺点,前者准确性高、效率高,但局限性大;后者灵活性强、适应性强,但准确性和资源消耗是挑战。双匹配焦点融合模型通过问题理解和答案生成,结合特征融合和模型训练,提升问答提取的准确率和召回率。
QA 提取的原理机制
-
问题理解:在这阶段,系统要充分理解用户的提问意图。这通常涉及对问题进行语法分析、命名实体识别和语义角色标注等步骤,以识别问题中的关键信息和上下文。
-
信息检索:基于对问题的理解,系统会从数据库、知识库或互联网上检索相关信息。这可能使用搜索引擎技术,通过构建查询语句来获取相关文档或段落。
-
答案抽取:在信息检索之后,系统会从检索到的文档中提取出可能的答案。这一步骤可能涉及机器阅读理解(MRC)技术,通过边界预测来确定答案片段的起始和结束位置。
主要技术路线
-
抽取式 QA:这类型的 QA 直接从上下文中提取答案。例如,使用 BERT 等预训练模型,通过 Transformer 和注意力机制来获得文档与问题的向量表示,并通过边界预测来确定答案片段。
-
多选式 QA:在这种模式下,系统会提供多个答案选项,并选择最合适的答案。这类似于阅读理解的选择题形式。
-
生成式 QA:基于生成式模型(如 GPT 系列),无需明确上下文,模型可以生成自由格式的答案。
基于知识图谱的 QA(KG-QA):这种方法利用知识图谱来提取答案。它首先提取问题表示,然后从知识图中选择候选集并生成答案表示,最后设计相似性分数函数来衡量问题与候选答案之间的相关性。
基于深度学习的 QA 系统:这些系统通常采用大模型架构,结合自然语言处理和知识检索技术。前端架构包括用户查询解析与关键词提取,后端架构则涉及数据解析与结构化、索引构建与优化检索。
QBTE(问题偏见术语提取):这是一种新的多语言 QA 方法,直接从问题中提取答案,不受问题类型限制。该方法通过机器学习技术从训练数据中自动构建 QA 组件。
双匹配焦点融合模型:该模型通过对同一问题的不同候选答案打分,寻找与问题最匹配的答案。它通过引入注意力机制来融合词级与句子级的匹配焦点,提高答案的相关性得分。
问答提取中最新的技术框架有哪些?
主要包括以下几种:
-
生成-检索框架(Generate-then-Retrieve Framework):
- ChatKBQA 是一种新型的生成再检索 KBQA 框架,它结合了微调的大型语言模型(如 Llama-2、ChatGLM2 和 Baichuan2)来生成逻辑形式,并通过无监督的检索方法进行实体和关系的替换,从而提升生成和检索的效果。
-
抽取式问答系统:
- 抽取式问答系统由检索模块、数据库和解析模块构成,通过检索与问题相对应的嵌入向量,找到最相似的文档中的答案。这种方法可以使用 Transformer 模型等复杂模型进行向量化处理。
-
开放式生成问答系统:
- 开放式生成问答采用内容生成模块而非信息解析组件,答案基于问题和文本段落中提供的信息生成。生成模型如 GPT 用于生成答案。此外,检索增强式生成(RAG)技术也受到关注,它在处理多个知识领域时,通过识别给定查询最相关的知识领域,执行不同的操作,如使用特定领域的向量数据库进行检索。
-
封闭式生成问答系统:
- 封闭式生成问答仅利用问题中的信息生成答案,无需接触任何外部信息。这种系统缩短了处理时间,但需要足够强大的生成器来生成恰当的答案。
-
基于深度学习的问答技术:
- 深度神经网络在语言表示学习上展现出巨大潜力,为问答系统提供了新的解决方案。卷积神经网络(CNN)和循环神经网络(RNN)在问答领域的表现尤为突出,能够捕捉到文本之间的细致语义匹配模式,从而提高问答系统的准确性和实用性。
如何在问答提取中有效利用知识图谱?
可以从以下几个方面进行:
-
构建知识图谱:首先需要构建一个全面且准确的知识图谱。这可以通过从多源数据中收集信息,并使用知识抽取技术如信息抽取和实体链接来实现。知识图谱的构建可以使用 或 等图数据库,并通过 工具导入 RDF 数据。
-
自然语言处理(NLP) :利用 NLP 技术对用户输入的问题进行处理,包括实体识别、意图识别及槽位填充。这些步骤有助于从问题中提取关键信息,并为后续查询提供基础。深度学习模型如 Transformer、BERT、RoBERTa 等可以用于文本表示和分类。
-
问题解析与查询执行:将自然语言问题转换为结构化查询语句,如 SPARQL 或 Cypher 查询语言,以便在知识图谱中进行高效检索。查询转换算法和优化技术可以提高查询的效率和准确性。
-
答案生成与展示:根据查询结果生成自然语言答案,并通过模板引擎和前端框架展示给用户。信息抽取技术可以从知识图谱中提取答案,而自然语言生成模型则用于生成流畅自然的回答。
-
系统评估与优化:使用评估指标和用户反馈收集工具,进行 A/B 测试比较不同模型效果,并通过机器学习模型调优技术优化性能。
-
持续更新与维护:定期更新知识图谱数据以保持信息最新性,并使用在线学习技术持续优化 NLP 模型和问答系统性能。
抽取式 QA 和生成式 QA 在实际应用中的优缺点是什么?
抽取式问答(QA)和生成式问答在实际应用中各有优缺点。
抽取式 QA 的优缺点:
优点:
- 准确性高:抽取式 QA 通过从文档中直接提取答案,因此能够提供非常精确的答案。
- 效率高:由于不需要生成新的内容,抽取式 QA 通常比生成式 QA 更快,适合需要快速响应的应用场景。
- 资源消耗低:抽取式 QA 主要依赖于已有的数据集,因此在计算资源和存储需求上相对较低。
缺点:
- 局限性:抽取式 QA 只能从给定的文本中提取信息,无法处理开放式问题或需要推理的问题。
- 对上下文依赖强:抽取式 QA 需要精确的上下文匹配,如果问题与答案不完全一致,可能会导致错误的结果。
- 缺乏灵活性:抽取式 QA 在处理复杂问题时可能不够灵活,因为其答案必须严格存在于提供的文本中。
生成式 QA 的优缺点:
优点:
- 灵活性强:生成式 QA 能够根据输入的问题生成新的答案,适用于开放式问题和需要推理的任务。
- 适应性强:生成式 QA 可以处理各种类型的问题,并且能够提供更全面的信息。
- 创新性:生成式 QA 能够结合最新的知识和趋势,提供创新性的回答。
缺点:
- 准确性问题:生成式 QA 生成的答案可能不够准确,尤其是在缺乏足够训练数据的情况下。
- 资源消耗大:生成式 QA 需要大量的计算资源和训练数据,这使得其在某些情况下可能不如抽取式 QA 经济高效。
- 偏见风险:生成式 QA 可能受到训练数据中的偏见影响,需要进行严格的偏见分析和数据清洗以确保结果的公正性。
小结
抽取式 QA 适合需要高准确性和快速响应的应用场景,而生成式 QA 则更适合处理复杂问题和开放式问题。
双匹配焦点融合模型在问答提取中的具体实现方式和效果评估
双匹配焦点融合模型在问答提取中的具体实现方式和效果评估可以从以下几个方面进行详细分析:
具体实现方式
-
模型架构:
- 双匹配焦点融合模型通常包括两个主要部分:问题理解和答案生成。在问题理解阶段,模型需要提取用户问题的主题焦点,即问句的主要背景或用户感兴趣的对象,并确定用户询问的具体内容。
- 在答案生成阶段,模型会结合问题的理解结果和文档或知识库中的信息,生成相应的答案。这一步骤可能涉及多模态特征融合,例如将图像和文本特征进行拼接或通过注意力机制动态关注相关区域和词语。
-
特征融合:
- 使用双向注意力机制(Bi-Directional Attention)来同时关注图像中的区域和问题中的词语,提升特征融合效果。
- 在句子匹配任务中,首先从不同特征出发计算句子相似度,并对多个特征进行加权融合以改进句子匹配算法;其次利用神经网络构建句子匹配模型,建立相似度矩阵实现基于句间注意力机制和 LSTM 的模型。
-
模型训练与优化:
- 模型的训练通常基于大规模预训练语言模型,通过融合关键词模型与深度学习模型来提高准确率。例如,在客服问答系统中,当关键词模型匹配到的标准问条数大于一定数量时,输出神经网络模型的答案。
- 参数选取方法通常基于统计,在测试集上计算不同参数值对应的模型 label 的 f 1 值,然后选取较大的 f 1 值对应的数值作为最终取值。
效果评估
-
准确率与召回率:
- 在问答匹配任务中,双匹配焦点融合模型能够有效提升问题匹配的准确率,尤其是在标注训练数据量减少的情况下,性能优势更加明显。
- LSTM 模型在某些情况下可以达到较高的准确率,例如当 LSTM 的第一大概率超过 40%时,其对应的标准回答的准确率为 91.38%。
-
综合效果:
- 双匹配焦点融合模型在问答提取中的表现不仅依赖于单一模型的性能,还依赖于多模态特征融合和多角度匹配技术的应用。例如,BiMPM 模型通过双向多角度匹配解决了传统方法仅基于词级别匹配的不足。
- 在实际应用中,双匹配焦点融合模型能够综合多文档抽取出能够回答检索问题的具体答案,并对答案做相似性比较,最终将答案融合结果返回给用户。
双匹配焦点融合模型在问答提取中的具体实现方式包括问题理解、特征融合、模型训练与优化等多个环节,其效果评估则主要体现在准确率、召回率以及综合效果上。
最后一部分(本系列Part 3)会介绍关于问答提取的开源项目和一些实践。