ChatGPT的准确率直线提升23.7%！香港理工大学提出大模型黑箱知识注入--Intelligent technology investment network-上海优钧机械设备科技

给定一个问题上下文，一个LLM ，和一个知识图谱,包含三元组（头实体，关系，尾实体），表示为，目标是学习一个提示函数，生成一个提示，将的上下文和中的事实知识结合起来，使得LLM的预测能够输出的正确答案。

整体框架如下图所示，根据问题背景和答案选项，从现实世界的知识图谱中检索出一个问题特定的子图。首先，路径提取模块寻找最具信息量和简洁推理背景来适应上下文。然后，优化提示转换模块，考虑给定问题的知识和格式的最佳组合。

相关的推理背景位于一个特定于问题的子图中，其中包含所有的源实体、目标实体，以及它们的邻居。为了找到一个高质量、高相关性但简洁的子图，作者提出利用强化学习以试错的方式对推理路径进行采样。每个推理路径的采样都能建模为一个马尔科夫决策过程，包括状态、动作、转移和奖励。

状态: 状态表示知识图谱中当前的位置，即知识图谱中的一个实体。具体而言，它表示从实体到的空间变化。状态向量定义为, 其中，和分别表示当前实体和目标实体的嵌入向量。为了获得从背景知识图谱中提取的实体的初始节点嵌入，将知识图谱中的三元组转换为句子，并将其输入预训练语言模型中以获取节点嵌入。

行动:行动空间包含当前实体的所有邻近实体。通过采取行动，模型将从当前实体移动到选择的邻近实体。

转移模型: 转移模型是用来衡量在给定当前状态和采取的动作的情况下，移动到新状态的概率。在知识图谱中，转移模型的形式为，如果通过动作将转向；否则，。

然后作者设计了三项奖励来促进生成高质量的路径。

路径最终要在有限的步数内达到目标。因此为了确定形成路径的质量，作者根据可达性定义了奖励，如果在K个行动内达到目标，将获得奖励+1。否则，将获得奖励−1。

路径与上下文越相关，越应该被奖励,作者为了评估两者的语义相关性，应用一个矩阵,将路径嵌入映射到与上下文嵌入相同的语义空间中，奖励被表述为：

其中，文本嵌入都是从开源的轻量级语言模型例如Bert-Base中得到的。是上下文的嵌入，路径的嵌入是从起始点走到第i步所经过的所有实体和关系的嵌入的平均值，即。这个逐步奖励机制在达到目标之前就提供了奖励。

基于黑盒LLMs对输入长度的限制和调用成本考虑，引导的提示需在最短的路径长度内找到尽可能多有价值的信息。因此作者引入了路径简洁性的评估，以减少冗余实体（例如同义词）带来的代价。定义如为：

最后，使用权衡参数来平衡每个奖励的重要性：

多臂赌博机MAB有许多“臂”，每次选择一个“臂”进行尝试，都会得到一个结果或奖励。一方面，希望“利用”那些之前表现良好的“臂”，可以在短时间内获得最大的奖励。另一方面，也想“探索”那些之前没有尝试过的“臂”，可能发现更好的策略或选择，从而在未来获得更大的奖励。

基于该原理，提示构建就是要想办法选择最有前途的提示。

假设有几种路径提取策略和几种候选提示格式。每个路径提取策略是一种在给定问题环境下选择子图的方法，每个提示模板代表一种将子图中的三元组转化为LLM预测的提示机制。

提示构建问题是要确定给定问题的最佳和的组合。作者将选择的整体过程定义为一个奖励最大化问题，其中的计算如下：

为了捕捉问题与不同知识和提示格式组合间的上下文感知相关性，作者使用期望函数E(·)来确定多臂赌博机的选择机制。它能自适应地衡量不同问题对某个组合的潜在期望。

表示的嵌入。向量α是与相关联的一组非负参数,β是一个平衡因子，根据高斯分布引入噪声。

通过最大化期望函数，LLM学会了平衡开发和探索，以优先选择最有前途的提示来回答特定的问题背景。

最终，使用两种路径提取策略和三种提示模板来实现以上的多臂赌博策略。

路径提取策略包括：

模板选择策略：

三元组，例如(Sergey_Brin, founder_of,Google),(Sundar_Pichai, ceo_of, Google), (Google, is_a, Hightech Company)。
句子描述，将知识转化为口语化句子，例如，“谢尔盖·布林是高科技公司谷歌的创始人之一，现由桑达尔·皮查伊掌舵，担任该公司的首席执行官。”
图表描述，将知识视为结构化图表来激活LLM。通过使用黑盒LLM预处理提取的知识，突出中心实体生成描述，例如，“谷歌,一家高科技公司,在网络中处于核心位置。该实体与科技行业中的重要人物密切相关。创始人之一Sergey Brin,他创建了谷歌,强调了其历史起源。在当前的图表环境中,Sundar Pichai是谷歌现任CEO。因此,谷歌在这些重要人物之间起着至关重要的纽带作用。”

多臂老虎机通过来自语言模型的反馈进行训练，以优先选择在不同实际问题背景下最合适的两种提取方法和三种预定义提示格式的组合。即

评估数据集选用CommonsenseQA（多项选择题问答数据集），OpenBookQA（多项选择题），MedQA-USMLE（医学多项选择题）。

对于常识推理，知识图谱选用ConceptNet，这是一个庞大的常识知识图谱，包括超过800万个通过34个简洁关系相互连接的实体。针对医学领域特定任务，采用生物医学知识图谱USMLE，它综合了统一医学语言系统（UMLS）的疾病数据库部分和DrugBank。该知识库包括9958个节点和44561条边。

KnowGPT在所有数据集和模型结构上表现优于所有类别的方法。
KnowGPT明显优于所有知识图谱增强的语言模型。这表明黑盒知识注入方法能够有效地将知识编码到语言模型中。
KnowGPT超越了ChatGPT甚至GPT-4的性能。平均来看KnowGPT的准确度比ChatGPT高23.7%。
更重要的是，尽管KnowGPT基于ChatGPT，但在三大数据集上分别比当前最先进的GPT-4高出3.3%、1.4%和1.8%。这表明黑盒知识注入可以有效增强LLM的能力。

另外作者将KnowGPT测试结果提交到OpenbookQA的官方排行榜上，与最佳基准线相比，KnowGPT显著优于传统的知识图增强语言模型，并可以与人类表现相媲美。