如何用chatgpt建立3d模型 ChatGPT/GPT-4做知识图谱构建推理怎么样？

默认分类2年前 (2023)发布 admin

2,553 0 0

/GPT-4做知识图谱构建推理怎么样？

这篇论文对大型语言模型（LLMs）在知识图谱（KG）构建和推理中的作用进行了详尽的定量和定性评估。我们使用了八个不同的数据集，涵盖了实体、关系和事件提取，链接预测，和问题回答等方面。实证上，我们的发现表明，GPT-4在大多数任务中表现优于，甚至在某些推理和问题回答的数据集中超过了微调模型。此外，我们的综述还扩展到了LLMs在信息提取方面的潜在泛化能力，这在虚拟知识提取任务的介绍和VINE数据集的开发中达到了高潮。依据这些实证发现，我们进一步提出了，这是一种使用LLMs进行KG构建和推理的多智能体方法，旨在勾画出这个领域的未来并提供激动人心的进步机会。我们期待我们的研究能为未来的KG的实践提供宝贵的见解。

1. 引言

知识图谱（KG）是一个由实体、概念和关系组成的语义网络（Cai et al., 2022；Chen et al., 2023；Zhu et al., 2022；Liang et al., 2022），它可以催化各种场景的应用，如推荐系统、搜索引擎和问题回答系统（Zhang et al., 2021）。通常，KG构建（Ye et al., 2022b）包括几个任务，包括命名实体识别（NER）（Chiu和，2016），关系提取（RE）（Zeng et al., 2015；Chen et al., 2022），事件提取（EE）（Chen et al., 2015；Deng et al., 2020），和实体链接（EL）（Shen et al., 2015）。另一方面，KG推理，通常被称为链接预测（LP），在理解这些构建的KG中起着关键的作用（Zhang et al., 2018；Rossi et al., 2021）。此外，KG可以被用于问题回答（QA）任务（ et al., 2020；Zhu et al., 2021），通过对与问题相关的关系子图的推理。

早期，知识图谱的构建和推理主要依赖于监督学习方法。然而，近年来，随着大型语言模型（LLMs）的显著进步，研究人员已经注意到它们在自然语言处理（NLP）领域的卓越能力。尽管有许多关于LLMs的研究（Liu et al., 2023； et al., 2023；Lai et al., 2023），但在知识图谱领域系统地探索它们的应用仍然有限。为了解决这个问题，我们的工作研究了LLMs（如和GPT-4，，2023）在知识图谱构建、知识图谱推理任务中的潜在应用性。通过理解LLMs的基本能力，我们的研究进一步深入了解了该领域的潜在未来方向。

图1：我们工作的概述。主要有三个部分：1）基础评估：详细说明了我们对大型模型（text–003，和GPT-4）的评估，无论是在零次还是一次设置中，都使用完全监督的最先进模型的性能数据作为基准；2）虚拟知识提取：检查大型模型在构建的VINE数据集上的虚拟知识能力；3）：提出利用多个代理来促进知识图谱的构建和推理。

具体来说，如图1所示，我们首先调研了LLMs在实体、关系和事件提取，链接预测，和问题回答方面的零样本和一次样本性能，以评估它们在知识图谱领域的潜在应用。实证发现表明，尽管LLMs在知识图谱构建任务中的性能有所提升，但仍落后于最先进的（SOTA）模型。然而，LLMs在推理和问题回答任务中表现出相对优越的性能。这表明它们擅长处理复杂问题，理解上下文关系，并利用预训练过程中获取的知识。因此，像GPT-4这样的LLMs作为少次信息提取器的效果有限，但作为推理助手的熟练程度相当高。为了进一步研究LLMs在信息提取任务上的表现，我们设计了一个新的任务，称为“虚拟知识提取”。这个任务旨在判断性能的观察到的改进是来自LLMs内在的广泛知识库，还是来自于指导调整和人类反馈的强化学习（RLHF）（ et al., 2017）所促进的强大泛化能力。在新建的VINE数据集上的实验结果表明，像GPT-4这样的LLMs可以迅速从指令中获取新的知识，并有效地完成相关的提取任务。

在这些实证发现中，我们认为LLMs对指令的极大依赖使得为知识图谱的构建和推理设计合适的提示变得费时费力。为了促进进一步的研究，我们引入了的概念，它使用多个LLMs的代理自动进行知识图谱的构建和推理。总的来说，我们的研究做出了以下贡献：

LLMs在知识图谱构建和推理方面的新能力

最近，LLMs的出现给NLP领域注入了活力。为了探索LLMs在知识图谱领域的潜在应用，我们选择了代表性的模型，即和GPT-4。我们在知识图谱构建和推理领域的八个不同数据集上对它们的性能进行了全面评估。

2.1 评估原则

在这项研究中，我们对LLMs在各种知识图谱相关任务上进行了系统评估。首先，我们评估了这些模型在zero-shot和one-任务中的能力。我们的主要目标是在面对有限数据时检查它们的泛化能力，以及在没有示范的情况下使用预训练知识有效推理的能力。其次，根据评估结果，我们对导致模型在不同任务中表现不同的因素进行了全面分析。我们旨在探究它们在某些任务中表现优越的原因和潜在缺陷。通过比较和总结这些模型的优点和限制，我们希望提供可能指导未来改进的洞察。