chatgpt为什么有逻辑推理能力 浙大&南洋理工:评测ChatGPT和GPT-4的逻辑推理能力 | 中英文版

默认分类2年前 (2023)发布 admin
2,039 0
ChatGPT国内版

持续跟踪前沿科技,「文末有获取资料方式」

简介

逻辑推理对人类智能至关重要,将逻辑推理能力纳入自然语言理解(NLU)系统从人工智能开始就一直是一个活跃的研究兴趣。研究人员一直在探索实现这一目标的各种方法,包括基于规则的方法,符号系统,微调大型语言模型,以及将神经和符号方法相结合。

在传统的逻辑和语义方法中,计算语言学家开发了利用一阶逻辑(FOL)或自然逻辑的符号系统来解决基本的推理任务。基于规则的模型努力用手工制作的规则和定理证明器来解决RTE挑战等问题。早期研究人员采用的形式逻辑推理提出了符号系统和手工设计的规则,其中知识使用形式逻辑或其他符号表示显式地表示。通过规则,系统可以进行演绎操作。然而,这些方法在处理模糊性和可扩展性方面面临挑战。它们在处理真实世界的自然语言数据时很脆弱。

神经网络模型时代看到了大规模NLI数据集的兴起作为流行基准。例如,SNLI 和Multi-genre NLI (MNLI) 数据集是通过众包创建的,具有巨大的数据规模和广泛的覆盖范围。它们促进了具有更好表示能力的模型的发展,并成为自然语言理解研究的首选基准。随着BERT ( et al., 2018)等基于的语言模型的出现,模型性能的巨大飞跃,这些模型的训练方案使它们能够访问巨大的未标记语料库。因此,构建具有数万亿参数的语言模型成为可能。预训练和微调的范式自此成为文本推理任务的主要解决方案。研究人员在对大规模文本语料库进行预训练后,对特定任务数据集的语言模型进行微调。大型预训练语言模型(lm)在流行的NLI和MRC基准上实现了超越人类的性能,敦促在文本推理中进行更复杂的基准。

随着最近几个数据集的发布, 逻辑推理的NLP研究重新获得了势头,特别是和。数据集来自中国公务员考试和法学院入学考试(LSAT)等逻辑推理考试。这些测试即使对人类来说也是具有挑战性的,并且是高质量的黄金标记数据。逻辑推理被用于大型预训练语言模型(plm)的许多探测任务和问答和对话系统等下游任务中。与传统基准相比,plm表现不佳。尽管到目前为止取得了进展,但在NLU系统中实现类似人类的逻辑推理能力仍然是一项具有挑战性的任务。

chatgpt为什么有逻辑推理能力 浙大&南洋理工:评测ChatGPT和GPT-4的逻辑推理能力 | 中英文版

生成式预训练 4 (GPT-4)以及是新发布的语言模型,旨在理解和生成多模态内容。GPT-4被提升为在需要逻辑推理的任务中具有更强大的能力。

逻辑推理对人类的智能至关重要,它使我们能够根据给定的信息得出结论、做出预测并解决问题。将逻辑推理纳入到语言模型中,如GPT-4,可以彻底改变自然语言理解(NLU)系统,使其更准确,更鲁棒,并能够理解自然语言中的复杂信息。

对和GPT-4在逻辑推理任务上的性能进行了评估,探索了它们在多个逻辑推理基准上的性能,详细分析了和GPT-4在逻辑推理任务上的优势和局限性。我们将讨论评估GPT-4逻辑推理能力的两个任务:多项选择阅读理解和自然语言推理。这两个任务都是推理繁重的,并可作为测试模型推理能力的游乐场。在这两种任务下,已经发布了多个逻辑推理数据集。事实证明,这些基准对于plm来说很难解决。希望该报告能进一步揭示和GPT-4的逻辑推理能力。

主要贡献

chatgpt为什么有逻辑推理能力 浙大&南洋理工:评测ChatGPT和GPT-4的逻辑推理能力 | 中英文版

关注公众号,输入可获取完整文件。

扫一扫添加小助手可邀进群

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...