苏格拉底曾经说过:“真正重要的不是事物的大小,而是其质量。因为真正的价值在于物质的本质,而不是其体积。”

抽象 3D 插图的特点是一个红色的人形人物,有一个超大的头部,看起来像一个橡皮筋球。 它站在一个较小的人形旁边,头上有漩涡。 两个人物之间是圆形的云状物体。
对于大型语言模型 (LLM) 来说,大小总是很重要吗?在法学硕士占据中心舞台的技术格局中,麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究人员团队认为,较小的模型不应被忽视,特别是对于行业中广泛部署的自然语言理解产品。
为此,研究人员想出了一种方法来解决与基于文本的大型人工智能模型相关的长期存在的低效率和隐私问题——一种逻辑感知模型,在一些无需人类参与的语言理解任务上,其表现比其他模型大 500 倍。生成注释,同时以高性能保护隐私和鲁棒性。
法学硕士在生成语言、艺术和代码方面表现出了一些有前途的技能,但其计算成本很高,而且在使用应用程序编程接口进行数据上传时,其数据要求可能会面临隐私泄露的风险。与较大的模型相比,较小的模型历来能力较差,特别是在多任务处理和弱监督任务方面。
那么,是什么帮助这些较小的模型发挥如此强大的作用呢?所谓的“文本蕴含”是一种帮助这些模型理解各种语言任务的方法,如果一个句子(前提)为真,那么另一个句子(假设)也可能为真。例如,如果前提是“所有猫都有尾巴”,那么该前提就必然蕴含假设“虎斑猫有尾巴”。该概念用于训练“蕴涵模型”,该团队之前的研究证明该模型比其他语言模型偏差较小。然后,他们创建了“提示”,模型可以使用该“提示”来确定根据不同任务的给定句子或短语是否包含某些信息。这种方法提高了模型适应不同任务的能力,无需任何额外的训练,
在“自然语言理解”领域,有多种应用取决于确定两段文本之间的关系。例如,在情感分类中,可以从电影评论中推断出“我认为这部电影很好”这样的陈述,“我喜欢这个故事,表演很棒”,表明积极的情感。另一个是新闻分类,可以从新闻内容中推断出新闻文章的主题。例如,如果文章的主要内容是报道NBA比赛,则可以包含“该新闻文章是关于体育的”这样的陈述。关键的见解是许多现有的自然语言理解任务可以被重新定义为蕴涵(即自然语言中的逻辑推理)任务。
“我们的研究是关于提高计算机程序理解和处理自然语言(人类说话和写作的方式)的能力。我们自行训练的 3.5 亿参数蕴涵模型,无需人工生成标签,其性能优于具有 137 至 1750 亿参数的监督语言模型。”麻省理工学院 CSAIL 博士后 Hongyin Luo 说道,他是该研究的一篇新论文的主要作者。“这有可能重塑人工智能和机器学习的格局,为语言建模提供更可扩展、更值得信赖且更具成本效益的解决方案,”罗说。“通过证明较小的模型在语言理解方面可以达到与较大模型相同的水平,这项工作为更可持续和保护隐私的人工智能技术铺平了道路。”
该团队发现,他们可以通过使用一种称为“自我训练”的技术来进一步提高模型的性能,其中模型使用自己的预测来进行自我学习,无需人工监督和额外的带注释的训练数据即可有效学习。自我训练方法显着提高了一系列下游任务的性能,包括情绪分析、问答和新闻分类。它在零样本能力、GPT 模型和其他监督算法方面都优于 Google 的 LaMDA 和 FLAN。
然而,自我训练的一个挑战是模型有时会生成不正确或有噪声的标签,从而损害性能。为了克服这个问题,他们开发了一种名为“SimPLE”(简单伪标签编辑)的新算法,这是一个审查和修改在最初几轮学习中制作的伪标签的过程。通过纠正任何错误标记的实例,它提高了自行生成标签的整体质量。这不仅使模型在理解语言方面更加有效,而且在面对对抗性数据时更加稳健。
与大多数研究一样,也存在一些局限性。多类分类任务的自我训练在二元自然语言理解任务上的表现并不好,这表明将蕴涵模型应用于多项选择任务的挑战。
“这项研究提出了一种高效且有效的方法来训练大型语言模型(LLM),将自然语言理解任务制定为上下文蕴涵问题,并采用伪标签自训练机制在训练过程中纳入大量未标记的文本数据, “CSAIL 高级研究科学家 James Glass 补充道,他也是该论文的作者之一。“虽然法学硕士领域正在经历快速而巨大的变化,但这项研究表明,有可能产生相对紧凑的语言模型,与大小大致相同甚至更大的语言模型相比,这些模型在基准理解任务上表现得非常好”。
MIT-IBM Watson AI 实验室的研究人员 Leonid Karlinsky 表示:“蕴涵任务是评估 AI 模型对给定上下文的‘理解’的一种流行代理。” “它被用于许多领域分析单模态模型,如法学硕士,和多模态模型,如 VLM [视觉语言模型] 输入,将有关给定输入上下文的问答任务简化为二元分类问题 – 该上下文是否包含某个(例如文本)结论?本文在这个领域做出了两项贡献。首先,它提出了一种通过调整为原始 NLU 任务生成的合成(专门)蕴涵任务来提高零样本(无需额外调整)NLU 性能和对抗性攻击的鲁棒性的方法。其次,它提供了一种自我监督的 SimPLE 方法,包括伪标签和基于置信度的过滤,以进一步提高大型法学硕士的 NLU 性能。”
Luo 和 Glass 与 CSAIL 成员、麻省理工学院电气工程与计算机科学系助理教授 Yoon Kim 以及北京大学的 Jiaxin Ge 共同撰写了这篇论文。他们的工作将于今年七月在安大略省多伦多举行的计算语言学协会会议上展示。这项研究得到了香港创新人工智能计划的资助。