近期,以“生成式人工智能”( AI)为核心技术的聊天机器人火爆全球。围绕网友普遍关心的话题,2月14日,科大讯飞副总裁、研究院执行院长刘聪接受新华网专访,阐述什么是,它强在哪里?会对未来世界带来哪些颠覆性影响?以下是专访实录:
是什么?它强在哪里?
美国人工智能公司于2022年11月30日发布的通用型对话系统,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,能更精准地理解用户意图及实现类人的回复,能更精确、更加可控地完成撰写邮件、视频脚本、文案、代码等任务,甚至在人类的合适引导下可以完成逻辑推理、新知识快速学习等复杂任务。
本质上是一个由浮点数参数表示的深度神经网络大模型(目前版本含约1750亿个参数),所以仍然属于深度学习的框架。深度学习自2006年被提出,2010年左右陆续被应用于以语音识别、图像识别为代表的感知技术领域,极大地推动了人工智能技术和产业的发展。的推出是深度学习提出后又一个里程碑式的技术革命,将为以自然语言处理为核心的认知智能技术发展提供新的“历史机遇期”。大模型技术从2018年开始兴起,近年来国内外也发布了多个模型参数庞大的深度神经网络大模型,但唯独这次的引发了全球学术界和产业界的热议和关注,关键原因是通过至少以下五个维度能力的显著提升综合实现了初步的“智慧涌现”:(1)海量高价值信息的全量在线记忆能力;(2)自然语言输入的任意任务和多轮对话理解能力;(3)复杂逻辑的思维链推理能力;(4)多角色多风格的长文本生成表达能力;(5)即时新知识学习应用与进化能力。此外,因为引入了代码作为训练语料,还额外产生了自动写代码和理解代码的能力。
我们这里挑选了一些在演讲稿写作、程序代码纠错、自由人机交互、即时新知识学习应用方面的代表案例,如下图所示。
综上来看,的能力之强已不仅是停留在单一场景的人机对话,而是一个同时具备多种能力的通用“对话式AI系统”。与传统认知智能需要针对各领域任务定制对应的系统不同,它不仅能完成多个场景、多轮的相当自然的人机对话,更为重要的是以自然语言交互式学习的“类人”新范式,能在多轮交互中以“类人”的方式交流、学习和进步,并可以自主、快速、不间断地学习各领域专业知识并达到人类专家水平。
在让许多人惊呼AI强大的今天,我们不妨回望一下1956年举行的达特茅斯会议。正是在这次会议上,人工智能的概念被正式提出,而这来源于参会的信息论创始人、诺贝尔奖获得者、图灵奖获得者等多位世界级顶尖科学家,凭借的是他们扎实的科学基础、理论分析能力以及前瞻性思考。
回归现实,作为长期深耕人工智能领域的一名科研人员,我想“求真务实”和“躬身入局”仍然是我们应当继承、并面对现在人工智能发展的正确态度。我们不仅要结合实际效果和技术原理客观理性地分析现有的技术水平,还要进一步思索未来的技术发展方向。
为什么这么强?
针对目前热潮,学术界已经有不少专家做了算法上的专业分析,而我们基于GPT系列模型的相关论文以及对实际效果的体验测试,结合科大讯飞在认知智能和深度神经网络大模型上的研发实践,经过深入分析后判断的智慧涌现主要可归因于其以下创新工作:
(一)基于海量高质量文本语料的无监督预训练。如从原始45TB语料清洗得到570GB高质量训练语料,并通过预训练策略在大模型里实现了海量信息的有效“存储”。
(二)创新性地引入代码文本的训练策略。如使用了的830GB代码文本数据,充分利用代码的函数定义和调用、变量远距离引用等体现程序员解题思路和逻辑的代码文本特性,有效增强了复杂逻辑思维链推理能力。
(三)基于数万个任务的统一生成范式有监督训练。如收集了覆盖范围很广的数万个语言和知识相关的有监督任务数据集,并转换为统一的文本生成范式任务,提高了大模型对语义和知识表征的泛化及准确理解能力。
(四)基于人工反馈强化学习实现生成结果的优化。公司雇佣了众包团队大规模开展了生成结果好坏的人工标注,并基于标注数据进行强化学习,使得大模型生成结果更加无偏见和符合人类预期。
的成功也向全世界明确揭示了深度神经网络技术继主导以语音识别、图像识别为代表的感知智能技术路线后,针对更难的以自然语言处理为基础的认知智能领域,也体现出了巨大的潜力。
从大模型到,还要跨越哪些鸿沟?
基于以上分析,大模型其实是在GPT3基础上进一步开发的自然语言处理(NLP)模型。大模型在我国也是研究热点,国内外各大模型参数规模持续攀升、目前最高达到10万亿级,有些模型还支持图像、文本、语音等多个模态,但在智慧涌现方面与存在较大差距。
相较于GPT3模型和国内一些代表性大模型在效果体验上获得较大提升的原因,我们认为除了算法创新之外,应该是综合运用了高质量训练数据(并引入代码等)、创新模型训练算法(提示、多任务的联合学习、基于人类反馈的强化学习等)与AI工程化(提高研发与计算效率)等多方面因素的系统性创新结果。
以当前业界主流的模型为主结构。当前我国也研发出了多个基于文本或多模态的预训练基础大模型,与国外基础大模型算法的差距不大,奠定了比较好的大模型训练的平台基础并进行了算法模型的框架积累。以这些大模型为基础,打造一个类大模型,还需在数据、算力、工程实现等三个方面努力。
在数据方面,对于预训练模型来说,数据的质量和数量直接影响模型的质量。因此,我们需要在保障数据安全、用户隐私等符合国家法律法规和政策的前提下,进一步挖掘、收集及清洗高质量、多领域、多行业及多样性的海量丰富数据,辅以技术和人工结合的高质量清洗工作,并持续通过人工标注反馈强化学习,使得模型生成结果更加可控、合理及可靠,当然数据背后的知识符合道德伦理、法规要求也非常重要。
在算力方面,超大模型由于参数规模大、数据体量大,因此需要更大的算力支持,带来过高的训练成本,据了解单次模型训练耗时1个月,训练成本达1200万美元。这里需要注意的是,超大模型的训练需要大规模计算集群以及对应的模型并行算法框架的支撑,我们判断1000张主流卡容量的独立计算集群是完成该类任务的门槛之一。
在工程实现方面,由于大模型在推理阶段仍然需要巨大的算力消耗(以对话交互为例,目前单次交互成本大致是主流方法的1000倍左右),如何将大模型部署在线上,以供大规模用户快速的、经济化地使用,也是需要关注的。否则研制出的大模型将被束之高阁,难以规模化应用。
更为重要的是,应该需要选择一个社会刚需应用或有大量活跃用户的应用作为切入点。这些应用可以结合用户交互体验数据,反馈给模型后进一步提升模型的能力,在数据和模型之间形成正向反馈循环的“涟漪效应”,使得迭代更新后的模型越来越强。过去十几年,面向感知智能领域的“涟漪效应”带来了智能语音、图文图像等领域产业系统效果的很大提升。如今我们需要再次面对难度更大的认知智能领域的“涟漪效应”,如何系统化地设计好相关的方案,很大程度上决定了未来我们在该领域的产业落地、价值兑现之路能走到多远。
我国在认知智能方面的进展如何?
首先,让我们再具体了解下认知智能具体所指:认知智能旨在赋予机器理解和模拟人类行为的能力,使机器“能理解、会思考、有情感”,通常指让机器掌握人类独有的语言和知识能力的一类人工智能技术,涵盖机器翻译、人机对话、知识推理、机器阅读理解、常识推理等具体任务,是人工智能发展的高级阶段。
根据2021年第三方发布的研究报告,在认知智能领域相关论文发表数量排名前十的机构中,有六所位于美国。中国在相关技术领域论文发表数量仅次于美国,但是质量上与美国还有一定差距。专利方面,我国相关专利申请数量2017年超过美日韩。产业方面,认知智能已在教育、医疗、金融、政务等多个领域落地,国内一些企业在产业应用模式探索上走在世界前列,具备了很好的技术基础、场景基础和数据基础。
以科大讯飞为例,依托科大讯飞和中国科学技术大学承建的认知智能全国重点实验室,聚焦面向“幸福中国”实现基于人工智能的教育/医疗优质资源普惠供给的需求、面向“中国智造”升级手机/汽车/家电/办公/机器人等人机智能交互的需求、面向全世界主要语种构建跨语言沟通无障碍的经济文化交流环境的需求,取得了一系列领先的技术研究成果,并在产业实现了大规模应用。
在智慧教育领域,实现了全学科智能批改和因材施教等方面的关键技术突破,2022年累计获得常识阅读理解挑战赛、QASC、等13项认知智能国际竞赛冠军,在高考作文评分和雅思英语作文上都已经超过了人工,实现了全场景因材施教解决方案服务5万多所学校、1.3亿多师生;在智慧医疗领域研发的“智医助理”系统,已经通过了国家执业医师资格考试综合笔试测试,现在作为全科医生助手已可以诊断1200多种常见病,累计提供5.5亿次AI辅诊建议;在人机交互领域,实现了智能语音开放平台AI服务日调用次数超过50亿。在多语种技术研究方面,实现了60个语种的语音识别、语音合成、机器翻译、图文识别等关键技术研发,在中、英等十多个全球应用最主流语种中实现领跑,有力支撑了汽车、家电企业上亿台套出口产品所需的技术需求,其中机器翻译技术获得国际口语机器翻译评测比赛冠军,参加全国翻译专业资格(水平)测试,达到英语二级《口译实务(交替传译类)》和三级《口译实务》合格标准。
的技术演进方向是什么?会对未来世界带来哪些颠覆性影响?
的初步突破带来的当前影响和未来想象空间是巨大的。首先在算法优化和技术演进趋势方面,我们认为至少有以下四个方向:
1)需要通过进一步引入显性知识、常识类知识来提升目前输出答案的可靠性和稳定性,尤其在一些细节的内容上;
2) 在认知智慧涌现的基础上,通过多模态语义空间的统一,从而具备生成图像、语音、视频等多模态内容的能力,实现多维表达和呈现;
3)针对当前通用大模型规模太大、难以针对及时信息灵活迭代更新的问题,未来将可通过大模型分布式部署,例如云边端协同等方式提升其灵活性,同时可能降低服务成本;
4)针对各个行业、甚至是每个人的个性化需求,未来会在大模型基础上向各层级的个性化模型发展,通过持续学习、理解每个人的对话和提交任务的风格、领域以及特定人的针对性反馈“调教”等信息,未来有望真正成为每个人的个人助手。
在上述技术演化的基础上,以自然语言处理为代表的人工智能算法有可能重构互联网和移动互联网的产品形态,促进教育业、医疗业、汽车业、金融业、消费业、媒体业、服务业和制造业等众多产业的升级,最终带来对应商业模式的变革。我们认为类模型的持续发展未来至少会从以下4个方面的能力提升推动产业变革与模式创新:
1)改变现有人机交互模式。未来人们可能用自然对话的方式与智能产品交互,通过精准理解用户意图,调用系统的各种软件或服务来满足用户需求,提高交互效率与任务成功率。这种人机交互模式的改变将可能改变当前的APP等应用的使用方式,例如多个功能的软件能力被整合,甚至出现“大一统”能力的超级通用APP;
2)改变信息分发获取模式。基于认知智能技术可实现更高效的信息整合和知识推荐等。以搜索为例,传统搜索引擎根据关键字匹配内容,使用者需要在海量搜索结果中筛选出有用信息,而加持的必应直接给出答案,并提高了问题与答案的匹配精准度,大大提升用户体验。信息分发获取模式的改变将影响流量的分布,并改变流量变现的商业模式。
3)革新内容生产模式,提高生产力。作为AIGC(人工智能生成内容)技术的典型代表,一经上线便被大量应用于公文写作、邮件编写、代码编写等工作领域,的编程能力将极大拓展普通人利用电脑和网络进行创新和创意的能力。未来被集成到word、excel、ppt等工具软件后,将提升内容生产效率与丰富度,变革人们的办公方式,成为新的全行业生产力工具。还将带动图像、音频、视频等形式的AIGC技术与产业发展,使得AIGC的内容既有“好看的外在”,更有“丰富的内涵”。
4)加速“AI for ”的发展。对于科研人员,不仅可以辅助生成论文摘要与文献综述,随着其学习的科研数据越来越多,未来有可能提供专业的研究建议甚至主动探索发现新的理论,带来整个科学研究范式的全新变化,把“AI for ”推上一个全新的台阶。
这次所带来的革命将会异常深刻地改变当今世界的生产和生活方式,重构产业格局,是人工智能领域推动工业乃至社会变革的重大战略机遇,是未来发展兵家必争之地!
讯飞在方面有哪些准备?
未来的研发计划是怎么样的?
在引发的AI技术新一轮热潮背景下,讯飞基于认知智能全国重点实验室,已在核心算法、行业数据、算力支撑及团队组建等方面建立了优势保障。
核心算法:在深度神经网络算法方面拥有丰富经验,已广泛应用于科大讯飞的语音识别、图文识别、机器翻译等任务并达到国际领先水平;创新提出了知识与大模型融合统一的理解框架X-,有望弥补大模型的模糊记忆技术短板,并在认知智能技术领域,2022年累计获得了常识阅读理解挑战赛等13项世界冠军;开源了6个大类、超过40个通用领域的系列中文预训练语言模型,相关模型库月均调用量超1000万,在平台获得星标数位列同类中文预训练语言模型第一并远超第二名。
数据积累:在严格遵守适用法律法规前提下,在多年认知智能系统研发推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用,为训练实现达到人类专家水平的行业认知大模型提供了海量行业文本语料和用户反馈数据,也为基于大模型的创新应用研发和试点推广提供了场景保障。
算力支撑:讯飞在总部自建有业界一流的数据中心,为大模型训练平台建设奠定了很好的硬件基石。此外,在工程技术方面实现了百亿参数大模型推理效率的近千倍加速,为未来更大更多认知智能大模型技术经济实惠规模化应用提供了可能。
结合我们多年来在深度学习算法、大模型技术、行业大数据、知识图谱、多模态感知、系统工程技术方面优势积累,通过最近两个多月的系统分析和快速验证,我们非常有信心实现类似的技术阶跃进步,并在中文认知智能领域达到国际领先水平。
行业应用方面,为了进一步提高大模型在细分行业的实用性,我们计划采用“1+N”架构,其中“1”是通用认知智能大模型算法研发及高效训练底座平台,“N”是应用于教育、医疗、人机交互、办公、翻译、工业等多个行业领域的专用大模型版本。例如,通过学习海量医学教材、论文和病例,实现专业的医疗领域对话式AI系统,打造“每个医生的AI诊疗助理,每个人的AI健康助手”。
此外,我们也非常希望基于认知大模型与各行各业的伙伴们在企业数字化、行业内容生产等方面开展深入合作,基于行业数据与知识,形成智能化定制解决方案。我们的技术底座和行业积累合力共赢,能助力合作伙伴跨越认知智能技术壁垒,提高产品竞争力,实现协同创新,共同加快行业转型升级,推进数字中国建设。
如何看待资本市场当前的热潮?
不光是中国,全球资本都在的技术突破后看到了人工智能对社会产生的重大产业机遇,所以资本的热情被点燃也是非常自然的事情:一方面对于科大讯飞这种在认知智能领域有充分积累的企业和原来有做过大模型经验的公司都是利好;另一方面对于提供算力的厂商明确带来市场需求的增长空间;此外,刚出来前两周,就有500多个创业公司在各个领域围绕在各个行业开展了AIGC等模式的创业。众多行业都有被深度重构的机会,重构过程中一定会产生巨大的全新商业价值,因此资本市场的兴奋是可以理解的。
但是我们认为兴奋归兴奋,关键是要踏踏实实把科研做好,把产品做好,把服务做好,最终还是要回到我们提出来的人工智能红利能否兑现的三大标准:“有没有看得见摸得着的真实应用案例,有没有能够规模化推广应用的产品,有没有统计数据能够证明的应用成效”,只有这些才能够经得起时间的考验,才能够真正把人工智能做实做透。
我们发现,每次浪潮涌起的时候,必有一堆蹭热点的泡沫出现,引起大家的反感。一方面,资本市场和监管部门会加强监管,另外一方面,行业人士和懂行的网友也对这些蹭热点行为给予了批评。
从讯飞来说,我们认为首先还是要本着“实事求是”的态度。我们董事长刘庆峰在节后第一个交易日(2023年1月30日)的投资者交流会上就明确进行了说明:“相较国际大厂从芯片算力、数据积累和行业资源整合上,我们要看到从综合实力、平台能力方面确实存在的差距。我们首先要紧跟国际最新发展,保持敬畏之心。在跟跑到并跑的同时要在一些擅长的领域做到领跑。如语音识别、翻译、教育、医疗这些领域,依托行业知识和专业理解能力,形成规模用户和商业模式的良性迭代,我们是有信心的。”
本次浪潮让我们看到中国和美国在人工智能领域的综合差距,如果不迅速赶上,差距是有可能被拉大的。除了要防止部分企业的过度炒作外,我们也发现有些“成功学”型自媒体,它会刻意不负责任地抓取一些只言片语,然后写出一些耸人听闻的题目,让网友误以为是某个企业目空一切,从而收割一波自媒体们的“流量红利”。这种捧杀行为对整个产业是有百害而无一利的。
在当前情况下保持一种健康踏实的良性心态,是非常重要的,希望科学界和产业界的同仁们在这方面能够共同努力。
刘聪,科大讯飞副总裁、研究院执行院长,语音及语言信息处理国家工程研究中心副主任,国家级领军人才。