5月18日下午,庆祝建校118周年相辉校庆系列学术报告第十场在光华楼东辅楼102报告厅举行。复旦大学国家智能评价与治理实验基地副主任、大数据研究院教授赵星,浙江大学公共管理学院信息资源管理系“百人计划”研究员蒋卓人于线上线下共话“生成式人工智能的挑战与治理”。复旦大学国家智能评价与治理实验基地副主任、图书馆副馆长王乐主持报告会。
从2011年苹果手机首次推出的Siri语音助手,到今年包揽奥斯卡七大奖项的电影《瞬息全宇宙》,生成式人工智能早已融入人类生活。当下,类工具进一步引爆全球人工智能热潮,赵星和蒋卓人携手带来一场贯穿生成式人工智能前世、今生和未来的学术盛宴,解析生成式人工智能带来的多重挑战,启发我们对其治理问题的思考。
生成式人工智能的前世今生
金色的夕阳被乌云遮住,小草在风雨中摇曳,水珠在叶片上滚动……蒋卓人首先播放了一段名为“ ”(《夏日阵雨》)的视频。这段充满灵动色彩和生动风景视频,却完全是由生成式人工智能模型创作的。
何为生成式人工智能?
目前,生成式人工智能还没有统一的定义,一般可以理解为一种能够根据提示生成文本、图像或其他媒体信息的人工智能系统。
“这个技术不是像魔法一样凭空出现的,而是有着悠久的历史渊源。”蒋卓人强调。在生成式人工智能90多年的发展历程中,不乏人类智慧闪耀的时刻。
1932年,法国工程师 创造了装置“ brain”(机器大脑)。它通过查询多功能词典完成翻译,输入、输出都是一条纸带。蒋卓人认为,虽然它和今天的机器翻译不同,但它完全符合今天对生成式人工智能的定义,即人类输入一段内容,机器产生一段新的内容。
在20世纪中,麻省理工学院创造了最早的生成式人工智能之一Eliza,Judea Peal(朱迪亚·珀尔)引入了贝叶斯网络因果分析概念,Yann Lecun(杨立昆)等展示了如何利用卷积神经网络来识别图像……
2006年,华裔计算机科学家李飞飞着手构建数据库。该数据库中有超过1400万张手工标注的图片,包含超过2万个类别。“正是有了这样一个庞大数据库的支撑,深度学习才能得以兴起。所以我们总说,好的科研品味,加上持续不断的努力,就能成就一段好的学术生涯。”蒋卓人评价。
何以成为明星产品?
1750亿参数量,3000亿训练单词数,这是的数据。2022年发布后,在短短两个月内吸引了超过1亿的用户,成为有史以来用户增长最快的应用。
蒋卓人认为,要理解,就要理解它的关键技术:大模型基础训练、指令微调、人类反馈强化学习。
“大模型的全称是大型语言模型,”蒋卓人讲道,“它是一种概率模型,能告诉你一个词出现的概率是多少。”
比如,在The their这句英文后面,可以出现books、、exams、minds等词。“但它们出现的概率是不一样的。一个好的语言模型,能精准地预测下一个词是什么。”蒋卓人说。
随着语言模型的发展,它具备了良好的语言理解能力,但如何让其与人类建立对话呢?
研究者们提出的办法是指令微调。通过引入思维链以及代码生成,大模型的推理能力得以提升。“这种能力对于大模型来说至关重要,使其可以在开放领域有很好的表现。”蒋卓人评价。
至此,大模型初步具备了回答人们提出的任何指令的可能,但回答的质量却参差不齐,如何让大模型持续性地输出高质量回答呢?
研究者们又为此设计了一套基于人类反馈的强化学习方法,即通过大模型的微调、奖励函数的训练、以及大规模强化学习的优化来确保高质量回答的生成。“就是使用这种方法,大幅度降低了数据集构建成本。”蒋卓人说。
生成式人工智能:新智能面临新挑战
面对生成式人工智能带来的挑战,赵星从资源、技术、应用与社会伦理四个维度进行解读。
从资源维度来看,生成式人工智能需要高质量的数据,而中文世界的数据质量弱于英文。赵星认为,即使有很强大的翻译能力,类工具的中文处理效果也显著弱于英文,核心的原因之一是投喂的中文数据质量较差。另外,硬件技术也是支撑我国人工智能产业高速发展的关键要素。
“科技界曾将人工智能的应用比作炼金术,”赵星打趣道,“人们将数据一股脑往模型里面扔,至于能否炼出有价值的东西,炼出的是什么,却没有明确的预期。”很明显,在技术层面上生成式人工智能存在内生的不确定性。
“当我们准备向全社会投放一种通用性工具,却不能明确它的科学原理是什么,就一定会有内生性的风险。”人工智能风险中最核心的一点在于其结果的不可承受性。“我们很少在治理问题上处于如此无力的状态,”赵星说。在应用层面上,生成式人工智能产业发展的确定性与风险治理的不确定性将长期存在。
而在社会方面,生成式人工智能不仅深陷知识产权与信息泄漏问题,或也将塑造真正的信息茧房。“当生成式人工智能24小时都伴你身边,潜移默化地,你会误认为一切都是你自己的决定。”
赵星警示,“我们面对的,是一个会在短时间内崛起,或将引起严重后果且后果未知的事物。”
内生安全治理:让危机“已知”
面对生成式人工智能这个新对手,赵星认为不能沿用传统治理“被动回应外在威胁”的方法。相反,他的团队正在着眼于借助复旦大学大数据研究院院长邬江兴院士提出的“内生安全理论”,构建生成式人工智能治理的新模型。
“我们能否在未知的风险爆发之前找到抵抗它的办法?这是生成式人工智能内生安全治理要解决的问题。”赵星说,“我们需要在人工智能风险来临前,给人类社会点亮一个新的技能树:应对人工智能非传统安全问题的能力。”
生成式人工智能的治理模型涵盖了三个层面。最外层是法律的监督与规约,中间层是管理层的敏捷治理,尤为强调的最内层是教育。在法律和政府治理之前,高等院校应和所有的教育机构一起,完成针对全人类的社会性融合人工智能的教育和训练。
“我们应当在每一位年轻人的成长过程中,让他们学会如何与人工智能良好共处与规避“信息茧房”,以及如何去做一个智能社会中的‘好人’。”
内生安全治理模型的原理,是基于群体智能将个体“未知的未知”转化为群体“已知的未知”,从而进一步将其转化为“已知的已知”。
“当我们知道可能的风险是什么、产生在何处,生成式人工智能治理便有机会转化为常规性安全问题,我们就能尝试寻求到治理闭环的实现。”赵星说,“然而这仍需要理论、实践上长期的探索。”
赵星团队也开始探索生成式人工智能在科学评价中的应用,创新构建了“客观数据、智能算法、专家评议”三者和谐共生的“数智人”评价与治理新范式。近期团队也在开展利用类工具进行智能评价系统构建的探索实验。
“初步结果显示,虽然现阶段的生成式人工智能远没到能胜任学术评价这样的严肃评价工作的程度,”赵星表示,“但生成式人工智能表现出的“跨学科”评价能力和“涌现”推断预测潜力值得高度关注。”
✦
主讲人信息
✦
赵 星
复旦大学大数据研究院教授
国家智能评价与治理实验基地副主任
入选上海市曙光学者,近年在、JOI、《中国图书馆学报》和《情报学报》等国际国内知名同行评议刊物上发表论文百余篇,主持包括国家自然科学基金、国家社科基金重大项目子项、上海市软科学重点战略项目等在内的各类科研项目50余项。任中国索引学会青年委员会主任、上海市图书馆学会青年学者委员会主任等十余学术兼职。近年获教育部人文社科研究优秀成果奖青年奖、上海市哲学社会科学优秀成果奖一等奖、中国科技情报学会青年情报科学家奖等三十余项各类荣誉。
研究方向:信息资源管理、科技评价与智能评价、智能社会与智能治理、元宇宙与数字经济
蒋卓人
浙江大学公共管理学院信息资源管理系“百人计划”研究员
阿里巴巴达摩院语言技术实验室顾问;中国人工智能学会青年工作委员会委员;中国中文信息学会情感计算专委会委员,中国中文信息学会青年工作委员会通讯委员、信息检索专委会、社会媒体处理专委会通讯委员,广东省医疗行业协会超声医学创新与发展管理分会第一届委员会委员;ACM(国际计算机学会) ;ACM SIGIR(国际计算机学会信息检索专业组织);ACL (国际计算语言学学会);CCF(中国计算机学会)会员。
研究方向:计算社会科学,文本挖掘, 自然语言处理,信息检索