自2021年起,生成式人工智能(以下简称“生成式AI”)连续两年入选《Hype Cycle for 》[1],被认为是未来重要的AI技术趋势。2022年以来,生成式AI产品不断涌现,生成内容模态多样,引起广泛的关注和讨论。2022年11月,发布[2],定义为优化对话语言模型( for ),仅用2个月就创造了APP用户过亿的新记录。此前,APP用户破亿最快的记录是字节跳动的9个月,每个创造用户过亿时间记录的APP都成为了一个时代的符号,的的发布同样具有划时代的意义。
图:APP用户过亿时间表(数据来源:UBS / Yahoo )
具备强大的对话能力和生成能力,可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求,这意味着能够颠覆搜索行业,在智能客服、游戏、虚拟人等领域也将得到广泛应用,从到AIGC,AI已经成为新时代新的生产力。
一、发展现状
由大规模预训练语言模型GPT-3.5微调得来,在理解能力、结果准确性、识别非法与偏见能力上均能取得更优效果,不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。发布后5天用户已超百万,而之前发布的GPT-3用了将近两年的时间才突破100万用户。
相较于GPT-3具有支持多轮对话、易于修正、人机交互效果更好、更快、更高效等优势,更适合应用于人工智能客服、搜索引擎、智能客服、虚拟人、代码编程、文学创作等领域。微软目前正将整合进旗下搜索引擎必应(Bing),提高必应在搜索引擎市场的市占率;同时Chat-GPT功能引入,用于部分文本的生成和问答。
带动AIGC(AI- )的革新。AIGC[3]指利用人工智能技术自动生成的内容,与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。模型的出现对于文字模态的AIGC应用具有重要意义,未来,与图形模态的AIGC相结合,有望打造从文字描述到图片生成的AI创作辅助工具,对AI产业上下游产生重大影响[4]。
国内生成式AI产品以语言生成类和视觉生成类为主,其他应用类型处于探索阶段。文本生成类产品如百度的“文心.0”,可实现小说诗歌创作、新闻内容生成、商业文案生成。音频生成产品如网易的“天音”可实现自动编曲。图片生成类应用如百度的“文心一格”,其创作出的作品效果接近人类作品。
同时,国内部分企业也陆续推出新工具和平台,可生成数字内容、合成数据等。华为云推出数字内容生产线,该平台具备3D模型制作、云渲染等能力,可用于虚拟直播、虚拟视频内容制作。中国移动研究院实现了GAN生成NFV相关合成数据技术,并逐步探索结构化数据生成技术的落地路径。声智科技融合语言和视觉生成,基于Azero AIoT开发框架,生成多轮智能交互数字人[5],并成功应用在2022年北京冬奥会和冬残奥会和北京国际马拉松,以及全国人大、故宫博物院、环球影城等重点场景。
国外生成式AI产品应用方向多样,现象级产品迅速获取大量用户。根据知名创业组织的统计,截至2022年年底,海外生成式AI产品数量达到190余个,包括视频、音频、游戏、数据、搜索等多种类型应用。同时,2022年年底图片生成应用官方中的关注人数超过百万,上线后一周内用户数量已近百万。
生成式AI产品在交互设计中,更注重用户体验。目前生成式AI产品形态包含插件、API网页交互、客户端等。其中,API网页交互无需下载安装产品,在云端即可获得生成内容,如用户可在百度的“文心ERNIE 3.0”产品网页中输入提示词生成内容。同时,生成式AI技术与搜索产品融合后,匹配内容、意图理解表现更好。例如,用户使用论文阅读助手时,无需指定关键词即可搜索和查找相关论文,可提升阅读论文效率。
表:AIGC应用场景及所处发展阶段
表:AIGC国内外典型应用
二、带来的影响
强大的内容生成能力,引起了业界普遍关注,也加速了人工智能行业从决策式/分析式AI(/ AI)到生成式AI( AI)的演化。
图:决策式/分析式AI—-VS生成式AI
决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。
生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。
随着生成式AI技术的不断进步,生成模态不断更新,呈现多元化格局。按照生成模态划分,生成式AI产品分为文本生成(以为代表)、图片生成、代码生成和音频生成多个方向。2022年9月Meta发布自研视频生成大模型Make-A-Video;2022年11月,公司发布了3D模型生成工具;同月WebAR软件平台解决方案商 AR发布了AI WebAR内容创造套件RT3D AI SDK。生成模态的多元也推动了生成式AI的多行业应用。
图:生成式AI的多行业垂直应用
从机器辅助人跃迁到机器代替人。随着生成式AI的不断成熟,部分专业内容生产者将被替代。数据、算力的进一步提升将带来具有更强生成效果的AI,能够根据用户需求生成个性化定制内容终稿,并且AI生成内容达到专业内容生产者水平且具有独特新颖的创意,从而替代部分文字作者、翻译人员、插画创作者、配音人员、音乐制作人、视频编辑人员等等。
丰富数字内容供给侧供给。AIGC大幅度降低了数字内容生产的成本,打破了数字内容生产受到人类想象能力和知识水平的限制,广泛应用于文本生成、音频生成、图像生成、视频生成、跨模态生成及游戏领域,其广泛应用能够满足数字经济时代日益增长的数字内容供给需求。
创造新的生产力,带来巨大影响。生成式AI强调学习归纳后进行演绎创造,生成全新的内容,本质是对生产力的大幅度提升和创造,已催生了营销、设计、建筑和内容领域的创造性工作,并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车、航空航天进行初步应用,为各个领域带来巨大的生产力提升,在个人计算机、互联网、移动设备和云的规模上产生变革性的影响。
三、引发的思考
自1947年以来,AI领域取得的关键进展,(如Eliza、和的发布),都是由西方主导,美国在AI技术发展的过程中不断进行颠覆性技术创新,尤其是最近十多年,更是建立先发优势和累加优势,逐步拉大中美在AI领域的差距。[6] -[7]
图:AI关键发展节点的符号产品
以的发展历程为例:
2015年12月,成立,探索大模型路线。
2017年6月,发布论文。
2018年6月,发布GPT-1,参数量1.17亿,预训练数据量5GB。
2019年2月,发布GPT-2,参数量15亿,预训练数据量40GB。
2020年5月,发布GPT-3,参数量1750亿,预训练数据量45TB。
2022年11月,发布。
2023年2月,发布Bard。
从算力的角度看,以英伟达GPU的发展历程为例:
1999年,公司在发布其标志性产品时,首次提出了GPU的概念。
2006年,公司推出了CUDA,这是一种通用并行计算平台和编程模型。
2017年,公司发布了全新Volta架构GPU—Tesla V100,这是训练的GPU。
从AI重要分支的发展历程来看:[7] -[10]
1966年,MIT发布聊天机器人ELIZA,主要用于辅助心理咨询。
2010年,Apple发布聊天机器人Siri,主要用在作为语音助手。
2015年,发布聊天机器人Alexa,主要用在智能音箱等智能硬件。
图:的发展历程
回过头来看,国内也在追赶AI的热潮,在方面快速跟进:
2015年,科大讯飞发布了AIUI,定义为人机交互服务新界面。
2016年,百度发布了,定义为对话式人工智能操作系统。
2017年-2019年,小米发布了水滴平台,阿里发布了天猫精灵,腾讯发布了小微,微软发布了小冰,思必驰发布了DUI,这段时间的补贴竞争就是“百箱大战”。
2019年,声智发布了Azero 2.0,定义为多模态与多技能的AI开发框架并对外开放。
2023年,百度将发布“文心一言”,预计三月份完成内测面向公众开放,未来或将接入百度搜索。京东宣布推出产业版“”,应用路线图包括一个平台、两个领域(零售和金融)、五个应用(内容生成、人机对话、用户意图理解、信息抽取、情感分类)。字节跳动AI实验室也在开展类似和AICG相关研发,未来或为PICO提供技术支持。阿里类产品目前也处于内测阶段,会与钉钉产品结合。
虽然国内科技巨头和垂类成长型AI公司在努力布局,但是,回到大模型这个主题,从2022年12月发布时候的大模型现状来看,美国的进展更加迅猛和稳健。[11] -[15]
图:语言大模型的参数量对比
综上来看,我们要充分认识到我们在算法、模型、数据、算力等方面与美国的差异,这是几十年积累的差距,并有逐渐拉大的趋势,值得我们思考和警惕。
四、有关的建议[16]-[20]
虽然生成式AI行业发展迅速,覆盖数据模态不断扩展,生成内容愈发具有创造力、多元化。但是另一方面,生成式AI的产品能力仍存在不足,预计仍需要3~5年时间的监督学习才会真正对生产力产生根本性影响,当然数据合规性、安全性也需进一步规范。
另外,国内开源生态和应用研究将面临挑战。在GPT-3之后所有的应用都不再开源,而是提供API,这对于国内跟随研究将产生直接影响。这种API方式带动了国外创业公司的生态发展,并且非常重视对真实世界数据调用的迭代和反馈,这种飞轮对于国外公司是闭环提升,对国内产业则是潜在隐患,国内公司若基于进行迭代,则会加速国外的研究和产业进展,并且始终让我国受制于美国公司,从而形成新一轮卡脖子问题。
1、充分认识差距,保持战略定力。充分认识到我国人工智能基础研究相对于美国的差距,要在质疑和焦虑等各种噪声中保持战略定力。人工智能自从诞生以后,每次浪潮都由欧美引领,自从2010年以后则由美国特别是企业研发机构引领,我国基本都是跟随研发而并没有重大创新突破,我们要对这种追赶并且挑战的现状充分认识,不能盲目自大也不能丢失信心,在各种噪声中保持对人工智能引领的数字经济信心。
2、加强大模型研究,探索多技能路线。持续加强对人工智能基础研究机构的改革、整合和支持,参考美国人工智能的产品导向思路加强大模型的联合攻关,同时鼓励探索大模型之外的更多技术路线。面对当前我们国内在数据多样性、一致性和标注质量方面的差距,以及算力等数字基础设施的不足,应该鼓励以小模型为基础的多技能技术路线更多落地场景。这样大模型和多技能至少两个技术路线同步并进,从各个方面来缩小与美国的差距。当然我们也要看到,美国主流的这两个技术路线之外,在基础研究方面更是探索小样本学习等更多技术路线。
图:多技能技术路线的示意
3、加快数据基建,推动数据共享。美国面向全球多传感数据和非结构化数据采集的能力,以及美国科技公司相比较我国科技公司数据采集的多样性,是美国人工智能领先的关键因素。我国科技公司主要关注于用户画像的采集和分析,并将此作为商业变现模式,反而在人工智能关注的声、光、电、热、力、磁等多传感数据以及程序代码等非结构化数据方面缺乏积累。我们很难短时间内在开源精神和开源社区方面超过美国,建议一方面加强我们自身的数据采集基础设施建设,另外一方面加快推动多传感数据和非结构化数据的确权与交易,另辟蹊径来实现国内大数据的原始积累,为我国人工智能的超越奠定基础。
4、健全数据标准,规范数据治理。建立国家多传感数据和非结构化数据的标准体系,鼓励各个行业数据采集系统之间的互联互通,消除国内各行业之间的数据孤岛现象和数据不一致的问题。加强对人工智能治理的研究和实践,充分评估生成式AI发展壮大之后,对于国内政治和社会生态的影响,特别是加强生成式AI对于个人精神领域影响的研究,要充分认识到新生产力的进步对于个人和社会的潜在影响。
5、拓宽政策范围,鼓励接力创新。持续扩大对人工智能产业的支持范围,借鉴美国人工智能以企业研发机构为主的经验,特别是美国不同企业接力贡献重大创新的案例,建议将产业政策和重大项目等扩大到新兴人工智能企业范围,鼓励更多以产品和市场导向为主的新兴人工智能企业接力创新。
6、加强人工智能治理,预防AIGC污染。AIGC的发展面临社会和伦理风险,如何规避相关风险,减少能源消耗,实现可持续发展,已引起国际社会的广泛关注。规避人工智能技术难以预测的危害,需要关注人工智能原则的运作,让原则更广泛,最终通过价值重设、软法律和精心设计的政策,将技术轨道推向可持续发展的道路。
本文由陈孝良和潘贝贝编辑整理,在此感谢为此文提供信息和资料的学者、媒体和作者,文中不足之处,欢迎批评指正。期待国内的人工智能研究和产业,欣欣向荣,蓬勃向上!
转载本文请联系原作者(陈孝良)获取授权。