chatgpt的 生成式 注意力机制 ChatGPT浪潮下,看中国大语言模型产业发展

默认分类2年前 (2023)发布 admin
5,036 0
ChatGPT国内版

©2023.4 . 浪潮下,看中国大语言模型产业发展2©2023.4 .前言的横空出世拉开了大语言模型产业和生成式AI产业蓬勃发展的序幕。艾瑞将撰写AIGC系列报告,包括此篇《浪潮下,看中国大语言模型产业发展》、《AIGC系列-中国生成式AI基础层行业研究报告》、《AIGC系列-中国生成式AI应用层行业研究报告》等,为市场描绘AIGC产业全景与辨析产业发展价值与空间。此篇专题将着重分析“的成功之路”、“中国类产业发展趋势”、“应用场景与生态建设”、“浪潮下的‘危’与‘机’”四个问题。聚焦国内市场,辨析中国自研通用基础大语言模型的重要意义、分析中国大语言模型产业参与角色分化路径及原因、梳理呈现中国大语言模型产业受益链图谱。大模型(以大语言模型为主,包含多模态模型等)产业的蓬勃发展将改变数字产业生态,助力AI工业化进程、变革海量应用交互方式、创造数字产业新的增长空间。及大语言模型丰富价值的背后,也隐藏着社会对其及生成式AI技术(AIGC)与通用人工智能(AGI)的疑虑,可信、数据与隐私安全、滥用风险、伦理等层出不穷的问题需要规范与解决。

但“未来已来”,国家、企业到个体都需立足长远,迎接AIGC与AGI时代的到来。——艾瑞咨询研究院的成功之路1中国类产业发展趋势应用场景及生态建设浪潮下的“危”与“机”4©2023.4 .——生成式AI里程碑生成式AI的重大突破,通用基础大模型的胜利相比之前的生成式对话产品,(-)在大范围连续对话能力、生成内容质量、语言理解能力和逻辑推理能力上都得到大幅提升,超出了大众对于一款聊天机器人的预期,是生成式AI(AIGC)极为关键的发展节点。作为一款生成式预训练大语言模型,“Chat”指向它的功能,“”代表它属于生成式算法。生成式算法在过去数年中受制于RNN的内生缺陷始终发展缓慢,直到2017年“”架构出现并解决了传统RNN模型的问题,生成式AI才开始在预训练的架构之上焕发生机,NLP、CV甚至多模态领域通用基础大模型飞速演进。在模型参数量几何级数增长以及多种训练方式的探索之中,横空出世,也标志着通用基础大模型将突破NLP领域以小模型为主导的传统发展范式。

来源:艾瑞咨询研究院根据公开资料自主研究绘制。生成式AI预训练大模型探索判别式AI微调小模型时代引领大模型时代架构在计算上的高效性和良好的迁移能力使预训练的迅速取代RNN成为大语言模型的主流训练框架。生成式AI发展历程与的突出能力:抽样出在概率上与上文相关度最高的单字形成下文以小模型为主导的分析型算法是AI领域主流,生成式模型受制于RNN的顺序计算效率低、长序列处理能力不足等问题,无法得到良好的发展。2:将每个新生成的字与上文所有内容合并成新的上文,再次根据这个上文预测下一个字低生成式算法GPT-4生成式AI原理(以所用自回归算法为例)的突出能力Ø更好的语言理解能力:自注意力机制和多头注意力机制可以有效地学习输入序列中的关系和语义信息,使得模型更好地理解和生成文本。Ø提升计算效率:避免了RNN中的顺序计算,大大提高了模型的计算效率。Ø长序列处理能力:相比CNN,计算两个位置之间的关联所需的操作次数不随距离增长。的革命性 微调小模型生成质量大大提升 其他大模型更接近商用水准通用性强:回答范围不局限在某个行业领域,而是几乎所有的人类知识范围连续多轮对话:能建模对话历史,提供持续交互体验(支持最多20轮次问答交互)生成能力强:生成内容流畅通顺,能够回答从未见过的问题,创作能力甚至超过部分人类的水平回答更“类人”:回答更生动自然有逻辑,符合人类价值观上文请告诉我“举头望明月”的下一句:下文12低…5©2023.4 .探秘的能力从何而来?RHLF指令精调+能力涌现,让大模型说好“人话”具有的惊人效果,是在超大预训练语言模型GPT-3.5基础上,进一步根据人的需求目标进行模型调优的结果。

巨大的参数量和预训练数据量让GPT-3.5成为一颗储备了大量知识,并且具备语言生成能力的混沌“大脑”,再使用人类反馈强化学习(RHLF)的方法进行指令精调,将模型的各项能力激活,并以符合人类的需求、偏好和价值观的方式有效释放,同时大大提升了模型应对从未见过的新指令的能力。此外,在逻辑推理、上下文理解等方面的能力,是模型参数量达到该量级后“涌现”出的,即所谓的“大力出奇迹”,这一现象在其他预训练大模型中也得到了印证。来源:《 with Deep ,Jesse Mu》,艾瑞咨询研究院根据公开资料自主研究绘制。…………共128层每层千个节点能力实现解析GPT采用神经网络架构(如上图所示),由128层网络和1750亿参数组成,并使用45TB数据进行训练。此时大模型已经具备了许多能力,但是不懂得如何发挥效果。GPT-3.5模型抽象示意图模型进化过程语言生成基础大模型:说胡话的混沌大脑模型微调:以说人话为目标进行规训人工对大量问题形成回答模板供模型学习学习回答模板人工对GPT生成的数个答案进行排序,建立奖励模型,自动为后续生成结果打分作答评分调整考试提升水平建立评分机制+从“乱说话”到“说人话”指令精调根本目的是希望模型能够生成符合人类需求和偏好,并且具有较高安全性和正确性的回答。

在这一阶段大量使用了人工标注的方法,同时通过形成奖励模型,让GPT能够脱离人工指引,自动通过不断地“考试”,进行模型调优。指令精调流程示意图能力激活Chain of 能力随模型规模增大涌现示意图+逻辑推理能力大模型具有的部分能力是在模型参数量达到一定规模后突然出现的,随着模型参数指数级增长,这些能力呈明显的线性增长。上图演示了在提问里给出推理过程范例,模型就能给出具有同样推理逻辑的回答()这项能力在LaMDA、GPT和PaLM三个模型上的演变过程。能力涌现:大力出奇迹大量知识储备语言理解对话翻译提炼分类123能力演化创作代码+举一反三已具备所有基础能力,但质量差能够按照人类偏好、习惯和普世价值取向,并保证一定安全性的前提下生成应用度较高的内容应用指数应用指数应用指数+上下文理解能力由于模型参数足够大带来的“彩蛋”,进一步充实了模型能力,更加接近人类水平6©2023.4 .成功背后:秉承初心+巨量资源的成功是一场初心+资源加持下的长期主义的胜利,GPT模型正是在密集烧钱策略后出现的,而这一明确指向商业化的产品则显然受到从非营利向半营利转型的发展路径影响。

来源:艾瑞咨询研究院根据公开资料自主研究绘制。2018….成立非营利阶段半营利阶段2015-2018.06阶段成就:发布AI工具包和模型训练平台,开始研究DOTA对战和语言模型,为后续研究蓄力。在Sam 上任前,Open AI的年均资金投入尚不足的1/10,资金短缺造成了高端人才流失,也使得模型研发进展较为缓慢。2019…03GPT-1GPT-2GPT-3基于GPT-3的视觉模型DALL-E和CLIP基于GPT-3的对话模型-4模型研发商业化参数量117M1.训练数据量4.在这一阶段,调整经营模式,吸纳巨量资金,大模型研发飞速进展并达到一个令人满意的智能程度,随后开始通过定向微调模型,依次推出面向图片生成和文本生成的大模型,并直接达到了商用水平。2019.03马斯克退出,成为首任CEO。成立有限合伙公司,成为半营利模式。资金投入与发展策略为成功带来至关重要的影响资金:数十亿美元算力:一万块A100打底人才:全球顶尖人才的几位创始人以造福全人类为宗旨,希望能够研发出能够安全可控,放心使用的高水平AI技术。

在这一初心的指引下,创始人兼CTO不断用第一性原理的思维定位研发方向,走出技术瓶颈,才让得以成为今天通用AI领域的重要力量。据国盛证券测算,在不考虑算法优化的情况下,需要3万块A100芯片才能支持每日2500万人访问量,在考虑算法优化后保守估计在1万片左右。微软Azure为GPT-3准备的训练研发平台在2020年时共部署英伟达V100超过1万块,置换为A100,则所需GPU算力约为3000-5000块英伟达A100。训练运行成本可分为数据、模型训练、模型运营和人工等部分,从GPT-1开始算起到诞生,总花费约为数十亿美元。团队共87人,毕业院校以斯坦福、伯克利、麻省理工为主,其中有5人被评为2023年度“全球人工智能学者”。GPT-3训练数据达45TB,相当于阅读了数千万本文学巨著。数据:.07接受微软10亿美元注资不仅是多种关键要素的聚合,更突显方向与路径的重要性初心:实现安全的成功要素分析7©2023.4 .竞品分析:技术能否赶超?存在赶超机会,但中外差距短期难以追平与功能对标的大语言模型(,LLMs),目前国外主要有Goo

chatgpt的 生成式 注意力机制 ChatGPT浪潮下,看中国大语言模型产业发展

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...