聚象科技对关于目前人工智能行业的一些问题。
一、大数据、以及AIGC的关系
大数据是指读取海量数据、参数规模巨大的算法模型。业界一般认为超过千亿级参数即为大数据,其训练过程中可能使用了上千张以上的GPU/CPU芯片。与AIGC均为大数据的应用场景之一。可以类比原有的对话式AI应用、AI赋能的搜索类应用。AIGC则可以分为生成文本、生成图像、生成视频,也可以归为大数据的应用场景之一。
二、-4为代表的大数据的变革
自发布GPT1.0模型之后,一直在持续迭代,陆续发布GPT2.0、GPT3.0和GPT 3.5,本次发布GPT4.0是其持续投入AI大数据的必然阶段。相比前几个模型,GPT-4的参数量更大,模型迭代时间更长,也能够给出更准确的结果。新版本的发布是大数据循序渐进发展的必然成果。正如百度李彦宏所说:“公司每一年都会发布大数据的新版本,是多年努力的自然延续”。
三、可能带来的产业影响
实质是对话式AI的应用,对话式AI的落地已经非常广泛。根据IDC追踪的人工智能市场规模数据,对话式AI市场规模在2022年达到54.6亿元人民币,其市场渗透率相对已经饱和。引发的浪潮促使主流厂商在其对话式AI应用中引入大数据,将带动对话AI相关市场新一轮增长。此外,在搜索、营销场景中,类型的应用则可能衍生出全新的产品形态。
四、引发的AI行业改革
过去几年部署的AI应用,接下来几年都有可能被基于大数据的AI所替代。升级迭代可能会从优先具备海量数据的场景开始。当大数据支撑的AI应用成为主流,不能利用大数据能力的厂商将失去竞争优势。未来的工作中,AI助理将替代更多人类的工作。诸如文生图的应用,诸如各领域初级内容的搜索,均可以借助AI生成的内容。
五、可能的投资规模
目前已经公开的大模型诸如GPT系列、Bert系列所耗费的算力根据公开资料可以查到。而真正落地到产业界,具体的投资规模要视应用场景决定。投资成本与所需的算力,是否部署完整的大模型,以及要推理的数据流量相关。
六、新一代AI需要注意的问题
生成式AI生成内容的版权需提前规划。生成式AI读取海量数据后生成的图片等内容有可能会引起版权问题,需要提前从规则上加以控制。对原有流程的改变:一方面生成式AI生成的内容还需要人类审核才能发布,另一方面可能会要求工作流程上做出改变以适配AIGC的加入。
鉴于其仍处于技术成熟度的早期阶段,在传统行业应用场景不十分清晰,投入产出比目前也难以评估。