新华财经北京4月27日电(郭兴华)4月26日,“企业数据精准确权与AIGC全球合规论坛”在清华经管学院举办。4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》。4月7日,阿里系“通义千问”官宣内测,结合此前召开发布会的百度“文心一言”,我国多模态人工智能大模型开启了追赶的竞赛。2022年底火速圈粉以来,大量资本和研发进入这一赛道,人工智能的发展进入百米冲刺的阶段。官方发文称,集成算法、算力和预训练数据的AI模型即将进入强人工智能时代,人类可能正面临着有史以来最重大的一次生产力水平跃迁。尽管我国企业目前推出的GPT类产品在性能上与-4相比有不小的差距,但是我们仍然可以在一些方面与之竞争,并非常有可能做的更好。
优质数据集的价值将越来越重要
多模态人工智能大模型的开发工作主要涉及三个部分,算力、算法和投喂数据。根据官方资料和专家分析,在算法方面的创新不多,目前的“惊艳”效果主要得益于算力的大幅提升和数据集的不断完善。得益于AI赛道投入的增多和市场规模的扩大,作为追赶者面临的算力成本投入将呈现下降的趋势。然而,优质数据集作为一种自带版权和产权属性的资产,其使用成本并不一定会随着时间的推移而下降。未来的如何构建优质数据集共赢体系,为AI持续提供高质量预训练数据,将成为AI大模型竞争的核心。
数据来源尽量广泛。根据官方公开的信息,GPT-3的预训练数据来源主要包括英文维基百科及其所有链接网页、 Crawl项目中的Web抓取数据、新闻文章、书籍、论文等文本资源以及其他公共语料库和数据集。这些数据都是从互联网上搜集而来的,以保证覆盖面广、样本多样化。
数据质量要求较高。团队指出,对大规模的自然语言处理预训练数据,进行筛选和清洗是非常重要的步骤,可以提高模型的训练效果和泛化能力。在预处理数据时,需要去除文本中的噪声、错误数据和无用信息。为了避免偏见和不平衡的数据分布,需要对数据集进行均衡和采样。标注和归一化处理。标注是将不同类型的文本数据进行分类和标记,以便进行有监督学习。归一化则是将不同格式和语言的数据进行相应的转换和统一。
清华大学技术创新研究中心数权经济研究室主任钟宏表示,多模态人工智能大模型正以前所未有的进化速度颠覆旧有模式,迅速催生了新业态、新技术和新的应用。但是围绕着数据安全、隐私保护和AI失控的一系列潜在风险成为了影响发展的关键问题。因此,全球急需共同构建AIGC时代下的数字信任体系,为“数字智人”技术的发展、商业化的应用和数字治理来建立规则。中国的大型科技企业需要广泛接入数据资源来训练人工智能模型,大型央国企的数据资源如何去接入人工智能相关的服务,这些问题给时代提出了全新的挑战。为此,清华经管学院、蚂蚁集团共同启动《共建数字信任体系服务科技创新生态高质量发展研究》课题,依托清华在数据要素、数字商品、数字资产领域的智能确权与合规理论体系,发挥蚂蚁集团在区块链、AI等数字智能科技优势,联合多方研究建立面向人工智能时代的数字信任体系,以推动我国AIGC健康发展。
车联网赛道,构建面向自动驾驶模型训练的共享大数据集
依托我国在新能源汽车产业的优势,构筑用于训练5G智能网联车的“”数据集将是一个潜力巨大的投资赛道。在推动汽车行业数据要素流通应用的过程中,一直存在两个难题。首先,数据所属权难界定。当同样的数据被多次交易时,如何充分保障数据拥有者、数据服务商、数据使用者的利益是存在难度的。其次,数据共享与隐私保护之间的矛盾突出。企业间的合作必然牵连到数据合作。如果对数据仅进行脱敏处理,合作企业亦能通过数据的关联性分析出用户敏感信息,从而出现隐私风险;如果企业对数据进行过度处理,共享数据的实用价值就大大降低,制约了企业的深度合作和高速发展。
中汽创智科技有限公司CEO李丰军表示,中汽创智牵头,联合中汽协、汽车企业和清华大学技术创新研究中心共同进行《汽车行业数据确权与合规标准化》研究,希望以清华、DAMA等机构专家在《企业数据确权与全球合规趋势报告(2023)》中提出的“企业数据精准确权”理论体系为基础,针对汽车行业建立有影响力的团体标准,解决汽车行业数字化、智能化发展过程中面临的数据确权难、合规难等问题。中汽创智打造的“汽车大数据可信共享空间(车数空间)”按照“数据二十条”中“原始数据不出域、数据可用不可见”的要求,基于股东方汽车企业沉淀的大量的车联网数据和生态合作方的行业数据,面向异业合作,实现了智能网联汽车大数据在跨行业应用场景中,向企业提供模型、核验等产品和服务,并且包括用途可控可计量的数据共享流通服务。同时,中汽创智正针对“自动驾驶算法”这类需要大数据训练集进行训练的人工智能产品,面向车企同业合作,探索车企间的数据联盟,帮助各个车企建立起面向自动驾驶模型训练的共享大数据集,助力车企自动驾驶研发,实现合作与共赢。
辅助诊疗赛道,AI大模型需要与传统工具相结合
医学是最早通过AI的方法来处理数据,提高诊断准确率的AI应用领域之一。基于医学领域的高质量数据,可以很好的释放AI生产力,赋能医学的相关领域,比如:在医学研究方面,可以有效进行疾病机制研究等;在临床诊疗方面,可以有效辅助提升、规范诊疗措施,以及进一步进行个性化的精准诊疗;在新药研发方面,可以在靶标发现、苗头及先导化合物发现等方面有效辅助药物研发,大幅节省时间和经费。
然而,万方医学研究院院长杨风雷博士认为,有效利用医学数据前,需要解决一些问题,比如数据的确权问题,数据的权利方可能包括患者、医生、医院、政府等不同的相关方。这些数据的多维特征包括个人隐私和信息保护等问题。
杨风雷表示,多模态人工智能大模型的性能总体上让人刮目相看,有潜力解决医学领域相当多的问题。但是,它们也有一些不足,比如:一些答案中存在错误;由于数据分布和不同提示产生回复随机性等所带来的输出不一致;以及模型部署和资源消耗巨大等。这些问题,尤其是前两个问题违背了医学伦理,而这些不足却是传统的基于规则的AI辅助诊疗系统的优势。因此,考虑到医学领域的安全要求高特点,近期或者相当长一段时间内,结合各自优势,采用新旧工具相结合的方式,可能是比较好的选择。
数字经济学家陈晓华在接受采访时表示,AI是新一轮科技革命和产业变革的引领者,也是数字经济时代持续赋能经济社会发展,推动产业优化的新动能。在基础设施层面,随着东数西算工程的持续落地,我国算力供给格局将进一步优化,从而降低相关企业研发与运营的算力成本。从模型层与应用层的角度来看,我国拥有海量的用户群体与数据积累,一旦跨过商业化拐点,各企业将加速融入此类技术并结合自身场景优势实现新一轮产业创新与升级。而从监管和治理层面,国家网信办首个AIGC监管文件征求意见稿发布,意味着我国AI行业的标准化步伐正加速推进,未来我国AI产业生态将更加规范有序可持续发展。