伴随医疗信息化的发展,大数据及人工智能技术的应用改变了传统的疾病诊疗模式,推动疾病诊治进入个体化“精准医疗”新时代。大数据、精准医疗和人工智能的发展逐渐成为各级政府、医疗机构、企事业单位的关注焦点,随着越来越多的临床人工智能产品落地,面向精准医疗的大数据与人工智能研究必将迎来新一轮热潮。
陈光榆等[1]2020年进行的一项调研发现,临床研究人员中77%对统计建模方法不够了解,73%对统计软件的使用不够了解,68%对文字统计图表规范呈现没信心,与之对应的是临床研究人员对科研的需求越来越迫切。黄小龙等人[2]调查了研究型医院学会64家分会单位,发现医院大数据应用的普及程度远比预期的要低,得分为(2.49±0.76)分(最小值为1分,最大值为5分,样本量为94例),说明综合性医院的医务人员认为医院大数据应用总体还处于未普及状态,医院大数据应用水平未能有效满足医务人员需求,应注重提升数据基础质量和临床数据应用的推广力度。
在这个背景下,临床研究也越来越得到重视,同时随着各级医疗机构大数据中心的建设及人工智能应用在临床领域不断涌现,基于人工智能的临床研究数量也逐年上升,让临床研究人员在传统医学统计分析之外,开启了一个新的思路和方向。高质量的临床研究成果可以有效辅助医护人员进行临床决策,推进疾病诊疗的发展,不完全统计,2020年发表的临床预测模型相关文章就达到了48884篇,近5年发表的论文数量趋势呈指数级增长。
科研需求是科研人员愿意且有时间参与、有能力消费的科研服务量,是客观上能满足的,是科研人员在开展科技活动所处的科研客观环境[3]。对于临床科研需求来说,临床研究需要丰富的统计分析、数据挖掘知识,学习这些知识需要大量时间成本。传统的统计软件入门门槛较高,下载安装烦琐,且正版收费昂贵。而且医疗数据复杂度较高,数据预处理、结果整理等重复性工作占用了大量时间。
对于缺乏数据分析基础以及相关建模知识的临床研究人员或临床医生而言,难以进行临床预测模型相关的研究[4],研究探索构建一个一站式、简单快捷的可视化临床研究数据分析与建模云平台,为临床研究建模提供技术和方法支撑,将大大减少开展相关研究的时间和经济成本。同时该平台也能作为一个临床研究数据挖掘及建模的可视化辅助教学工具,帮助学生清晰了解各类算法的理论、操作及结果,更好地学习数据挖掘及其应用开发。
1 面向临床研究云平台的设计与构建
1.1 平台系统架构
参考国内外在线分析平台的相关案例[5-6],平台采用和R语言实现后端算法,其版本为3 .6.7、R版本为3 .6.3,采用作为应用服务框架。为满足高并发机器学习的需求[7],配置了多台服务器做Nginx负载均衡,关系数据库采用MySQL,非关系数据库采取Redis。前台采用模板渲染和Vue.js实现。当用户进行数据分析时,Nginx会根据每个请求访问IP的Hash结果分配平台任务,根据JWT鉴定授权使用微信或者手机号完成用户认证,用户上传数据后可使用数据治理、统计分析、人工智能建模等模块对应的服务,最后服务器把处理后的数据或图片展现给用户,平台系统架构见图1。
1.2 平台主要功能
根据临床常用的研究分析场景,平台包含4大分析与建模功能模块:数据整理模块、基线分析模型、高级统计分模块、AI分析模块。除此之外,为方便临床研究的学习与管理,平台还提供了项目管理、图表工具、智能文章、视频教程以及研究者交流等功能,云平台功能框架见图2。
1.2.1 数据整理
数据整理是数据挖掘的前期预处理工作,是开展临床研究的必要步骤[8]。数据整理主要包括:缺失数据剔除、相关性/共线性变量剔除、异常值处理、智能数据填补、数据标准化、PSM倾向性匹配、样本均衡、分组重编码、数据编辑等10大功能模块,该模块基本涵盖了临床研究中常用的数据清洗方法。
1.2.2 基线分析
基线分析是对研究目标人群进行初步数据特征的描述,该模块主要包括综合智能统计分析、数据描述、/检验、t检验、非参数检验、多重比较、正态性校验、方差齐性校验等12个分析模块,其中综合智能基线分析能够快速对数据情况进行描述,无须选择分析方法,系统自动根据样本量、样本分布以及研究目标选择分析方法,让研究人员能够直观、快速了解不同分组的差异。
1.2.3 高级统计分析
高级分析包含逻辑回归、生存分析、Cox回归、ROC曲线、多模型(多应变量)回归、分层回归、趋势回归、平滑曲线拟合、智能分组等10大功能模块,让临床研究人员能够实现快速统计建模,一键展示分析结果,自动生成分析产生的三线表、森林图、等图表。
1.2.4 AI分析
机器学习被认为是一组能够利用经验数据来改善系统自身性能的算法集合[9]。在机器学习中,深度学习被定义为“一系列试图使用多重非线性变换对数据进行多层抽象的算法”[10]。平台的AI分析则是利用机器学习及深度学习模型帮助探索影响因子并建立预测模型。该方法囊括了、SVM、KNN、随机森林等20余种机器学习算法,当临床研究者进行模型建模时,利用Numpy和完成数据的格式转换,并根据用户输入的测试集比例,引用的包完成对训练集和验证集的划分,同时引入遍历多种超参数组合,通过交叉验证确认最佳效果参数完成模型训练,全面展示训练集和验证集的学习曲线、ROC曲线、F1值等模型评价指标。
2 主要优势与关键技术
常用的统计分析工具都存在不同的应用不便捷问题:SPSS可扩展性比较弱,很难对算法进行改进;SAS不开源外加收费较高;R语言是编程语言,临床医生大部分难以掌握。同时这些软件大部分都需要本地安装,操作配置也较为麻烦,利用本平台则可以很好地解决上述问题,主要优势与关键技术如下。
2.1 基于框架构建了临床研究AI建模云平台
无须安装即可使用,结合Rpy2包实现与R语言的兼容,充分发挥两种语言的优势,使得平台相较于SPSS等传统分析软件拥有更优秀的可扩展性,以适应各类研究者。
2.2 基于并行高速计算的自动优化寻参框架
AI建模对于参数选择有极其敏感的依赖性,故而在面向大数据建模的场景中,参数搜索是时间资源消耗最密集的部分。同时,参数确定的过程往往需要高度系统化的建模经验,成为临床数据建模的一大瓶颈。-learn是目前比较流行的机器学习算法库,基于-learn以及业界最前沿的开源分布式寻参框架Ray,平台实现了一套全自动化的寻参系统,将临床研究中数据建模的技术瓶颈从根本上消除。
2.3 完整的智能机器学习建模体系
平台构建了一套完整的覆盖变量筛选、模型比较、参数优化、模型结果分析的智能机器学习建模体系,整合了、SVM、随机森林、等10余种机器学习算法。其中,随机森林( , RF)是由于2001年提出的一种集成机器学习算法;是由陈天奇于2016年提出的基于GBDT的改良算法,目前被广泛应用在竞赛,也在其他机器学习领域取得了优秀的成绩。平台目前整合了机器学习和数据挖掘领域流行的分类与回归算法[1 1],常用的算法列表及分析步骤见图3。临床研究人员能够通过该平台实现一键快捷建模,能够帮助没有机器学习方面基础的临床医生快速构建合适的机器学习模型。
2.4 建立了项目导向的临床数据建模平台
相较于传统的基于方法的数据分析工具,该平台以临床研究项目为中心,所有方法数据都存储在该项目中,临床研究人员可随时总览该项目的整个分析流程,并导出完整的分析结果[12]。平台分析功能流程的设计完全符合临床研究的实际需求,研究人员可按照数据治理、基线分析、高级分析、AI建模的流程进行分析工作。例如平台的数据整理中“PSM倾向性匹配”模块,该模块支持一键匹配,自动根据较少样本的一组按比例匹配。见图4。研究人员通过“智能综合统计分析”探索数据的基本状态,该功能可自动根据分组数、样本类型、正态性、方差齐性等样本信息智能选择统计方法,并生成统计结果表格。见图5。完成对数据基本状态的整体探索和描述后,平台可进一步对每个变量的影响因素进行评估,集成了回归分析、COX回归分析、单因素多因素分析、分层分析等功能并能够自动生成ROC曲线、列线图、森林图等一系列图表。见图6。研究人员可进一步比较不同机器学习模型的预测效能,“分类多模型综合分析”是将基于特定模型的研究扩展为多种模型对比下的泛化研究,平台可以智能使用多种模型进行分析。该模块可在研究人员不确定最佳模型的情况下,帮助研究人员找到合适的模型,充分满足了对于复杂问题的多角度研究需求。见图7。 最终平台通过每个项目独立记录的流程来追溯对应的操作步骤, 通过以项目为导向的建模流程实现了项目的可持续和可追溯,便于研究人员对自己的分析过程进行回 归,同时也便于指导老师的教学与指导,见图8。
3 结论
该平台的研发为临床研究人员提供了一个在线的可视化医疗大数据与人工智能分析建模平台,降低了临床研究的门槛,提升了临床研究工作者的研究效率,满足了临床研究人员分析与建模的迫切需求,也积极响应了《国家新一代人工智能开放创新平台建设工作指引》,促进人工智能技术在医疗领域的扩散与转化应用。
除此之外,本平台还是一款临床研究数据挖掘及建模的可视化教学工具,相较于传统的SPSS等分析软件,该平台完全由国内团队自主研发,操作简洁无须下载,可视化分析结果界面,分析时同时展示方法说明和分析结果,更有助于数据挖掘相关教学工作,降低了临床工作人员进行临床研究的门槛。下一阶段的工作目标是对平台现有算法及性能进一步优化,例如增加深度学习[13]、混合线性模型( model)、广义估计方程( , GEE)等传统统计算法,以及增加智能数据整理功能等集成算法,进一步提升平台的功能性及便捷性[14]。
同时利用公众号、视频网站等新媒体对平台进行推广,平台已注册微信公众号,通过公众号向临床人员系统地介绍平台的功能及使用方法,同时展示相关的研究成果及案例,目前公众号已实现了数万人次的阅读。公众号的阅读人次以及平台注册人数的快速增长,都说明临床研究人员对大数据、数据挖掘以及人工智能建模方面的需求是巨大的。未来将进一步收集研究需求,对平台进行持续优化,更好地帮助临床研究人员进行相关分析及建模,该研究项目的推广将有利于夯实人工智能技术在临床研究领域发展与应用基础,同时促进大数据及人工智能技术在医疗领域的发展与应用。
参考文献
[1]陈光榆,李学海,王耀晟,等.临床医师开展临床研究专业支持需求调查[J].中华医学科研管理杂志,2020,33(1):60-63.
[2]黄小龙,罗旭,汪鹏,等.医院大数据应用影响因素分析与对策研究[J].中国医院管理,2018,38(3):61-63.
[3]苗卫军,刘燕清,赵虹,等.临床医生科研需求分析与均衡科研管理初探[J].现代医院,2014,14(3):124-126.
[4]李维,陈祁,张晨,等.基于大数据技术的临床数据中心与智能分析应用平台构建[J].医学信息学杂志,2014,35(6):13-17.
[5]汪志峰,赵宇海,王国仁.异构Flink集群中负载均衡算法研究与实现[J].南京大学学报:自然科学,2021,57(1): 1 10-120.
[6] XIA J, N,YOUNG N,et al.:A web f o r m e t a b o l o m i c d a t a a n a l y s i s a n d i n t e r p r e t a t i o n [ J ] . N u c l e i c A c i d s Re s , 2 0 0 9 , 3 7 (We b S e r v e r issue):W652-W660.
[7]李根.基于框架的生物信息网站建设[D].大连:大连海事大学,2014.
[8]杜小勇,陈跃国,范举,等.数据整理:大数据治理的关键技术[J] .大数据,2019,5(3): 13-22.
[9]潘兴广,牛志忠,张明贵.基于的支持向量回分析[J].现代信息科技,2019,3(6):9-1 1.
[10]周屹,冯兆祥,白熙卓,等.基于随机森林算法的数据分析软件设计[J].黑龙江工程学院学报,2017,3 1(3):38-41.
[11]葛晓伟,梁盼,马晓旭,等.基于机器学习的新冠肺炎与流感快速鉴别方法的研究[J].中国数字医学,2020,15(9):21-23.
[12]邹常思,张纯,郭儒雅.临床医生科研需求与科研管理的实现思路解析[J].中国现代医生,2015,53(33):133-135.
[13]孟凡皓,田瑜,乔波,等.基于大规模临床数据深度学习的口腔疾病人工智能预防与诊断平台的构建[J].精准医学杂志,2020,35(6):497-500.
[14] G A L L A N T J L , H E U N I S T, S L,et al.:A web-based for rapid of prot eomi c s da t a proc e s s ed by M a x Q u a n t [ J ] . B i o i n f o r m a t i c s ,2020,36(19):4965-4967.