针对生物医学及健康医疗大数据的高维灾难、高度稀疏、高度异质等特征,通过近 10 项国家自然科学基金的连续资助,研究院在关联分析、预测与临床决策分析和因果推断三个层面,构建了集生物组学、影像组学、暴露组学、表型组学为一体的健康医疗大数据分析方法体系并建立相应平台。
关联分析技术研发平台
在关联分析层面,构建了病例系列设计、病例对照设计、巢式病例对照设计、队列设计、纵向设计等多种设计类型的关联分析的统计技术流程。
预测与决策技术研发平台
在预测与决策层面,基于深度统计学习理论方法,构建了电子病历(EMR)大数据介导的“疾病进展转归模型、电子表型挖掘、病例相似性搜索、医学概念识别、疾病轨迹模型、临床路径模型、疾病预测与风险评估模型、疾病辅助临床决策模型、疾病个性化临床诊疗模型”等多个技术模块。
因果推断技术研发平台
因果推断是通过探讨和利用数据确定因果关系、度量因果效应的方法。因果图模型提供了一种用概率图进行因果推断的框架。因为其能直观表示因果知识,有效地对因果效应进行概率推断,使相关方法成为统计学、机器学习、生物信息等领域的研究热点。然而,利用数据,特别是观察数据进行因果学习和推断的方法还不完善,大多基于实际数据的因果分析很难得到理想效果。研究院在因果推断层面,建立了从健康医疗大数据中搜索因果生物标记的因果推断方法体系平台。该体系包括马尔科夫毯、后置/外置辅助变量、因果途径设别、致病通路/网络比较、靶向最大似然学习、因果随机森林等;将深度机器学习与因果推断理论有机结合,基于倾向得分、工具变量、回归调整、后门准则、前面准则、条件独立准则等因果推断思想,构建了基于深度神经网络、深度随机森林的个性化因果效应(ITE)估计方法,为个性化精准医学研究提供了工具,并基于该体系平台发表了 SCI 论文 10 余篇。