采取分层整群随机抽样方法,依据山东省全员人口信息数据库并结合居民健康档案信息,抽取能够反映真实世界,具有良好代表性、覆盖全人群全生命周期人群的超大样本,其中农村人群样本255万人,城市人群样本236万人。
依托山东健康信息云平台,采用《山东省人口健康信息平台共享数据集(2016年版)》作为统一标准,以个人身份证为唯一索引,采集来自医疗卫生及其相关行业的全员人口信息、基础资源信息、公共卫生信息、电子病历信息(含健康体检信息)、医疗保险信息等领域,包括医疗保险数据、电子病历数据、居民健康档案数据、健康/疾病/死因监测等在内的155个数据库的健康医疗数据。在山东省卫健委的组织领导下,由现场调查队对抽样单元(行政村、社区、医院、学校等)逐一进行现场核查,按照项目组制定的《现场数据质量核查技术规程》核查数据质量。用附近数据质量合格的单位作为不符合数据质量标准的替代抽样单位。
依托山东大学健康医疗大数据研究院的健康医疗大数据云技术平台,以个人身份证为唯一索引,联接、清洗、标准结构化处理和融合上述155个数据库中的大数据信息,完成医疗保险数据、电子病历数据、居民健康档案数据等数据信息的关联和匹配,按照项目组制定的《数据质量核查标准》,通过数据质量核查技术规程(包括逻辑校验、剔除异常值等),进行数据入库前的质量校验,从而创建全人群全生命周期纵向大数据示范队列。