采取分层整群随机抽样方法,依据山东省全员人口信息数据库并结合居民健康档案信息,抽取能够反映真实世界,具有良好代表性、覆盖全人群全生命周期人群的超大样本,其中农村人群样本255万人,城市人群样本236万人。

样本代表性
依托山东健康信息云平台,采用《山东省人口健康信息平台共享数据集(2016年版)》作为统一标准,以个人身份证为唯一索引,采集来自医疗卫生及其相关行业的全员人口信息、基础资源信息、公共卫生信息、电子病历信息(含健康体检信息)、医疗保险信息等领域,包括医疗保险数据、电子病历数据、居民健康档案数据、健康/疾病/死因监测等在内的155个数据库的健康医疗数据。在山东省卫生健康委员会的组织领导下,由现场调查队对抽样单元(行政村、社区、医院、学校等)逐一进行现场核查,按照项目组制定的《现场数据质量核查技术规程》核查数据质量。用附近数据质量合格的单位作为不符合数据质量标准的替代抽样单位。
依托山东大学健康医疗大数据研究院的健康医疗大数据云技术平台,以个人身份证为唯一索引,联接、清洗、标准结构化处理和融合上述155个数据库中的大数据信息,完成医疗保险数据、电子病历数据、居民健康档案数据等数据信息的关联和匹配,按照项目组制定的《数据质量核查标准》,通过数据质量核查技术规程(包括逻辑校验、剔除异常值等),进行数据入库前的质量校验,从而创建全人群全生命周期纵向大数据示范队列。
为在一个横断面上获取全人群全生命周期健康医疗大数据信息,队列采用全人群全生命历程数据映射方法,以个体年龄为映射索引,映射到生命历程时间轴上;并采用加速追踪设计,以个人身份证号为唯一索引,在建立队列,向后回顾性采集一定时间,向前则实时采集大数据,汇聚成覆盖全人群生命历程、纵向随访时间和研究时间窗较长的健康医疗大数据队列,从而构建跨越整个生命历程的健康医疗大数据信息流。


队列计划覆盖山东省2000万人群,目前已收集500万人群数据,预计2019年完成1500万样本量收集。队列成员随机分布在山东省22个县、16个城市,包括5个亚队列:农村社区全人群亚队列(200万人)、城市社区全人群亚队列(150万人)、城市职业人群亚队列(65万人)、大、中、小学生亚队列(45万人)和妇幼人群亚队列(40万人)。


基于队列创建山东省全人群全生命周期健康图谱,包括危险暴露图谱、疾病图谱、死亡图谱、疾病负担图谱、健康服务图谱、健康服务保障图谱6个维度,对于全面系统地阐明我省人群健康危险暴露、疾病分布、死亡模式、疾病负担、健康服务及健康服务保障的本底状况,指导我省卫生规划、政策制定、医学研究和健康产业布局,推动新旧动能转化,具有重大战略意义。