天津市医疗信息化建设协作联盟网 医院信息化建设网 his2000.com(WAP手机版)
首页 > 论文学术 > 期刊论文

电子健康档案数据挖掘与整合技术新进展

作者:his2000.com  来源:his2000.com  阅读:1773
导读 
电子健康档案记录了个人生命体征、医疗检查与诊断等健康相关信息。大数据技术发展,推动了电子健康档案的跨机构大规模数据整合和挖掘,促进了数据驱动的医学研究、临床决策支持和健康管理。论文综述了电子健康档案数据的整合和挖掘应用,介绍了基于深度学习的电子健康档案挖掘技术。随着人工智能的发展和应用,电子健康档案将成为推进医学研究、支持临床决策的重要资源。
---------------------------------------
文章来源:《中国数字医学》杂志2017年第9期,作者及单位:张宇 李姣,中国医学科学院医学信息研究所

1
引  言

2005年美国HIMSS年会提出Electronic Health Record概念(国内翻译成电子健康档案,简称EHR),指出EHR是深度数字化的、关联的个人终身医疗保健记录,从时间跨度上覆盖个人从生到死的整个生命周期,从内容上强调完整的个人健康信息。

随着大数据技术的发展与应用,EHR在驱动医学研究、临床决策支持和健康管理中发挥重要的作用。医学研究方面,EHR挖掘有助于实现患者分层、疾病风险因素识别以及医疗措施的效果对比研究等。临床决策方面,EHR包含大量患者特异性信息和医疗信息,通过挖掘这些信息可以为临床决策提供强有力的证据。此外,EHR与生命组学数据的整合和挖掘可以揭示疾病-基因关联,促进疾病的靶向精准治疗。近几年来,EHR数据挖掘技术越来越多的应用于研究疾病并发症、患者分层、药物相互作用、药物警戒等。

本研究综述了EHR挖掘和整合技术的新进展,包括:基于深度学习的EHR数据挖掘;EHR跨地区/机构的整合以及与生命组学数据整合;基于开放EHR的数据挖掘。最后,对EHR数据挖掘和整合技术的发展进行了总结和展望(图1)。

图1 EHR数据挖掘整合应用

2
基于深度学习的EHR数据挖掘

2.1 深度学习的基本思想

深度学习是一种复杂的机器学习算法,通过模拟人的分层视觉处理系统来对数据中的特征进行分层表达,进而实现认知、分类和预测等功能。其基本思想是构建一个含有n层(S1,…Sn)的系统S,系统的输入为X(文字或图像等),每一层的输出作为下一层的输入,通过调整系统各层参数使得系统的输出仍为X,则X在经过系统的每一层都没有数据损失,任一层Si都是对原有输入X的另外一种表示,实现了X的分级表达。深度学习是多隐层的多层感知机,其模型的训练首先采用逐层初始化的方式逐层训练每一层,这一过程是无监督训练,之后对模型中每一层的参数进行微调,从而实现对数据的自动多层特征表示,具有对多维数据的强大的特征表示能力。利用深度学习实现复杂EHR数据的多层特征表示,在支持临床和医学研究上具有巨大的潜力。

2.2 深度学习在临床和研究中的应用

EHR涵盖文字、影像等多种类型的复杂医疗数据,基于深度学习的EHR挖掘在推进医学研究辅助临床决策上大大优于传统的机器学习算法。Varun 等人利用卷积神经网络对美国EyePACS系统和印度三家医院的以黄斑为中心的视网膜眼底影像进行挖掘,进而识别糖尿病视网膜病变和糖尿病性黄斑水肿。利用EHR对疾病进行预测可以更好的支持临床决策,但实现预测模型的关键在于患者数据的表征和特征选择,Riccardo等人利用三层堆叠的去噪声自动编码器基于Mount Sinai数据仓库中704857名患者的EHR数据(包括人口统计学数据和临床记录等)构建深度患者表征—“deep patient”,并利用随机森林算法分别基于“deep patient”、原始EHR数据和常规特征学习算法表征的患者数据构建疾病预测模型,进行包含糖尿病在内的多种疾病的预测效果对比,证实了“deep patient”对构建预测模型的显著优异性。此外,基于深度学习的EHR挖掘还被应用于表型分型、疾病风险因素识别等各种医学研究和临床应用(见表1)。


3
大规模EHR数据整合

3.1 跨地区/机构EHR数据整合

EHR包含了患者丰富的医疗健康信息。利用自然语言处理技术对EHR进行处理可以为医学研究提供一个高颗粒性纵向的可计算数据集,促进医学研究和医学知识发现。然而,EHR是分散的异质性的。因此,EHR跨机构/地区的大规模整合是当前亟待突破的一项挑战。目前,多个组织和机构在开发EHR大规模整合的项目和平台,如PCORnet , CER Hub和EU-ADR等。PCORnet由患者导向医疗质量研究所(Patient-Centered Outcomes Research Institute, PCORI)发起,通过整合美国11个临床数据研究网络(CDRN)和18个患者驱动的研究网络(PPRN)的EHR信息来支持效果对比研究。PCORnet共涵盖美国50个州超过1.1亿患者的EHR数据。CER Hub也是一个支持效果对比研究的数据平台,这一平台整合了6个卫生系统涵盖美国西北部、夏威夷等7个地区超过266万患者的EHR数据。药物警戒方面,欧盟委员会资助的EU-ADR项目整合了荷兰的PHARMO数据库、英国的QRESEARCH数据库等8个数据库超过3000万名患者的EHR数据来为药物安全监测提供支持。

3.2 EHR与生命组学数据整合

EHR与生命组学数据整合和挖掘可以揭示疾病-基因之间的关联,从分子角度探索疾病之间的关系,揭示疾病共病的分子机制。David等人通过整合和挖掘Medicare数据库、The COPD Knowledge Base和NCBI Gene数据库中的数据来识别慢性阻塞性肺疾病(COPD)的共病情况及其潜在发生机制。该研究发现了COPD共病发生的候选生物标记物,如IL15和JUP。目前,已有多个机构和组织在整合EHR和生命组学数据如eMERGE网络。eMERGE网络是一个由美国国立卫生研究院组织并资助的医学研究机构联盟,旨在结合DNA生物数据库数据和EHR来实现遗传学研究和基因组医学。目前,eMERGE网络包含9个研究机构和两个测序机构,涉及超过570000人的生物数据库数据和与之链接的EHR数据。Ritchie等人基于eMERGE网络中Mayo Clinic和Marshfield Clinic等四个机构的EHR数据选出研究所需的白内障病例组和对照组共7397人,并根据这7397人的单核苷酸多态性数据进行全基因组关联研究从而识别年龄相关的白内障的基因标记。识别出的白内障相关基因包括GAN和MEF2C等。

4
基于开放EHR的数据挖掘

EHR数据的开放与共享在国际科研机构的推动下取得了进展。基于开放EHR的挖掘推进了临床研究与疾病监测等方面的应用。MIMIC(The Medical Information Mart for Intensive Care)数据库是由Massachusetts Institute of Technology, Philips Medical Systems和Beth Israel Deaconess Medical Center(BIDMC)联合开发的一个可开放获取的EHR数据库。它收集了BIDMC重症监护病房(ICU)2001-2012年38597名患者的EHR数据,主要分为三类:(1)ICU信息系统和医院档案中记录的临床数据,如人口统计学信息、医疗记录和实验室检查值等。(2)ICU床旁监视器实时记录的波形数据和生命指征等生理数据,如心电图和血压等。(3)社会安全局死亡管理文件中记录的死亡数据。MIMIC的最新版本MIMIC-III可以在网站(http://mimic.physionet.org)上免费获取。目前,基于MIMIC数据库的EHR数据已实现多种生物医学研究,包括临床结局预测、疾病风险因素识别和效果对比研究等。Thomas等人开发了一种名为“InSight”的机器学习算法,基于MIMIC-III数据库中15岁以上ICU患者的8项常规测量数据(包括年龄、生命体征等)对脓毒症的发生进行预测。该算法的预测性能达到了ROC曲线下面积0.88。

5
总结与展望

EHR包含了患者丰富的医疗健康信息,具有推进医学研究辅助临床决策的巨大潜能。深度学习可以实现文本、影像等多种类型EHR数据的深层表征,能够更好的识别疾病从而辅助诊断。然而,无论是支持临床决策还是驱动医学研究,都需要大量EHR数据。EHR的大规模整合和开放共享可以为临床和医学研究人员提供丰富的EHR资源。此外,EHR与生命组学数据的整合和挖掘有助于深层了解表型-基因型关系,推动疾病的靶向精准治疗。

人工智能技术的发展和应用使得机器能够通过学习大量EHR数据来模拟包括临床诊断和治疗方案制定在内的一系列临床医疗过程。信息技术的发展使得EHR系统存储了海量EHR数据,基于深度学习等人工智能技术的EHR挖掘一方面可以揭示EHR中潜在的医学知识,推进医学研究;另一方面可以实现EHR的语音输入和智能检索、疾病的智能诊断,辅助制定个体化治疗方案,提高医疗效率和医疗质量。
上一篇:没有了
下一篇:手术室护理综合管理系统的设计与应用

天津市医疗信息化建设协作联盟网http://www.his2000.com) 站长:郝工  投稿信箱:hao_shy#126.com (请将@代替#)

站为公益网站,所有内容来自原创或网络转载,仅供个人学习和研究使用,如侵犯您的版权请来电或来函指出,本站立即删除