• WAP手机版 RSS订阅 加入收藏  设为首页
CIO演讲

医疗健康大数据的种类、性质及有关问题

时间:2014/7/13 21:41:42  作者:俞国培  来源:his2000.com  查看:0  评论:0
内容摘要:中国与西方发达国家一样,正在步入医疗健康大数据时代,现在,每时每刻都有大量新的有关疾病、医疗和健康的信息在产生和流动,并储存于某个地方,等待着被挖掘、分析和应用。由于中国是接近于14亿人口的大国,人数占全世界总人数的1/5,所以产生积累的医学数据量,世界各国无法比拟。截止2013...

中国与西方发达国家一样,正在步入医疗健康大数据时代,现在,每时每刻都有大量新
的有关疾病、医疗和健康的信息在产生和流动,并储存于某个地方,等待着被挖掘、分析和
应用。由于中国是接近于 14 亿人口的大国,人数占全世界总人数的 1/5,所以产生积累的
医学数据量,世界各国无法比拟。截止 2013 年 11 月底,全国医疗机构总数为 96.2 万个(其
中医院为 2.4 万个,其他医疗机构为 92.3 万个), 2012 年全国诊疗人数达 69 亿人次
。目前,中国的互联网上也正在实时产生大量难以计数的关于疾病和健康的信息。特有的巨量医
疗和健康数据,赋予了中国一个能接触并深入了解更多疾病、诊疗和健康信息的好机会,但
同时也给数据使用者带来了更严峻的应用挑战。

 

医疗健康大数据泛指所有与医疗和生命健康相关的数字化的极大量数据。数据究竟大到
何种程度才可称为大数据,早在九十年代中期,世界著名统计学家休伯(Huber  PJ)就对此
进行过专门讨论
[2]
。当时,休伯建议可按以 10 为底 2 为指数递增的数据存储单位字节大小
来进行划分,即微小数据为 10
2
(100 字节),小数据为 10
4
(10K 字节),中数据为 10
6
(977K),
大数据为 10
8
(95MB),巨大数据为 10
10
(9.3GB),和非常巨大数据为 10
12
(932GB≈1TB)。
这种数据大小按物理存储单位划分,虽然属于人为主观界定,但显示了一定合理性,有助于
对数据源大小的认识。现在,人们对大数据有了更深层次的认识。狭义上,它被定义为难以
用现有的一般技术管理的大量数据的集合;广义上,它的数据量(Volume)含义可以延伸至
数据的产生速度(Velocity)、多样性(Variety)和价值(Value)。扩展的大数据定义符
合于当前信息时代的特点,体现了数据的更新速度、复杂性和有用性。

 

现在有一种说法,似乎只有太字节那样大的数据才可称为大数据,但从实际应用角度,
大数据的大应该为相对的大,特别是当数据还同时具备产生速度、多样性或价值等其它特征。

理论上,医疗健康大数据可以是涉及一个国家或地区全部医院或所有人群的数据,具有几个、
几十个或更多 TB 甚至 PB 级的数据量,但其实也可以只是一个地区几家医院或一部分健康人
群的数据,甚至更可以只是一个医院的全部临床医疗数据。关键是,目前一个中型医院 1
年医疗数据包括影像数据等加起来,就可达到几十个 TB 数据量,剔除主要的影像数据量后,
仍有大概数百 G 级以上数据量。而且,医院很多年份或很多临床科室数据都已可以相互关联,
使单一医院的数据性质和应用价值获得突破性提升,完全不同于以往单一年份或单独临床科
室的数据。所以,不能机械地光是从数据量来界定什么是大数据,什么不是大数据,而应该
同时考虑是否数据性质等方面已经发生了根本的变化。
2  医疗健康大数据的种类、性质及有关问题
医疗健康大数据只是一个笼统的称呼,有时候也简称为医疗大数据或医学大数据。按照
不同来源,医疗健康大数据可以分成医院医疗大数据、区域服务平台医疗健康大数据、疾病
监测大数据、自我量化大数据、网络大数据和生物大数据等六大类。这些不同种类数据具有
不同的性质、医学价值及问题。
2.1 医院的医疗大数据 通常所说的医疗大数据指的就是医院医疗大数据。医院医疗数据是
最主要的医疗健康大数据,产生于医院常规临床诊治、科研和管理过程,包括各种门急诊记
录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医保数据等。这
些医疗数据中的大多数都是用医学专业方式记录下来的,以临床实践自然随机形式存在,是
最原始的临床记录。从临床管理或研究角度看,这些数据是关于病人就医过程的真实记录,
或者也可以说是临床医疗行为留存的痕迹,每一个数据都是有价值的,包括记录不完善或错
误的数据,都可能隐藏了有待发掘和利用的重要医学信息。
与其他行业数据比较,医疗行业数据既重要又特别,不仅数据与人的健康、疾病和生命
息息相关,而且具有更复杂的多样性,以及更多需要研究探讨的未知事件。这些特征促使医
疗行业拥有了一大批医学研究专家和统计学家,并由此建立了一系列的数据统计分析方法,
开展了各种各样的医学研究。
医疗数据的复杂性表现在于,一方面包含了大量的专业医学用语,光是疾病名称就有 3
万多种,另外还有数以万计的诊断、手术和药物名称,以及大量影像、医嘱等非结构化数据。
另一方面,由于医疗数据是不同临床诊疗服务过程中的产物,所以数据之间关系复杂,并且
也很容易会受到各种因素的影响,致使某些数据带有偏倚性。一般来说,医院之间在很多方
面是会有差别的,比如病人的个体特征和疾病程度、医院的诊断和治疗水平、医疗数据的记
录和编码水平等。如果研究者没有注意到医院间的这些差别,就有可能导致错误结论,并进
一步误导临床诊治工作。因为专家一般都非常重视大数据研究结果,会立即将其纳入临床诊
治规范中加以推广应用。所以大数据研究一旦发生错误,可能会对临床实践造成巨大损害。
另外,除了包含病人隐私信息,医疗数据也包含了大量关于医院运转、诊疗方法、药物疗效
等信息。这些信息一般都很敏感,某些可能会涉及商业利益,有时候,即使分析很到位,但
如果解释不严谨,仍会引发争议,甚至导致法律纠纷。

2.2 依托区域健康服务平台的医疗健康大数据 依托于区域健康服务平台的大数据是重要
的医疗健康大数据之一,也是未来医疗健康大数据的发展方向。一方面,服务平台汇集整合
了区域内很多家医院和相关医疗机构的医疗健康数据,致使数据量大幅度增加。另一方面,
服务平台数据的收集事先都经过充分的科学论证和规划,数据比原先的医院数据更为规范。
区域健康服务平台在我国已经起步,正在往深度发展。目前,有些服务平台是由政府管
理部门委托建立,有些是由第三方 IT 公司建立。两者虽然都有同样目的,即通过整合各医
院诊疗数据,使病人就诊数据在不同医院之间可以互相交流,但第三方服务平台更为创新一
点,正在尝试针对重点疾病和特殊人群,打造基于医疗圈的个性化诊疗模式、基于健康圈的
个性化健康管理与促进模式等。第三方服务平台中的数据及内容在医学上会更为合理、有用。
健康服务平台的大数据具有地区人群代表性,研究结果适用于当地人群。然而,即使在同一
区域内,医院之间的某些差别,尤其是病人个体特征和医院诊疗水平等差别,依然存在,需
要特别注意。
2.3 基于大量人群的医学研究或疾病监测的大数据 除了上述原生态医疗大数据以外,另有
一些医疗健康大数据来自于专门设计的基于大量人群的医学研究或疾病监测。例如国家卫生
部近年开展的脑卒中筛查与防治项目,计划在全国各地筛检 100 万脑卒中高危人群,随后对
筛检出的高危人群的疾病及其治疗后果进行长期追踪。另一项近年刚启动的重大专项研究
是,中国环境与遗传因素及其交互作用对冠心病和缺血性脑卒中影响的超大型队列研究,其
包括了 50 余万人的自然人群,评估遗传和环境危险因素及其复杂的交互作用。专项设计的
大数据还包括各种全国性抽样调查和疾病监测数据,比如全国营养和健康调查、出生缺陷监
测研究、传染病及肿瘤登记报告等数据。因为这些研究或监测都是经过仔细的专业设计,所
以数据内容较多,数据质量也较高,能够导致较为理想的研究结果。这些专项大数据与医疗
过程数据相互融合后,可在疾病治疗和预防中发挥更大的作用,但是这些大数据只限于局部
人群,纯属研究目的,无法对全国范围人群或整个地区人群的疾病进行个性化诊疗和防控。
2.4 自我量化大数据 基于移动物联网的个人身体体征和活动的自我量化数据是一种新型的
医疗健康大数据。自我量化数据包含了血压、心跳、血糖、呼吸、睡眠、体育锻炼等信息,
除了有利于帮助了解自身健康状况以外,经过一定时期累积,在医学上会变得很有用,不仅
有助于识别疾病病因或防控疾病,而且也有助于个性化临床诊疗,塑造全新的医疗或健康管
理模式。
大多数自我量化数据是健康达人通过有关 APP 上传并交由相关 IT 健康服务公司进行管
理,少数是病人或特殊人群根据治疗或随访要求上传到医院信息系统或区域健康服务平台并
进行管理。问题是,健康达人目前在人群中仍只占有很小的比例,基本上是那些年龄较轻、
教育程度较高、经济较为富裕、健康状况较好或不太好的人,所以数据难以代表全体人群。
另外,健康达人通过 IT 服务公司 APP 建立的自我量化数据,目前缺乏统一的医疗行业标准。
首先,测量工具和方法五花八门。比如,同样是血压值数据,有的是通过穿戴式腕带、手表、
或耳塞等自动测量获得,而有的也许仍利用数字式血压计手工测得后再通过手机 APP 上传;
其次,测量时间也可能会很不一致,比如血压测定 可能会在早上或晚上,也可能会在运动

前或运动后,以至于造成了数据极大的混乱。与此相反,医院或区域健康服务平台中的自我
量化数据,是相关医学专家按照专业标准收集获取的,可利用性很强,能较好地用于疾病干
预和预防。
2.5 网络大数据 网络大数据指的是互联网上与医学相关的各种数据。经常,这类网络大数
据被与其他各类医疗健康大数据混为一谈,造成了对大数据效用的误解。网络大数据产生于
社交互联网关于疾病、健康或寻医的话题、互联网上购药行为、健康网站访问行为等等。网
络大数据非常杂乱无章,同一主题的数据既可来自于同一网站众多不同的网络用户,也可来
自大量不同的网站,而且又会包含大量音视频、图片、文本等异构性数据。与自我量化等数
据相比较,网络大数据是被动性存在,随机性很大,数据中蕴含的信息缺乏稳定性。由于信
息噪声很高,缺乏医学专业规律,所以大部分数据都不会有医学价值。即使少部分可被用于
挖掘分析,但也必须要了解,除非经过专业设计,一般来说,上传信息的网络使用者只代表
了全部人群中一小部分特殊人群,比如只代表了部分年轻人、嗜好上网者、疾病焦虑者、久
病不治者、或特别关注健康者。
包罗万象的网络大数据目前被发现最有用的医学价值是对疾病传播的监控和预防。最著
名的例子是谷歌利用搜索引擎内容分析来预测全球范围流感传播状况,通过提前确定未知疾
病流行,为疫情控制争取时间。但谷歌流感趋势研究最近由于预测结果不稳定而受到了广泛
质疑。谷歌出错的主要原因是内容搜索者不一定是患病者,再加上地理位置的不准确。相对
于谷歌的被动监测,一些国家的流行病学专家正在改用主动监测,即鼓励普通民众利用网络
主动报告自己或家人的流感疑似症状。这种经过专业设计的基于特定目的的全球或全国网络
大数据,虽然数据量会远低于基于搜索内容的网络大数据,但数据质量获得了极大提升,可
以与变动监测结果一起,作为官方传统的流感监测系统的补充。
2.6 生物信息大数据 生物信息大数据是一类比较特殊的医疗健康大数据。这类数据具有很
强的生物专业性,主要是关于生物标本和基因测序的信息。虽然在信息内容表达方式上,生
物信息大数据与上述所有大数据大不相同,但它直接关系到临床的个性化诊疗及精准医疗,
所以可归入医疗健康大数据一类。生物信息数量巨大,据估计,人类基因测序一次,产生的
数据量可高达 100 至 600 个 G 左右。生物信息大数据目前面临的最大难题是,如何能使标本
及数据标准化、测定结果实用化、以及测定结果与病人临床数据的无缝连接等。
3   结语
综上所述,医学是一门经验学科,各路医疗健康大数据提供了一个能迅速获取大量医学
经验和知识的机会,另外也提供了一个能更为可靠地解决各种医学问题的新途径,造福于患
者并保障人民健康。然而,不同种类的医疗健康大数据的性质是不同的,并且它们的价值和
问题也是不同的。 在进行医疗大数据分析前,数据分析者应该对不同类型的数据进行有效甄
别,同时由于医疗健康数据属于复杂和敏感类数据,所以使用者一方面需要具备足够的专业
知识,另一方面也需要抱有谨慎小心的态度。


标签:医疗大数据 
无觅关联推荐,快速提升流量
相关评论

天津市医疗信息化建设协作联盟网http://www.his2000.com) 投稿信箱:hao_shy#126.com (请将@代替#)

站为公益网站,所有内容来自原创或网络转载,仅供个人学习和研究使用,如侵犯您的版权请来电或来函指出,本站立即删除