MIMIC-III 临床数据集V1.4简介
数据库介绍
MIMIC-III(重症监护医学信息市场)是一个大型的单中心数据库,其中包含与大型三级护理医院重症监护病房收治的患者有关的信息
数据包括生命体征,药物,实验室测量值,医嘱,手术代码,诊断代码,影像报告,住院时间,生存数据等
MIMIC-III包含与2001年至2012年之间进入重症监护病房的成年患者(16岁或以上)的53,423例不同的医院入院相关的数据以及2001年至2008年之间收治的7870名新生儿的数据
数据集中一共包括26个数据表,除了字典表(D_开头)以外,表之间通过患者编号(SUBJECT_ID)、病案号(HADM_ID)、和ICU编号(ICUSTAY_ID)连接
按照数据格式,患者数据可以被划分为结构化数据(实验室测量、生命体征等)和非结构化数据(医嘱信息等)
一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id
通常采用一个hadm_id对应的第一个icustay_id开展相关的研究
字典表用于某个项的查询,举例如下:
比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item_id,然后再去LABEVENTS表中查找
官方数据说明
MIMIC-III 是一个包含 26 个表的关系数据库。表由通常带有后缀“ID”的标识符链接。例如,SUBJECT_ID 指的是唯一的患者,HADM_ID 指的是唯一的医院入院,ICUSTAY_ID 指的是唯一的重症监护病房入院。
记录、实验室测试和体液平衡等图表事件存储在一系列“events”表中。例如,OUTPUTEVENTS 表包含与给定患者的输出相关的所有测量值,而 LABEVENTS 表包含患者的实验室测试结果。
以“D_”为前缀的表是字典表,并提供标识符的定义。例如,CHARTEVENTS 的每一行都与一个 ITEMID 相关联,它表示测量的概念,但它不包含测量的实际名称。通过在 ITEMID 上连接 CHARTEVENTS 和 D_ITEMS,可以识别给定 ITEMID 所代表的概念。
开发 MIMIC 数据模型涉及平衡解释的简单性和与基本事实的接近程度。因此,该模型反映了基础数据源,根据用户反馈对 MIMIC 数据库的迭代进行了修改。在进行转换时已注意避免对基础数据做出假设,因此 MIMIC-III 密切代表原始医院数据。
从广义上讲,有五个表格用于定义和跟踪患者住院时间:
ADMISSIONS;(入院)
PATIENTS; (患者)
ICUSTAYS;(ICU)
SERVICES; (服务)
TRANSFERS. (转移)
另外五个表是对照各自定义交叉引用代码的字典:
D_CPT;
D_ICD_DIAGNOSES;
D_ICD_PROCEDURES;
D_ITEMS;
D_LABITEMS.
其余表包含与患者护理相关的数据,例如生理测量、护理人员观察和账单信息。
在某些情况下,可以合并表——例如,D_ICD_PROCEDURES 和 CPTEVENTS 表都包含与程序相关的详细信息并且可以合并——但我们的方法是为了清楚起见保持表独立,因为数据源明显不同。我们建议研究人员开发适当的数据库视图和转换,而不是在 MIMIC 数据模型中组合表格。
全部26张表的详细信息
患者人口学信息以及院内周转信息(6张)
表名 | 简介 | 特征/属性 | 行列数 | 文件大小 |
---|---|---|---|---|
ADMISSIONS | 患者入院情况 | 行号、患者编号、病案号、入院时间、出院时间、死亡时间、入院类型、入院地点、出院目的地、保险类型、语种、宗教信仰、婚姻状况、种族、急诊留观登记时间、急诊留观出观时间、初步诊断、院内死亡标记、是否有charievents记录 | 58,976*19 | 12.5MB |
CALLOUT | 患者ICU出科时的即时信息 | 行号、患者编号、病案号、提交出科申请的科室代码、目标科室代码、出科申请结果、患者需接受的治疗服务、出科且期、出科时是否感染了MRSA等 | 34,499*24 | 6.34MB |
ICUSTAYS | ICU入住信息 | 行号、患者编号、病案号、ICU病案号、数据源、患者入住监护室24小时内的首个和最终监护室类别、入住首个和末次监护室代码、入科出科时间、住院时长 | 61,532*12 | 6.36MB |
PATIENTS | 患者信息 | 行号、患者编号、性别、出生日期、死亡日期、院内登记死亡日期、社保局登记死亡日期、死亡标记种类 | 46,520*8 | 2.63MB |
SERVICES | 患者需要接受的医疗服务 | 行号、患者编号、病案号、服务种类更改时间、前次服务种类、当前服务 | 73,343*6 | 3.48MB |
TRANSFERS | 患者周转信息 | 行号、患者编号、病案号、ICU病案号、数据源、周转项目、前次和当前所在监护室类型、前次和当前所在科室代码、入科出科时间、住院时长 | 261,897*13 | 25.1MB |
患者在监护室住院期间采集的各类信息(8张)
表名 | 简介 | 特征/属性 | 行列数 | 文件大小 |
---|---|---|---|---|
CAREGIVERS | 护理人员信息 | 行号、护理人员标志符、头衔缩穿、类别 | 7,567*4 | 203KB |
CHARTEVENTS | 患者观察记录数据 | 行号、患者编号、病案号、ICU病案号、项目标志符、记录时间、存储时间、护理人员标志符、项目值等 | 330,712,483*15 | 35.5GB |
DATETIMEEVENTS | 患者操作时间信息 | 行号、患者编号、病案号、ICU病案号、项目标志符、记录时间、存储时间、护理人员标志符、项目对应时间 | 4,485,937*14 | 526MB |
INPUTEVENTS_CV | 使用CareVue监护系统记录的入量信息 | 行号、患者编号、病案号、ICU病案号、记录时间、项目标志符、前次纪录至今总入量、护理人员标志符、给药速率、给药途径、给药部位药品组合标志符、药品组合总量 | 17,527,935*22 | 2.46GB |
INPUTEVENTS_MV | iMDSoftMetavision系统入量数据 | 行号、患者编号、病案号、ICU病案号、出入量活动开始结束时间、项目标志符、总入量、入量单位、药品组合标志符、药品一级分类名、药品类型、液体总量、出科后是否续药、输液状态等 | 3,618,991*31 | 975MB |
NOTEEVENTS | 治疗记录 | 行号、患者编号、病案号、记录时间、记录类别、护理人员标志符、医嘱具体内容 | 2,083,180*11 | 4.01GB |
OUTPUTEVENTS | 患者出量信息 | 行号、患者编号、病案号、ICU病案号、记录时间,项目标志符、液体出量、护理人员标志符、输液是否中断、新液体准备状态 | 4,349,218*13 | 396MB |
PROCEDUREEVENTS_MV | Metavision系统的操作信息 | 行号、患者编号、病案号、ICU病案号、操作或手术开始结束时间、项目标志符、项目值、数据上传时间、护理人员标志符、药品组合标志符、药品一级分类名、药品类型、医嘱状态 | 258,066*25 | 48.8MB |
医院记录系统采集的各类信息(7张)
表名 | 简介 | 特征/属性 | 行列数 | 文件大小 |
---|---|---|---|---|
CPTEVENTS | 患者操作记录 | 行号、患者编码、病案号、记录时间、操作编码、部门 | 573,146*12 | 58.2MB |
DIAGNOSES_ICD | 患者诊断ICD-9编码 | 行号、患者编号、病案号、ICD9编码 | 651,047*5 | 19.1MB |
DRGCODES | 患者诊断类别组 | 行号、患者编号、病案号、诊断类别、诊断编码 | 125,557*8 | 10.5MB |
LABEVENTS | 患者化验项目 | 行号、患者编号、病案号、项目标志符、记录时间、项目值 | 27,854,055*9 | 1.85GB |
MICROBIOLOGYEVENTS | 病人标本微生物病原体检测结界 | 行号、患者编号、病案号、记录时间、化验项目标志符、化验类型、化验微生物、是否隔离 | 631,726*16 | 72.5MB |
PRESCRIPTIONS | 病人用药记录 | 行号、患者编号、病案号、ICU病案号、用药开始结束时间、药物类型、药物名称、剂量,用药途径、处方药代码、药物gsn | 4,156,450*19 | 770MB |
PROCEDURES_ICD | 病人手术记录ICD-9编码 | 行号、患者编号、病案号、ICD9编码 | 240,095*5 | 6.8MB |
字典信息(5张)
表名 | 简介 | 特征/属性 | 行列数 | 文件大小 |
---|---|---|---|---|
D_CPT | 操作记录代码索引 | 细分成多个category,包括每个子部分的代号及范围 | 134*9 | 13.8KB |
D_ICD_DIAGNOSES | 诊断代码索引 | 行号、ICD9编码、缩写、全称 | 14,567*4 | 1.39MB |
D_ICD_PROCEDURES | 手术操作代码索引 | 行号、ICD9编码、缩写、全称 | 3,882*4 | 311KB |
D_ITEMS | 记录项目代码索引 | 行号、项目标志符、项目标签、数据来源 | 12,487*10 | 954KB |
D_LABITEMS | 化验项目代码索引 | 行号、项目标志符、项目标签、化验类型 | 753*6 | 43.1KB |
全部26张表总结
1、ADMISSIONS患者入院情况,包括每个患者的入院代码、患者标识码、人口统计学资料等
2、CALLOUT患者准备从ICU出科时的即时信息,包括具体ICU科室、病床号、出科日期等
3、CAREGIVERS监护提供人员,是医生、护士还是社工等
4、CHARTEVENTS患者的呼吸机设定、神志状态,患者入院期间的大多数信息都在这个大表里
5、CPTEVENTS患者操作记录
6、D_CPTCPT操作记录代码索引
7、D_ICD_DIAGNOSESICD-9诊断代码索引
8、D_ICD_PROCEDURESICD-9手术操作代码索引
9、D_ITEMS记录项目代码索引,如代码211就是用来表示心率的
10、D_LABITEMS化验项目代码索引,如50820表示血气化验里的pH
11、DATETIMEEVENTS各项操作日期信息
12、DIAGNOSES_ICD患者诊断ICD-9码
13、DRGCODES患者诊断类别组
14、ICUSTAYSICU出入科时间
15、INPUTEVENTS_CV使用CareVue监护系统记录的入量信息
16、INPUTEVENTS_MV使用Metavision监护系统记录的入量信息
17、OUTPUTEVENTS患者出量信息
18、LABEVENTS患者化验项目结果
19、MICROBIOLOGYEVENTS患者标本微生物病原体检测结果
20、NOTEEVENTS病程及出院录记录信息
21、PATIENTS患者出生及死亡信息
22、PRESCRIPTIONS患者用药记录
23、PROCEDUREEVENTS_MV患者手术记录
24、PROCEDURES ICD患者手术记录ICD-9码
25、SERVICES患者在院期间接受专科服务信息
26、TRANSFERS患者在院期间所有床位信息