Skip to content

C-3 X-ray 类数据集

title: C-3 X-ray 类数据集
description: 介绍 X-ray 类数据集

3.CheXpert(胸部 X 光大规模病灶检测数据集)

3.1.CheXpert 简介

CheXpert 是由 Stanford University 医学影像与 AI 团队于 2019 年发布的公开胸部 X 光影像数据集,主要用于胸腔疾病(如肺炎、胸腔积液、心脏扩大等)的多标签预测。数据集收录自临床真实场景,强调不确定(uncertainty)标签的处理,被广泛作为胸片 AI 研究的基准。

3.2.CheXpert 数据结构

  • 收录 224,316 张胸部 X 光片,来自 65,240 名患者,时间范围约为 2002 年 10 月至 2017 年 7 月。
  • 每张影像配有对应的放射科报告,并从报告中自动提取 14 个观察指标(observations) ,标签分为「阳性(1)」「阴性(0)」「不确定(–1/ u)」三类。
  • 14 个观察指标包括:atelectasis(肺不张)、cardiomegaly(心脏扩大)、consolidation(实变)、edema(水肿)、enlarged cardiomediastinum、fracture、lung lesion、lung opacity、pleural effusion、pleural other、pneumonia、pneumothorax、support devices、no finding。
  • 数据视角:当有多个视图(如正位+侧位)时,模型通常取各视图预测的最大值作为指标。
  • 数据划分:官方提供训练集 + 验证集;测试集由 500 个独立研究(studies)组成,由五位认证放射科医师标注作为参考标准。

3.3.CheXpert 下载方式

2.MIMIC-CXR(大规模胸片公开数据集)

2.1 MIMIC-CXR 简介

MIMIC-CXR 是由 Beth Israel Deaconess Medical Center(BIDMC)在波士顿所采集,并由 MIT Laboratory for Computational Physiology 和其它单位整理公开的、去识别化胸部 X 光(chest radiograph)数据集。其包含数十万张真实临床胸片影像并匹配放射科报告,面向图像理解、自然语言处理与决策支持研究。
例如,其首版版本描述为:覆盖 2011-2016 年期间约 65,379 名患者、227,835 次影像检查、377,110 张图像。
该数据集因其规模大、结构清晰、报告附带,被视为胸片 AI 研究的重要基准。

2.2 MIMIC-CXR 数据结构

  • 影像数量:约 377,110 张胸片,关联约 227,835 次影像检查。
  • 患者数量:约 65,379 人。
  • 视图类型:多数检查包含正前位 (frontal) + 侧位 (lateral) 视图。
  • 影像格式:提供 DICOM 格式原始影像(去识别化)及对应报告文本。
  • 报告文本:每次检查配有放射科医生所写的自由文本报告,描述影像所见
  • 数据标注/派生:用户可基于报告文本提取结构化标签(如病灶有无、设备位置等)用于分类任务。
  • 任务类型:包括胸片异常检测/分类、放射报告-影像配对、影像-文本联合建模。
  • 使用协议:数据已做去识别处理,符合 HIPAA Safe Harbour 要求。

2.3 MIMIC-CXR 下载方式

3.NIH ChestX-ray14(胸部 X 光多标签公开数据集)

3.1 简介

NIH ChestX-ray14 是由美国 National Institutes of Health(NIH)临床中心发布的公开胸部 X 光影像数据集,最初于 2017 年以 “ChestX-ray8” 名称发布,随后扩展为包含 14 类胸腔常见病变(ChestX-ray14)。该数据集含有十万级别以上的临床胸片,配有自动文本挖掘出的多标签,广泛用于胸片分类、检测、弱监督学习研究。

3.2 数据结构

  • 图像数:约 112,120 张正位胸片,来自 30,805 名唯一患者
  • 标签:每张影像配有最多 14 个胸腔病变标签 + “No Finding”类别;标签通过 NLP 从放射报告中提取。
  • 多标签任务:每张图可能同时含多种病变(例如水肿 + 肺部浸润 + 心脏扩大) → 属于多标签分类情形。
  • 图像格式:PNG 格式(部分 DICOM 版本在 Google Cloud 中可访问)
  • 数据划分:训练集 86,524 张、测试集 25,596 张。
  • 常见任务:胸腔疾病分类、弱监督定位(少量标注 bounding box)、多标签指标(ROC-AUC)评估。

3.3 下载方式

Released under the MIT License.