医学中的机器学习实用介绍数据预处理、超参数调优和模型比较的技术.pdf

AllenLV

17页

2次

2024-10-25

免费下载

Pfob et

al.

BMC

Medical

Research

Methodology

(2022)

22:282

https://doi.org/10.1186/s12874-022-01758-8

介绍数据预处理、超参数调优和

模型比较的技术

andr<s:1> pfob1,2†，Sheng - Chieh lu2,3†和 Chris

sidy‑Gibbons 2,3*

†

André Pfob and Sheng-Chieh Lu contributed equally to this

work.

*Correspondence: cgibbons@mdanderson.org

Section of Patient‑Centered Analytics, The University of Texas MD

Anderson Cancer Center, Houston, TX 77030, USA

Full list of author information is available at the end of the

article

I 简介

过去几年，全球医学界对人工智能(AI)和机器学习(ML)

的兴趣急剧增加。AI/机器学习技术的使用可以通过提供

个性化的结果预测和减少标准化过程中的冗余来改善对

患者的护理，从而使临床医生能够花更多的时间与患者

在一起[1-7]。而协议

摘要

背景:人们越来越热衷于将机器学习(ML)和人工智能(AI)技术应用于临床研究和实践。然而，关于

如何在医学中开发强大的高质量 ML 和 AI 的指导很少。在本文中，我们提供了一个实用的技术

示例，这些技术有助于开发高质量的 ML 系统，包括使用开源软件和数据进行数据预处理、超参

数调优和模型比较。

方法:我们使用开源软件和公开可用的数据集来训练和验证多个 ML 模型，以根据乳房 x 线摄影

图像特征和患者年龄将乳房肿块分类为良性或恶性。我们将算法预测与组织病理学评估的基本事

实进行了比较。我们提供了随附的代码行逐步说明。

研究结果:五种算法在基于乳房 x 线摄影图像特征和患者年龄将乳房肿块分类为良性或恶性方面

的表现在统计学上是相同的(P > 0.05)。弹性净惩罚 logistic 回归的接受者工作特征曲线下面积

(AUROC)为 0.89 (95% CI 0.85 -0.94)，极端梯度增强树为 0.88 (95% CI 0.83 -0.93)，多变量

自适应回归样条算法为 0.88 (95% CI 0.83 -0.93)，支持向量机为 0.89 (95% CI 0.84 -0.93)，

神经网络为 0.89 (95% CI 0.84 -0.93)。解释:我们的论文允许对使用 ML 算法感兴趣的临床医生

和医学研究人员理解和重建全面 ML 分析的要素。遵循我们的说明可能有助于提高医学 ML 研

究中的模型泛化性和可重复性。

关键词:机器学习，人工智能，指南，医学

医学中的机器学习:实用

使用 AI/机器学习技术进行临床试验的报告指南最

近已经发表(consortium -AI[8]和 SPIRIT-AI[9])，关

于如何在医学背景下实际开发机器学习模型的高质

量指导并不丰富。不幸的是，尽管人们对这一领域

非常感兴趣，但仍有许多医疗 AI 的例子尚未得到

严格开发，这使得如何实际开发这些具有临床研究

和实践高度兴趣的模型成为最佳实践案例研究

[10,11]。

我们的小组之前发表了一篇关于医学 ML 的介绍性

论文，解释了 ML 的一般概念，并给出了使用开源

R 统计编程软件和开源数据[12]构建 ML 算法的实

用介绍。在目前的手稿中，我们在这个介绍的基础

上解释了一些更多的技术，包括数据预处理、超参

数调优和模型比较——通过使用开源软件和数据的

例子。这些步骤不仅对提高 ML 算法的性能至关重

要，而且对确保更好的泛化性和对这些算法提供平

衡的评估也至关重要。对于感兴趣的读者，本系列

中还有另一篇论文涵盖了自然语言在医学 AI 研究

中的使用 b[13]。

简而言之，数据预处理包括两大类:数据清洗和特征

工程。数据清洗是去除重复的、不正确的和不相关

的数据以及处理缺失数据的过程，这需要对数据、

收集数据的上下文以及将使用模型的上下文有实质

性的了解。因此，需要临床医生和数据科学家之间

的多学科合作来充分清理数据。特征工程使用各种

统计方法来准备数据，ML 算法可以更好地利用这

些数据。常见的特征工程程序包括数据归一化、转

换、特征选择、降维和数据类型转换，以满足 ML

算法[14]的先决条件。

机器学习算法都有所谓的超参数来控制特定算法的

配置。超参数可以分为优化超参数和模型超参数，

前者通常控制整个训练过程(例如学习率)，后者指

定特定的算法算法架构(例如，神经网络中的层数)。

与直接从训练过程中的数据中获得的模型参数相反，

超参数是手动预先指定的，并且通常可以在不同的

模型中变化。超参数是特定数据集上给定任务的模

型性能的关键。识别超参数的最佳组

合的过程，即所谓的模型调优或优化，通常会使

ML 算法的计算成本很高。然后在独立于训练数据

集[15]的验证数据集上评估调优后的模型。

最后，我们经常想知道哪个模型表现最好。我们进

行统计测试，将不同的模型相互比较，从而评估模

型性能的差异是否在统计上具有显著性。可能在某

些情况下，我们不一定希望在测试数据集上部署具

有最佳性能的算法，以提高泛化性并使其易于实现。

例如，我们可能会从性能最好的模型中选择具有一

定程度性能的最简单模型。我们还可以优先考虑其

他方面，包括模型输出是否易于解释。

这篇论文将会实现什

么

在本文中，我们将提供一个使用开源软件和数据的

最佳实践 ML 技术的实际示例，如数据预处理，超

参数调优和模型比较。我们的论文主要针对医学研

究人员和从业人员，他们对使用和开发 ML 算法进

行分析感兴趣，并且正在寻找如何自行执行全面

ML 分析的指导。

如何阅读这篇论文

本文提供了如何执行 ML 分析的分步说明，从数据

准备开始，以模型评估结束。我们在整篇论文中提

供了使用开源 R 统计编程语言的示例代码(完整的代

码可在补充附录中获得)。我们建议不熟悉 R 编程语

言的读者先阅读我们的介绍性论文，该论文提供了

如何使用和设置 R[12]的指导。我们使用了开源数

据进行分析，这些数据可以在 UCI 机器学习存储库

(“乳房 x 光片质量”数据集)[16]上免费获得。

材料和方法

数据

集

我们使用了 UCI 机器学习存储库[16]上免费提供的

开源数据。“乳房 x 光图像质量”数据集包含来自

961 名接受乳房 x 光检查以评估不明确乳房病变的

患者的匿名数据。提供了乳房 x 光图像特征(病变形

状、病变边缘、密度)、患者年龄和组织病理学评估

结果(金标准，良性或恶性)。961 例患者中，516 例

(53.7%)为乳腺良性病变，445 例

Page 2 of

Pfob et

al.

BMC

Medical

Research

Methodology

(2022)

22:282

(46.3%)为乳腺恶性病变。该数据集可用于开发模型，

根据图像特征和患者年龄[17]预测乳腺病变在组织病

理学上是良性还是恶性。

软件

所有分析均使用 R 4.0.3 版本。

机器学习分析

数据准备

我们首先从 UCI 存储库加载数据集，并按照数据集描

述中指定的方式标记列(参见表 1,Task 1.1 和 1.2，有

关 R 代码)[16]。结果数据集被称为“db”，有 6 列(“BI-

RADS” 、 “Age” 、 “Shape” 、 “Margin” 、 “Density” 和

“outcome”)。

在创建数据集之后，我们根据数据集描述将每列转换

为因子(分类)或数值变量，并分配特定的因子水平和

参考类别以提高可读性(表 1，任务 1.3 和 1.4)。

在开始 ML 分析之前，最好检查每一列，以检测缺失

值或错误比例较高的变量。使用表 1(任务 1.6)中的代

码，我们可以检测和删除缺失率高的变量。虽然我们

将使用 imputation 技术来处理缺失数据，但我们会删

除丢失数据点超过 50%的任何变量。此外，一些数据

集可能有输入错误的数据，这些数据要么不可能输入

错误，要么很可能输入错误，例如，AGE< 0。我们

可以使用表 1(任务 1.5)中的代码将这些数据替换为

“NA”。需要注意的是，此代码仅用于演示目的，在当

前情况下不需要实现它们。

ML 中的标准实践是使用训练集进行模型开发，并使

用单独的测试集来评估模型的性能。由于 ML 模型中

的参数数量很多，训练数据的过拟合是一种明显的可

能性。理想情况下，我们有一个完全独立的数据集(例

如，它包含从不同的实践或医院收集的数据)来验证我

们的模型。或者，如果我们只有一个数据集，我们可

以将我们的数据集随机分成一个包含 80% 数据的开发

集和一个包含剩余 20%数据的验证集(表 1，任务 1.7)。

数据预处理

现在，我们开始对数据进行预处理。数据预处理应该

在每次孤立的重采样迭代中进行(图 1)，以避免使用

来自训练数据集之外的信息训练模型时发生的信息泄

漏，从而降低模型对未来数据的可泛化性[14,18]。数

据预

处理步骤的顺序也会对模型输出产生影响。例如，在

归一化之前进行单热编码可能会改变数据的信息并产

生误导性的模型。关于数据预处理过程中的信息泄露

和数据预处理技术的顺序进行了深入的讨论，供感兴

趣的读者参考[14]。

R 中可用的“菜谱”包提供了一种优雅的方式来创建包

含数据预处理各个步骤的蓝图(菜谱)。我们将创建一

个蓝图，在交叉验证(CV)过程中分别应用于每个折叠，

以最大限度地减少信息泄漏。我们首先用我们的训练

数据集和公式 for-mat 中的变量信息定义一个配方对象

(表 1,Task 1.8)。然后，我们通过一系列步骤依次添加

使用配方准备训练数据所需的数据预处理技术。表 2

提供了本案例研究中使用的所有预处理步骤的描述。

“all_predictors()”函数用于表示我们将此步骤应用于所

有预测器，而不是预测器的子集。all_predictors()的其

他替代方法包括用于数值变量的“all_numerics()”和用

于分类变量的“all_nomals()”(表 1，任务 1.8)。我们还

可以使用预测器名称来指定应该应用步骤的位置。例

如，“step_log(AGE)”将返回 AGE 变量的日志转换版本。

相比之下，“- all_outcomes()”用于将结果变量从步骤

中排除。根据我们的经验，这些步骤对于许多医疗数

据集来说是足够的。我们建议根据手头的数据集，仔

细考虑使用哪些步骤及其顺序。关于数据预处理和特

征工程技术的更深入讨论发表在其他地方[14]。需要

额外数据预处理步骤的读者可直接访问“菜谱”包的网

站，以获取[19]的完整功能列表。

我们建议在将 ML 算法拟合到数据之前先查看准备好

的数据:首先，我们查看配方中包含的所有步骤(表 1，

任务 1.9)。其次，我们可以检查特定预处理步骤的变

化，例如 step_normo -malize 的均值和标准差( 表

1,Task 1.10;感兴趣的读者可以修改“数字”的值，以检

查蓝图中的其他步骤)。第三，我们全面审查准备好的

训练数据(表 1，任务 1.11)——预处理后的训练数据摘

录如图 2 所示。

算法开发和超参数调优

在准备好数据集之后，我们可以开始开发我们的模型。

在讨论不同的模型算法之前，我们首先定义一些可用

于所有算法的通用设置。首先，我们定义

Page 3 of

Pfob et

al.

BMC

Medical

Research

Methodology

(2022)

22:282

of 17

免费下载

机器学习

文档被以下合辑收录

数智化医疗内容合集（共75篇）

数字化医疗内容收集

文档被以下合辑收录

相关文档

评论