暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
医学中的机器学习 实用介绍数据预处理、超参数调优和模型比较的技术.pdf
90
17页
2次
2024-10-25
免费下载
Pfob et
al.
BMC
Medical
Research
Methodology
(2022)
22:282
https://doi.org/10.1186/s12874-022-01758-8
介绍数据预处理、超参数调优和
模型比较的技术
andr<s:1> pfob1,2†Sheng - Chieh lu2,3† Chris
sidyGibbons 2,3*
André Pfob and Sheng-Chieh Lu contributed equally to this
work.
*Correspondence: cgibbons@mdanderson.org
3
Section of PatientCentered Analytics, The University of Texas MD
Anderson Cancer Center, Houston, TX 77030, USA
Full list of author information is available at the end of the
article
I 简介
(AI)和机器学习(ML)
的兴趣急剧增加。AI/学习术的使用可过提
个性化的结果预测和减少标准化过程中的冗余来改善对
患者的护理,从而使临床医生能够花更多的时间与患者
在一起[1-7]。而协议
摘要
背景:人们越来越热衷于将机器学习(ML)人工智能(AI)技术应用于临床研究和实践。然而,关于
如何在医学中开发强大的高质量 ML AI 的指导很少。在本文中,我们提供了一个实用的技术
示例,这些技术有助于开发高质量的 ML 系统,包括使用开源软件和数据进行数据预处理、超参
数调优和模型比较。
方法:我们使用开源软件和公开可用的数据集来训练和验证多个 ML 模型,以根据乳房 x 线摄影
图像特征和患者年龄将乳房肿块分类为良性或恶性。我们将算法预测与组织病理学评估的基本事
实进行了比较。我们提供了随附的代码行逐步说明。
研究结果:五种算法在基于乳房 x 线摄影图像特征和患者年龄将乳房肿块分类为良性或恶性方面
的表现在统计学上是相同的(P > 0.05)。弹性净惩罚 logistic 回归的接受者工作特征曲线下面积
(AUROC) 0.89 (95% CI 0.85 -0.94),极端梯度增强树为 0.88 (95% CI 0.83 -0.93),多变
自适应回归样条算法为 0.88 (95% CI 0.83 -0.93),支持向量机为 0.89 (95% CI 0.84 -0.93)
神经网络为 0.89 (95% CI 0.84 -0.93)。解释:我们的论文允许对使用 ML 算法感兴趣的临床医生
和医学研究人员理解和重建全面 ML 分析的要素。遵循我们的说明可能有助于提高医学 ML
究中的模型泛化性和可重复性。
关键词:机器学习,人工智能,指南,医
医学中的机器学:实用
使用 AI/器学习技进行临床试验的报告指南最
近已经发表(consortium -AI[8] SPIRIT-AI[9]),关
于如何在医学背景下实际开发机器学习模型的高质
量指导并不丰富。不幸的是,尽管人们对这一领域
非常感兴趣,但仍有许多医疗 AI 的例子尚未得到
严格开发,这使得如何实际开发这些具有临床研究
和实践高度兴趣的模型成为最佳实践案例研究
[10,11]
我们的小组之前发表了一篇关于医学 ML 的介绍性
论文,解释了 ML 的一般概念,并给出了使用开源
R 统计编程软件和开源数据[12]构建 ML 算法的实
用介绍。在目前的手稿中,我们在这个介绍的基础
上解释了一些更多的技术,包括数据预处理、超参
数调优和模型比——通过使用开源软件和数据的
例子。这些步骤不仅对提高 ML 算法的性能至关重
要,而且对确保更好的泛化性和对这些算法提供平
衡的评估也至关重要。对于感兴趣的读者,本系列
中还有另一篇论文涵盖了自然语言在医学 AI 研究
中的使用 b[13]
简而言之,数据预处理包括两大:数据清洗和特
工程。数据清洗是去除重复的、不正确的和不相关
的数据以及处理缺失数据的过程,这需要对数据、
收集数据的上下文以及将使用模型的上下文有实质
性的了解。因此,需要临床医生和数据科学家之间
的多学科合作来充分清理数据。特征工程使用各种
统计方法来准备数据,ML 算法可以更好地利用这
些数据。常见的特征工程程序包括数据归一化、转
换、特征选择、降维和数据类型转换,以满 ML
算法[14]的先决条件。
机器学习算法都有所谓的超参数来控制特定算法的
配置。超参数可以分为优化超参数和模型超参数,
前者通常控制整个训练过程(例如学习率),后者指
定特定的算法算法架构(如,网络层数)
与直接从训练过程中的数据中获得的模型参数相反,
超参数是手动预先指定的,并且通常可以在不同的
模型中变化。超参数是特定数据集上给定任务的模
型性能的关键。识别超参数的最佳组
合的过程,即所谓的模型调优或优化,通常会使
ML 算法的计算成本很高。然后在独立于训练数
[15]的验证数据集上评估调优后的模型。
最后我们经常想知道哪个模型表现好。我们
行统测试,将不同的模型相互比较从而评估
型性的差异是否在统计上具有显著。可能在
些情下,我们不一定希望在测试数集上部署
有最性能的算法,以提高泛化性并使其易实现。
例如我们可能会从性能最好的模型选择具有
定程性能的最简单模型。我们还可优先考虑
他方面,包括模型输出是否易于解释。
这篇论文将会实现什
在本中,我们将提供一个使用开源件和数据
最佳实践 ML 技术的实际示例,如数据预处理,超
参数优和模型比较。我们的论文主针对医学
究人员和从业人员,他们对使用和开发 ML 算法进
行分析感兴趣,并且正在寻找如何自行执行全面
ML 分析的指导。
如何阅读这篇论文
本文提供了如何执行 ML 分析的分步说明,从数据
准备始,以模型评估结束。我们在篇论文中
供了使用开源 R 统计编程语言的示例代码(完整的代
码可在补充附录中获得)。我们建议不熟悉 R 编程语
言的者先阅读我们的介绍性论文,论文提供
使用和 R[12]使了开
据进行分析,这些数据可以在 UCI 机器学习存储库
(“乳房 x 光片质量据集)[16]上免费获得。
材料和方法
数据
我们使用了 UCI 机器学习存储库[16]上免费提供的
乳房 x
961 接受乳房 x 光检查以评估不明确乳房病变的
患者的匿名数据。提供了乳房 x 光图像特征(病变形
状、病变边缘、密度)、患者年龄和组织病理学评估
结果(金标准,良性或恶性)961 例患者中,516
(53.7%)为乳腺良性病变,445
Page 2 of
15
Pfob et
al.
BMC
Medical
Research
Methodology
(2022)
22:282
(46.3%)为乳腺恶性病变。该数据集可用于开发模型,
[17]预测乳腺病变在组织病
理学上是良性还是恶性
软件
所有分析均使用 R 4.0.3 版本。
机器学习分析
数据准备
我们首先从 UCI 存储库加载数据集,并按照数据集描
述中指定的方式标记列(参见表 1,Task 1.1 1.2,有
R 代码)[16]。结果数据集被称为“db”,有 6 (“BI-
RADS” “Age” “Shape” “Margin” “Density”
“outcome”)
在创建数据集之后,我们根据数据集描述将每列转换
为因子(分类)
参考类别以提高可读性( 1,任务 1.3 1.4)
在开始 ML 分析之前,最好检查每一列,以检测缺失
值或错误比例较高的变量。使用表 1(任务 1.6)中的代
码,我们可以检测和删除缺失率高的变量。虽然我们
将使用 imputation 技术处理缺失数据,但我们会
除丢失数据点超过 50%的任何变量。此外,一些数据
集可能有输入错误的数据,这些数据要么不可能输入
AGE< 0
使 1(任务 1.5)
“NA”。需要注意的是,此代码仅用于演示目的,在当
前情况下不需要实现它们。
ML 中的是使模型使
用单独的测试集来评估模型的性能。由于 ML 型中
的参数数量很多,训练数据的过拟合是一种明显的可
能性。理想情况下,我们有一个完全独立的数据集(
如,它包含从不同的实践或医院收集的数据)来验证我
们的模型。或者,如果我们只有一个数据集,我们可
以将我们的数据集随机分成一个包含 80% 数据的开发
集和一个包含剩余 20%数据的验证集( 1任务 1.7)
数据预处理
现在,我们开始对数据进行预处理。数据预处理应该
在每次孤立的重采样迭代中进行( 1),以避免使用
来自训练数据集之外的信息训练模型时发生的信息泄
漏,型对的可[14,18]。数
据预
处理步骤
归一化之
生误导性
和数据预
趣的读者参考[14]
R 菜谱包提
(菜谱)
个蓝(CV)程中个折
以最大限
数据集和公式 for-mat 中的变量信息定义一个配方对象
( 1,Task 1.8)。然后,我们通过一系列步骤依次添加
使用配方。表 2
提供了本使
“all_predictors()”函数用于表示我们将此步骤应用于所
有预测器的子all_predictors()的其
他替代方法包括用于数值变量的“all_numerics()”和用
于分类变“all_nomals()”( 1任务 1.8)我们
可以使用
如,“step_log(AGE)将返回 AGE 变量的日志转换版本。
相比之下,- all_outcomes()”用于将结果变量从步骤
中排除。
据集来说
细考虑使
征工程技术的更深入讨论发表在其他地方[14]。需要
额外数据预处理步骤的读者可直接访问菜谱包的网
站,以获取[19]的完整功能列表。
我们建议在将 ML 算法拟合到数据之前先查看准备
的数据:首先,我们查看配方中包含的所有步( 1
任务 1.9)。其们可定预
化,例如 step_normo -malize 的均值和标准差(
1,Task 1.10;感兴数字,以
查蓝图中的其他步)第三,我们面审查准备好的
训练数据( 1,任务 1.11)——预处理后的训练数据摘
录如图 2 所示。
算法开发和超参数调优
在准备好以开始开
在讨论不
于所有算法的通用设置。首先,我们定义
Page 3 of
15
Pfob et
al.
BMC
Medical
Research
Methodology
(2022)
22:282
of 17
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。