目的 基于机器学习算法,利用血常规检验数据构建肺结核诊断模型,并分析其临床应用价值。方法 选取2019年1月—2022年12月上海市徐汇区中心医院469例初诊肺结核患者(肺结核组),以年龄、性别相匹配的506名体检健康者作为正常对照组。收集所有研究对象22项血常规检验数据和人口学参数。采用LASSO回归分析评估共线性。将数据集随机分为训练集(75%,用于机器学习模型构建)和测试集(25%,用于模型性能评估)。采用分布式随机森林(DRF)、深度学习、梯度提升机和广义线性模型这4种机器学习算法进行测试,采用5倍交叉法进行验证。采用受试者工作特征(ROC)曲线评估模型的诊断效能。结果 基于Logistic回归分析和LASSO回归分析结果进行模型特征重要性排序,共筛选出10个非共线性指标,结果显示,DRF是构建肺结核诊断的最佳机器学习算法。在训练集和测试集中,DRF模型的曲线下面积分别为0.992 1和0.847 4,敏感性分别为99.16%和92.04%,特异性分别为80.91%和55.22%,准确度分别为89.84%和72.06%。结论 基于机器学习算法构建的血常规检验数据肺结核诊断模型是一个有效的诊断工具,但其临床应用价值需要进一步验证。