临床大数据中的数据挖掘: 常用数据库、步骤和方法模型

背景

在医疗领域应用大数据有助于提高医疗服务质量，优化医疗流程和管理策略

在医学研究中，由于临床资料的多样性和不同分类标准中几个医学概念之间的差异，导致了现有临床资料的高度维度异质性、时效性、稀缺性和不规则性

新的数据分析技术尚未在医学研究中推广

数据挖掘：指从大量不完整、有噪音、模糊和随机的实际应用数据中提取潜在有用的信息和知识的过程

优势：与传统的研究方法不同，一些数据挖掘技术在假设不明确的前提下挖掘信息以发现知识，获得的信息应该具有以前未知的、有效的和实用的特征

数据挖掘概述

模型

预测模型用于预测其他感兴趣的变量的未知值或未来值

描述性模型通常用于找到描述可由人类解释的数据的模式。

任务

在数据中归纳潜在关联的模式

方法

监督式学习模型生成

线性回归、广义线性回归、比例风险模型(Cox 回归模型)、竞争风险模型、决策树、随机森林算法和支持向量机(SVMs)

非监督式学习分析

主成分分析分析、关联分析和聚类分析

临床大数据的数据挖掘算法

监督式学习

数据集划分

训练集

用于学习并用于适应分类器参数(即权重)=训练模型或确定模型参数

验证集

调整分类器参数(即体系结构)=模型选择

测试集

评估完全指定分类器性能(泛化)=验证模型性能

机器学习方法

决策树

定义：基本的分类和回归方法

特征：每个树节点代表一个属性上的一个测试，每个分支代表一个属性的输出，每个叶节点(决策节点)代表一个类或类分布，树的顶部是根节点

优点：解释了变量之间的强烈交互作用，更适合用于遵循相同结构的决策算法

缺点：在数据不平衡方面，决策树模型的精度需要提高

RF 算法

定义：基于决策树集合的集成学习方法的应用

优点：在每个决策树节点上对预测变量的随机抽样减少了森林中树木之间的相关性，从而提高了总体预测的精度

支持向量机

定义：一种数据驱动的方法，不需要假设数据分布

优点：基于高维数据或小样本数据[53,54]的案例分类和预测

特征：具有很强的识别能力，使支持向量机成为检测慢性和复杂疾病个体的一个很有前途的分类方法

缺点：当观测样本数量很大时，该方法变得时间和资源密集。低效

竞争性风险模型

特征：基于数据分布假设

优点：准确地估计在右删失的多端点生存数据中结果的累积发病率

非监督式学习

聚类分析

分区集群

层次聚类

根据密度进行聚类

根据网格进行聚类

关联规则

主成分分析

步骤：1)列出集合中的所有高频项，2)基于高频项生成频繁关联规则

应用：探索疾病危险因素与其他危险因素组合的联合效应、评价治疗效果、揭示了前提和结论之间的联系

目的：描述性：以可解释的方式降低数据维度，同时保留数据中的大部分信息

步骤包括原始数据的标准化、相关系数矩阵的计算、特征矢量的计算、主成分的选择和综合评价值的计算

应用：用每个主成分代替原来的独立变量作为回归分析的一个新的独立变量、数据聚类结合使用。使用 PCA 来转换临床数据，以解决现有变量之间缺乏独立性的问题，可以消除可能破坏聚类结构的噪声变量，从而提高聚类分析结果的准确性

实例

疾病早期预测预警模型的建立

肿瘤患者预后危险因素的探讨

饮食模式的衍生

操作步骤

(1)根据研究目的选择数据库;

摘要

数据高度的拥有属性异质性、时效性、稀缺性、不规则性

数据挖掘在临床大数据研究中具有独特的优势

文章介绍了主要的医学公共数据库，简要描述了数据挖掘的步骤、任务、模型、方法、实际应用

缺点：可能不适合分析大型数据库

(2)数据提取与集成，包括从多个来源下载所需数据并组合数据;

(3)数据清理与转换，包括去除错误数据、填补缺失数据、生成新的变量、转换数据格式，并确保数据一致性;

(4)数据挖掘，包括通过传统统计学或机器学习提取关系隐式模式;

(5)模式评价，重点关注所提取数据的有效性参数和关系模式值;

(6)结果评价，包括将所提取的数据关系模式转化为公众可理解的知识。