基于医疗大数据的临床文本处理与知识发现方法研究

性能评估需要选择特定的度量参数，在数据挖掘之后，通过实验和测试来评估模型的性能。与此同时，预先选取的度量参数可用于指导和约束知识发现过程。

交互迭代知识发现是一个反复迭代的过程。对于数据挖掘所得到的模式和知识，需要通过持续的分析、反馈与纠正实现进一步优化，从而获得相对理想的知识模型。例如，基于数据挖掘的结果，分析是否需要从内外部数据源获取更多的数据，或者需要重新对数据进行处理。

知识表示利用标签云、热力图、树状图等可视化技术直观展示所发现的知识，基于关联关系和时间序列还可实现患者画像。知识发现的结果可用于病历检索、疾病预测、药物发现、临床辅助决策、智能问答、精准医疗以及临床教学等医学应用。

关键技术

数据预处理

数据清洗数据清洗包括填补空缺值、平滑噪声数据和纠正不一致数据来改善数据质量等任务。由于人工填补数据工作量大且可行性差，可采用贝叶斯和决策树等机器学习方法来预测最佳默认值。对于数据源中的异常属性值，可采用分箱、回归、聚类等平滑噪声数据处理方法。数据的不一致性可通过数据之间的相关性分析来纠正。

数据集成数据集成的作用在于将多来源的临床文本数据集成至统一的数据存储中，提高数据挖掘的准确性和速度。数据集成需要解决异构数据集成时的表达不一致和冗余数据问题，可通过相关分析来检测，卡方检验是常用的分析方法。

数据转换数据转换的作用在于将原始数据转换成适合于数据挖掘的统一形式。数据转换方法包括平滑噪声、数据聚合和数据规范化。其中，常用的规范化方法有最小-最大规范化、零-均值规范化和小数定标规范化。

数据归约基于医疗大数据的文本处理，需要在确保数据完整性的前提下，通过数据归约可获得精简的数据集合，提高数据挖掘的效率。数据归约可采用数据立方体聚集、维度归约、数值归约和数据压缩等方法。其中，维度归约通过去除数据集中的无关变量或属性医疗智能问答系统的作用，可有效控制数据处理的数量，主要技术包括小波变换、主成分分析等。

隐私保护我国于2011年印发了《电子病历系统功能规范（试行）》医疗智能问答系统的作用，明确了在电子病历过程使用过程中需进行隐私保护。医疗大数据的隐私保护所涉及的技术问题包括数据加密、隐私匿名处理和访问控制等，常用的算法有K-、L-、T-、差分隐私、同态加密、零知识证明等。

文本处理与信息抽取

中文分词目前分词技术较为成熟，开源的中文分词系统包括有NLPIR、Jieba、、LTP、等。然而，医疗文本在语言表达方面具有独特性，例如，精炼的语句表达要求使得其语法成分不完整，存在大量医学术语、数学符号和英文缩写等。针对专业性要求较强的医疗领域，需要基于先验知识、权威词典、语料库来提高分词的效果。

文本标注医疗文本的标注需要有标注规范的指导，例如，i2b2 2010的标注规范包括有医疗实体类型、实体间关系以及修饰类型。语料的标注的模式包括传统模式、众包模式和团体模式，均离不开人工的参与，而人工标注是一项耗时耗力的工作，特别是对于医疗领域，需要有较强专业背景知识的专家指导标注。基于少量人工标注数据实现机器自动标注是一种可取的方法，可有效节约标注成本并提高标注效率。标注的效果可通过F值和Kappa值等评价指标来对标注的一致性进行评估。

命名实体识别命名实体识别是信息提取的重要组成部分，也是医疗文本挖掘的基础。命名实体识别方法主要有基于词典的方法、基于规则的方法和基于机器学习的方法。医疗数据包含大量的医学术语，词典是医学知识发现所需的重要资源，基于词典和规则的方法适用于规律性较强的简单任务，单纯的基于词典和规则的方法难以应对复杂语言的处理要求。基于统计机器学习的方法具有较好的健壮性，其中，条件随机场（ Field，CRF）模型在基于机器学习方法中得到广泛应用。随着机器学习的发展，基于CNN、RNN、LSTM等模型的深度学习方法备受关注，该方法同时具备良好的非线性函数拟合能力和强大的序列建模能力。

关系抽取关系抽取的方法主要有基于共现的方法、基于模式匹配的方法以及基于机器学习的方法。基于共现方法的基本思想是当两个实体出现在同一个句子中时，则这两个实体之间存在关联，且共现的频率越高，则关系越强。基于模式匹配的方法需要基于语言学知识预先构造模式集合，再将经过处理后的医疗文本与之匹配进行关系抽取。对于基于机器学习的关系抽取方法，其中监督学习方法的基本思路是将医疗关系抽取视为分类问题，半监督学习方法主要通过基于少量标注语料来抽取关系，无监督的方法则主要基于上下文信息对语义关系进行聚类，该方法存在一定的盲目性，其性能有待提升。

性能评估在自然语言处理中，通常采用准确率、精准率、召回率和F值作为方法性能的评估指标。对于面向临床文本数据的分类任务，评估指标还包括受试者工作特征曲线（ Curve，ROC）和曲线下面积（Area Under Curve，AUC）。ROC曲线能够全面地展示分类器在不同阈值下的分类性能，纵坐标为真阳率（True Rate，TPR），表示真实的正例中被预测正确的比例，横坐标为假阳率（False Rate，FPR），表示真实的反例中被预测正确的比例。如果分类算法的ROC曲线越靠近坐标平面的左上角，则说明该算法的分类效果越好。为了对分类性能进行更好地定量分析，可以采用ROC曲线下的面积AUC来对分类性能进行评估，分类算法的AUC值越接近于1，表明该算法的预测效果越理想。

结语

医疗大数据包含有大量有价值的医疗信息，蕴含了与人类生命和健康密切相关的丰富知识，亟待挖掘与发现。为提升对海量临床文本的处理与利用能力，本文以临床文本数据为主要研究对象，从知识发现生命周期、文本处理流程以及关键技术等方面，研究基于医疗大数据的数据处理与知识发现方法。基于医疗大数据的临床文本处理与知识发现具有数据准备、文本挖掘、评估反馈的全生命周期，所提出的方法为后续临床知识应用研究与实践提供指导。

【引用本文：胡佳慧,赵琬清,方安,任慧玲. 基于医疗大数据的临床文本处理与知识发现方法研究[J]. 中国数字医学,2020,15(7):11-13,88.】

新媒体部：；

医疗问答平台_医疗健康问答平台_医疗智能问答系统的作用