当前位置:论文网 > 论文宝库 > 医学论文 > 基础医学论文 > 正文

关键学习技术研究之计算机辅助医学影像诊查

来源:UC论文网2015-12-03 17:41

摘要:

第1章绪论 1.1计算机辅助诊断概述 医学影像学中的计算机辅助诊断技术通常分为三类:图像处理。图像处理的是让计算机易于识别可能存在的病变,让计算机从复杂的解剖背景中将病变

第1章绪论


1.1计算机辅助诊断概述
医学影像学中的计算机辅助诊断技术通常分为三类:图像处理。图像处理的是让计算机易于识别可能存在的病变,让计算机从复杂的解剖背景中将病变及可疑结构识别出来。此过程需要将图像数字化,如果是数字化图像如DR、CT、MR图像则可省去此步。各种病变运用不同的图像处理方法,基本原则是图像增强与过滤将可疑病变从正常解剖背景中分离、显示出来;(2)图像分析。对图像中感兴趣的目标进行检测和测量(特征提取),它是一个从图像到数据的过程。最为典型的就是计算机辅助检测(Computer Aided Detection)。在这个阶段计算机只具有初级人工智能的功能。当进行诊断工作时,计算机会告诉我们兴趣区(Range Of Interest, ROI)在哪里,提醒我们要特别注意这些区域的细微改变。而对于兴趣区性质的识别,还是需要我们人去进行;(3)图像理解。研究图像中各目标的性质和相互关系、理解图像含义。它是一个从图像到高级描述、识别的过程,这就是计算机人工智能的高级阶段一计算机辅助诊断。这个阶段计算机收集大量同病种、同部位的影像学信息建立“知识库”。利用机器学习技术针对“知识库”进行训练,使计算机“学会”根据以往的“经验”对当前的影像病变做出诊断建议。
…………


1.2数据挖掘概述
近十年来,数据挖掘与机器学习在医学辅助诊断、模式识别、欺诈检测等诸多领域得到了广泛应用与研究。数据挖掘与机器学习能有效分析原始数据,提取数据背后的隐含模式、发掘新知识并做出正确判断。与人类从过往经验中学习知识并利用其解决未来问题类似,数据挖掘从已知的经验数据中发现知识,并利用学习所得知识对未知数据进行判断。通常数据挖掘中所涉及的数据信息是以属性值(attribute-value)表示。数据包含许多实例(对象、样本等),每个实例以多个通用意义的特征来表示,而每个特征由有效的符号或数字值表示。数据实例及所含特征隐含地表达了知识,学习算法是将知识以能被理解及应用的形式表示出来。多年来由于分类在实际应用中的重要性而成为机器学习与数据挖掘中最主要的研究方向。本论文是研究分类问题,特别是二分类问题。许多分类方法已经被大家所熟知,譬如 KNN(K-Nearest Neighbor),NBC(NaYve Bayes Classifier),LDA(Linear Discriminant Analysis!),ANN(Artificial Neural Network),DT(Decision Tree),SVM(Support Vector Machines),Boosting 和 Bagging 等。许多先进学习算法及其各类改进算法能得到非常高的分类精度,例如采用SVM混合学习算法对基因微阵列数据的分类准确率可达90%以上甚至100%,并且不断有学者提出分类性能更优的学习算法。经过学者们对新学习算法的充分研究,目前设计更优性能的分类算法是一件十分困难的工作。分类算法的高准确率给人们一种机器学习无所不能的感觉,认为机器学习方法可以解决所有的分类问题,然而这样的印象与现实相去甚远。众所周知,目前还存在许多学习分类难题,譬如针对非平衡、有噪.稀缺等数据的学习分类。
…………


第2章相关研究现状


2.1非平衡数据集
数据集中当某一类别所包含的样本数显著少于其它类别的祥本数时,我们称之为非平衡数据集。进一步发现样本数少的类别往往是学习任务中用户最感兴趣的类别。许多实际的分类应用中都会出现非平衡样本集例如污染检测[29],风险管理[21]、欺诈侦察[22]以及医学辅助诊断123_24],非平衡数据集的分类问题引起学者们广泛的研究兴趣。在非平衡环境下,经典机器学习算法产生的分类界面偏离大类,会有更多稀有类样本被错分为大类,造成稀有类样本的识别率显著降低。非平衡的数据分布自身似乎不会影响学习过程,而以下与非平衡数据相关的困难阻碍了正常的学习过程。通常情况下非平衡样本集中没有充足的稀有类样本,使得学习机面临小样本问题,此时稀有类样本的识别率会显著降低。研究表明在固定非平衡比例的情况下随着稀有类样本数增加,稀有类别概念得到更为充分地表达,稀有类样本误判率也将随之降低。此时尽管样本集依然为非平衡分布,然而充分的样本能帮助学习机建立更为准确的稀有类概念模型。然而现实中收集更多阳性样本却是一项困难的工作。类别重叠问题。类别之间如果没有重叠,无论样本集是否平衡,任何一个简单的学习技术都能得到一个合适的分类器将类别完全分开。如图2-l(a)所示当类别重叠问题出现时,学习机很难推导出合适的判别准则。此时学习机通常会、推导出更普遍的判别准则,也就是稀有类别的样本更容易被误判。


…………


2.2非平衡学习性能评价
充分、详尽地评测学习算法性能是一项重要而且必要的工作,同时也是一项具有挑战性的任务。首先需要建立一个能覆盖多个应用领域、包含重要数据特征(例如样本数、特征维数、特征值等)的标准数据集用于测试;其次大部分学习算法是基于已知数据集进行训练而生成分类模型,因而性能测试必须基于与训练样本非相关的未知数据集进行盲测。当无法获得非相关测试数据时,交叉验证(Cross-Validation,CV)是经常采用的测试方法。具体来说给定一样本集,将其分成等份,将其中一份作为测试样本,其余样本用于训练。这样轮流、重复执行直到所有份样本都成为测试样本。其中4是用户提前定义,在论文中通常选择5、7、10。当)?:等于数据集的样本数时,此过程称为留一交叉验证(Leave-One-Out Cross Validation, LOOCV );最后评价准则是分类器性能评测及指导分类器建模的关键因素。特别是稀有类样本在经典的学习算法中经常被严重忽视,需要合适的评测方法对非平衡学习性能进行评测。分类准确率(公式2-1)是普遍采用的分类器性能评价工具。然而在非平衡学习框架下,准确率不再是合适的评价标准,分类器的整体准确率没有区别不同类别各自的分类性能,使用该标准会对非平衡学习性能有错误的评价。例如:对于一个非平衡t匕例为9的样本集来说,一个分类器如果将所有样本都判别为阴性,也可以取得90%的分类准确率。从这个评价来看该分类器有不错的性能表现,而事实上该分类器却没有丝毫的使用价值。
……………


第3章基于几何、概率、语义的混合样本标记技术........... 32
3.1研究背景...... 33
3.1.1符号定义...... 33
3.1.2半监督学习的研究现状...... 34
3.2混合类别标记技术...... 37
3.3算法的具体实现..... 48

3.4实验结果与分析...... 49
3.5本章小结...... 51
第4章基于凸壳的欠采样技术...... 53
4.1 凸壳的基本概念...... 54
4.2HRCH 定义与 HSVMEnsemble 算法...... 56
4.3实验结果与分析...... 63
4.4本章小结 ......68
第5章基于反向最近邻的欠釆样方法...... 70
5.1影响集合...... 70
5.2反向最近邻的基本概念...... 72
5.3反向最近邻的数学表达...... 74
5.4基于反向最近邻的欠釆样技术...... 75
5.5实验结果与分析...... 78
5.6本章小结...... 82


第5章基于反向最近邻的欠釆样方法


5.1影响集合
影响范围的概念由于依赖于应用领域,很难进行规范地定义。本章将数据库中某数据点所影响的数据范围定义为该点的影响集合(Influence Set )。假设有一数据集且数据点之间有合适的距离定义。给定数据集中一查询点g,在S中寻找被?影响的数据点集通常有两种方法。第一种方法是区域查询。以查询点《为圆心、/为半径的圆内区域作为g的影响范围,区域内的数据点为9点的影响集合。第二种方法是最近邻查询。该方法采用最近邻(Nearest Neighbors.NN )概念如kNN,将查询点g的ytAW点作为其影响集合。以上两种方法均不能直观地得到影响集概念,都需要确定相关参数来得到合适大小的影响集合。然而这些参数需要在了解查询点局部分布密度的先验知识后才能进行准确设置。区域查询对有些应用来说是合适的,譬如查询有害边圾倾倒点对周边人口的影响范围,然而对于决策支持系统、市场营销之类的应用则无法适用。最近邻查询方法通常用于接近度查询的应用场合,例如查询商场g潜在的顾客群体。判断是否为商场g的潜在顾客并不是看商场9与顾客有多靠近,而是要看顾客距离其它商场是否都比商场g要远。
……………


结论


本论文探讨了 CAD应用中的小样本、非平衡学习技术,旨在解决小样本及非平衡数据集对学习性能造成不霞影响的问题,提高CAD系统中学习机的分类性能,为放射科医生提供有价值的“第二参考意见”。基于上述研究目的,本论文就解决CAD应用中数据集的非平衡与小样本问题,分别提出新的欠采样与半监督学习技术。本论文研究重点与创新点如下:样本集的凸壳是包含数据集合中所有样本的最小凸集。本论文受凸壳几何特性启发,提出基于凸壳结构的欠采样新算法,以简约凸壳顶点取代大类样本,以此平衡训练样本。进而考虑到实际应用中两类样本往往发生重叠,对应凸壳也将发生重叠。此时采用凸壳来表征大类的边界结构容易引起过学习及学习机泛化能力下降。RCH、SCH两类缩减凸壳结构能解决凸壳的重叠问题,然而凸壳缩减过程中会带来边界信息丢失的问题。为解决基于缩减凸壳欠采样方法中存在的类别信息丢失问题,算法提出多层次缩减凸壳结构HRCH。利用RCIT_SCH结构上存在的显著差异性及互补性,将两类结构进行有效融合生成HRCH结构。相比其它缩减凸壳结构,HRCH结构包含更多样、互补的类别信息,有效减少凸壳缩减过程中类别信息丢失。算法选择不同的缩减因子及缩放因子采样大类样本集得多个HRCH结构,并将其分别与稀有类样本组成训练样本集训练产生多个学习机。最后通过集成学习综合上述学习机产生最终分类器。实验结果表明该算法能有效解决缩减凸壳的类别信息丢失问题。
……………
参考文献(略)

核心期刊推荐