数据挖掘分类算法的学习总结( 四 )


数据挖掘分类算法的学习总结

文章插图
6.1 一种混合CNN-SVM阈值分割方法用于MRI脑图像肿瘤检测与分类[11]
笔者的主要研究方向是关于图像处理方面,曾经阅读过关于医学图像方面的文献 。其中,文献[11]使用到了本文涉及的数据挖掘分类算法SVM 。
由于目前对于脑肿瘤的判断主要依赖于影像学的表现,其中磁共振成像(MRI)是判断脑肿瘤最重要的工具 。又由于深度学习(DL)方法已经在图像分类中取到良好分类效果,等人[11]提出了一种在MRI脑图像肿瘤检测方面使用基于阈值的图像分割方法,在MRI脑图像肿瘤分类方面结合使用CNN和SVM 。我们重点关注MRI脑图像肿瘤分类方面,将脑图像分类为良性和恶性肿瘤 。提出的CNN-SVM混合模型通过将CNN的最后一层替换为SVM,即将CNN的全连接层的输出变成SVM的输入,其结构图如图3所示 。此时,CNN模型在具有55卷积的2828特征图和具有22卷积的1414特征图的基础上分别进行不同的卷积和子采样,旨在加快训练过程和测试过程的信息提取 。此后,SVM模型将CNN的全连接层输出作为输入,可以更好地分别训练特征向量,进行分类和决策 。
【数据挖掘分类算法的学习总结】通过实验得出:基于SVM模型单独分类正确率为72.5536%,基于CNN模型单独分类正确率为97.4394%,基于SVM-CNN混合模型分类正确率为98.4959%,可以看出基于CNN-SVM混合模型取得更为先进的分类效果 。同时,我们可以在未来考虑将传统数据挖掘分类算法和深度学习相结合,实现更好的分类精度 。
6.2 基于深度学习的小数据集环境在线反馈用户需求分类[12]
笔者本学期在学习软件需求工程这门课过程中,曾研读文献[12]进行论文汇报,其中对于需求进行分类使用到了本文涉及到的数据挖掘分类算法SVM和朴素贝叶斯算法 。
用户在访问应用商店和社交媒体平台时,可能会留下用户反馈,如何从存在网络俚语、快捷语法和糟糕格式等大量噪音的用户反馈中提取出有用的用户需求,对产品改进和竞争分析至关重要 。等人[12]开发出了一个集成系统,对各种最先进的基于机器学习和基于深度学习的分类器进行整体开发和验证需求分类的精确率、召回率和F1值,提出的系统架构如图4所示 。其中,基于机器学习的分类器分为基于TF-IDF分类器和朴素贝叶斯分类器 。基于TF-IDF分类器使用TF-IDF技术计算出用户反馈文档中每个单词的TF-IDF值,然后将其构造成向量输入到SVM中对分类目标进行训练 。朴素贝叶斯分类器对用户反馈文档进行需求分类时,首先需要计算用户反馈文档中每个单词和每个类的先验概率,其中单词的先验概率是单词特定评论类出现的次数与该类评论总数的比值,类的先验概率是该类评论数量与文档中总评论数量的比值;然后使用贝叶斯决策规则计算每个评论的类条件概率,最后根据贝叶斯定理计算取出概率最大值类别即可 。
其实,作者只是将基于机器学习的分类器作为一个参考基准来与基于深度学习的分类器进行比较,来体现基于深度学习的分类器的更好分类效果 。但从最终的实验结果来看,基于TF-IDF分类器和朴素贝叶斯分类器的分类指标评估只是稍逊色于基于深度学习的分类器,同时相对深度学习的分类器来说,基于机器学习的分类器的处理和训练时间非常短 。
七、总结
大数据时代的到来,让社会各行各业和我们的日常学习及生活都充斥着海量数据,数据挖掘的重要性日趋明显 。而作为数据挖掘的核心内容——分类算法,同时在发挥其不可或缺的作用 。本文通过对数据挖掘分类算法的研究,完成的主要工作如下: