您的位置 首页 模拟

数据发掘技能在中医证候学中的使用

中医证候的研究工作仍然存在一定的困难,证候的规范化和证候诊断的量化是中医发展必须解决的问题。数据挖掘技术是一种高效的数据分析手段,其在中医领域的研究也逐步走向热门。使用数据挖掘技术中的关联规则和分类算

作者 / 周旭1 赵耀2  1. 河北医科大学 根底医学院(河北 石家庄 050017) 2. 我国人民银行石家庄中心支行(河北 石家庄 050000)

*基金项目:河北省中医药管理局科研计划项目(编号:2014012)。

周旭(1983-),女,硕士,讲师,研讨方向:数据发掘

摘要:中医证候的研讨作业依然存在必定的困难,证候的规范化和证候确诊的量化是中医开展有必要处理的问题。数据发掘技能是一种高效的数据剖析手法,其在中医范畴的研讨也逐步走向抢手。运用数据发掘技能中的相关规矩和分类算法对早中期缓慢肾衰竭的证候和症状进行剖析:首要对搜集的症状和证候信息进行数字特征化处理;然后对证候之间的相相联系进行研讨,取得了高支撑度的四组证候组合;最终分类和猜测症状和证候之间的辩证联络,得到了症状的规矩集,并核算出其间的重要症状。试验证明,分类成果对早中期缓慢肾衰竭的症状与证候的辩证论治具有重要的临床指导含义。

0 导言

  证候是医生经过望、闻、问、切来搜集患者四诊信息材料,运用相关中医理论,从全体上对疾病进行剖析,概括、推理、判别疾病的某一时点病理状况归纳反映的知道[1]。因为证候是一种非线性的杂乱的临床表现,只要选用与证候杂乱性相适应的科学理论及思想办法对其进行研讨,才干提醒其科学内涵[2]。运用数据发掘技能对中医证候的构成特色及其规矩进行剖析研讨,将对中医证候的辩证剖析起到巨大的促进效果。

1 数据发掘技能

1.1 数据发掘界说

  数据发掘是从很多数据中发掘风趣方式和常识的进程。从广义上说,数据发掘是对数据库常识发现(Knowledge Discovery in Databases,KDD)的一个进程[3]。数据发掘作为一种通用技能,能够运用于任何类型的数据,包含数据库、数据仓库、web信息以及其他信息存储数据库和动态的流入体系的数据等。

1.2 常用的数据发掘算法

1.2.1 相关规矩

  相关剖析用于发现躲藏在数据会集的有含义的联络,所发现的特征变量之间的联络能够用相关规矩或频频项集的方式标明。相关规矩发掘作为一种重要的数据发掘办法,现已广泛运用于医学、金融、互联网等多个范畴[4]。Agrawal等人[5]提出了最早的根据频频项集的经典相关规矩Apriori算法。发现相关规矩需求阅历两个进程:①经过一种逐层查找的迭代算法,检索出支撑度不低于某一预设阈值(支撑度)的频频项集;②运用检索出的频频项集构建出强相关规矩(一起满意最小支撑度和最小置信度)。

1.2.2 分类

  分类使命便是确认方针归于哪个预界说的方针类。分类问题是一个普遍存在的问题,现已有很多运用,包含方针营销、功能猜测、制作和医疗确诊等[6]。数据发掘技能中比较老练且运用广泛的分类算法有贝叶斯网络、决议计划树以及人工神经网络等。

  贝叶斯办法最早起源于英国数学家托马斯.贝叶斯在1763年所证明的一个关于贝叶斯定理的一个特例[7]。经过多位核算学家的共同努力,贝叶斯核算在20世纪50年代之后逐步树立起来,成为核算学中一个重要的组成部分[8-10]。从1763年到现在已有250多年的前史,这期间,贝叶斯核算办法有了长足的前进[11]

  决议计划树模型源于人工智能范畴的机器学习技能,用于完成数据的分类和猜测。经过多年开展,其间心算法现已逐步老练,被各类智能决议计划体系所选用[12]。其间的C5.0算法作为C4.5算法的商业版别,经过对生成规矩及算法精确度方面予以改善,取得了更精确的生成规矩、更快的运转速度以及更低的误差率[13]。决议计划树模型在中医证候学和确诊学[14-15]等方面的运用研讨现已较为老练。

  人工神经网络是20世纪80年代开展起来的一门由核算机、信息、工程、医学、生物学、数学、物理学等多学科穿插的边缘学科[16]。它包含输入层、输出层以及1个或几个隐含层,各层中处理数据的节点称为神经元,信息处理是由神经元之间的彼此效果来完成的。脑与神经科学、人工智能、核算机科学的深度交融与彼此学习已成为近年来科学研讨范畴重要的世界趋势[17]

2 数据集的树立

2.1 数据搜集

  本文试验数据采自早中期缓慢肾衰竭患者的病案。病案内容包含患者名字、性别、年纪、原发病、症状、体征、肾功能方针、中医证候、中药处方等。本文摘取其间的症状和证候信息进行数据发掘的剖析研讨。共搜集并录入病案信息223条,其间记载症状共76种,论治证候共16种。

2.2 数据特征化

  针对要选用的数据发掘算法,本文将每条数据记载用布尔值的方式标明,如表1所示。

  其间布尔值0和1标明患者是否具有这种症状或证候,0标明患者没有此症状或证候,1标明患者具有此症状或证候。

  依照上述办法建成症状和证候数据库,其间包含:包含一切症状的数据集,由专业教授确诊判别的证候数据集,核算症状和证候频次的症状和证候计数数据集以及首要症状数据集和首要证候组合数据集。

3 相关剖析

  本研讨共归入症状16种,呈现频数在病案总条数10%以上的的证候有11种,别离是血瘀,脾肾气虚,湿热内蕴,脾肾阳虚,湿浊阻滞,风湿,胃气上逆,肝阳上亢,肝肾阴虚,阴阳两虚,气滞胃肠。

  本文选用Apriori算法建模,对这11种首要的证候进行相关剖析。成果见表2(因为篇幅约束,只摘取支撑度30%以上的规矩显现)。

  支撑度是指一切前项证候一起呈现的概率,置信度是在前项证候呈现的前提下,后项证候一起呈现的概率。成果显现,血瘀独自呈现的几率最高,到达98.21%;血瘀与脾肾气虚一起呈现的几率高于60%;在此根底上,再一起伴有湿浊阻滞或湿热内蕴者均在30%左右,而两者之和则高于60%,充沛标明瘀阻、湿壅与脾肾气虚为缓慢肾衰竭真假搀杂、本虚标实的首要表现。

  运用SPSS Clementine12.0中的网络图形建模,该模型能够直观的表现11种高频证候两两之间相相联系,衔接两种证候之间的直线越粗,标明两种证候一起呈现在一个病案中的频率越高。如图1所示。

  结合网络联络图及链接数据剖析,强链接联络首要会集于血瘀、脾肾气虚、湿热内蕴、湿浊阻滞和脾肾阳虚之间。其间,坐落前三位的链接联络别离为血瘀与脾肾气虚、湿热内蕴、脾肾阳虚之间,衔接条数达389条,占一切衔接条数的50%以上,标明血瘀为早中期缓慢肾衰最重要的标实证候;脾肾气虚除与血瘀之外,与脾肾阳虚、湿热内蕴、湿浊阻滞之间的联络均较亲近,故为本病最首要的本虚证候。

4 分类与猜测

4.1 决议计划树模型的树立

  本文运用C5.0算法构建决议计划树模型。核算数据库中患者症状呈现的频数,从76个症状中挑选出呈现次数10次以上的首要症状如畏寒、小便黄、腰酸痛、眼睑、下肢水肿、舌红、舌暗红、寒热不调、寐差、夜尿频、大便干、双目干涩、视物含糊、纳差、大便粘腻、胃脘不适、口干咽干、关节痛苦、腿麻痹肿痛、厌恶、干呕、四末厥冷、咽痒咽痛咳嗽有痰、耳鸣、腹胀、口苦、舌淡、后背沉重、小便量少、小便清长、咽部异物感、潮热、乳房肿痛、齿痕舌、舌淡暗、汗出、舌淡红、皮肤瘙痒健忘、尿频、大便溏、口淡等39个。运用这些首要症状参加建模,按其呈现次数降序摆放。

  据前述相关规矩的成果,呈现频数较高的证候组合(支撑度30%以上)共四个,包含:①血瘀、脾肾气虚;②血瘀、脾肾气虚、脾肾阳虚;③血瘀、脾肾气虚、湿热内蕴;④血瘀、脾肾气虚、湿浊阻滞。症状是疾病所反映的现象,它是判别病种,区分证候的首要根据。别离对这四种高频证候组合及其对应的症状进行决议计划树建模,每个组合别离取得若干条症状的分类规矩。组合1取得的规矩集如表3。

  咱们选取分类成果为真的规矩集,这些规矩集猜测的成果便是证候组合为真。组合1(血瘀和脾肾气虚)共取得了8条判别规矩,前7条规矩都可作为组合1的有用分类规矩,而第8条规矩中,分类特征的特点都为0,在实践临床运用中不具备实践效果,将其疏忽。组合2取得3条有用分类规矩;组合3取得4条有用分类规矩;组合4取得3条有用分类规矩。这些有用规矩都能够独登时的猜测其对应的证候组合,构成规矩的症状数量较少,能够简化确诊进程。

4.2 核算变量重要性

  不同证候组合所对应的症状规矩不尽相同,根据对症状的信息熵的剖析核算,提取每个组合其所对应的重要症状,成果如表4,表中症状呈现的次序依照重要性降序摆放。

  表中的症状是去除冗余症状之后的成果,剔除了不重要的症状,保存的症状是对证候组合的猜测有重要贡献的症状。重要度越高,标明此症状对方针证候的猜测影响程度越高;反之重要度越低,标明此症状对方针证候的猜测影响程度越小。

  不同证候组合所对应的猜测症状不尽相同,经过剖析发现,四种最常见证候组合均可呈现畏寒的临床表现,而每一种组合用于辨别的重要症状则首要会集偏重后背沉重、寒热不调、尿频、舌淡等临床表现。

4.3 不同分类模型猜测成果比照

  本文对支撑率较高的四种证候组合,选用三种常见的数据发掘分类猜测算法:C5.0决议计划树、贝叶斯网络以及人工神经网络对症状进行分类猜测,比照分类精确率如图2。

  三种分类算法中,贝叶斯网络对本数据集的分类精确率最高,在84.75%到96.41%之间。神经网络的分类精确率较低,在73.99到91.93%之间,而三种分类算法的均匀精确率都到达了82%以上,精确率较为抱负。

5 定论

  本文首要构建了一个根据Apriori算法的模型,进行证候的相关规矩发掘,发现了在早中期缓慢肾病患者中的四组高支撑度证候组合,而且与中医理论较为符合,一起也为下一步的分类与猜测作业供给数据支撑。

  其次针对较高支撑度的四组证候组合以及患者呈现的高频症状选用C5.0算法进行决议计划树建模,以期得一些有含义的症状规矩。成果显现,这些规矩集能够猜测患者是否归于某种证候组合,本文选取猜测类别为“真”的规矩集(可猜测患者的确归于某种证候组合)作为临床确诊的参阅。猜测类别为“假”的规矩集(猜测患者不归于某种证候组合)不具备临床确诊含义,所以不予评论。一起核算出参加猜测的症状的重要性,判别哪些症状对证候组合的猜测成果具有重要含义,阐明这些症状在临床确诊中值得重视。

  最终别离运用运用贝叶斯网络,C5.0和神经网络三种分类算法对症状进行建模,剖析不同的分类算法分类猜测的精确率。贝叶斯网络对四组证候组合的均匀分类精确率最高为89.80%;C5.0和其十分挨近,也到达88.34%,阐明这两种分类算法对本数据会集证候组合的分类猜测都比较牢靠。神经网络的的精确率为82.85%,相较前两种算法较低,但因为中医数据集的样本数量有限且主观性较强,取得的精确率到达百分之八十以上咱们就可以为是有用可行的分类猜测算法。所以以为这三种算法关于症状和证候的分类猜测都是可行的,且以贝叶斯网络和C5.0算法为更优,猜测成果都能够作为临床确诊的参阅根据。

  本文选用的算法都是数据发掘中的经典算法,并没有对算法进行优化作业,对证候组合的提取以及症状的分类猜测还需求很多的试验数据进行进一步验证,算法的精确率还需求进一步进步,这些都是需求进一步改善的当地。

  综上所述,运用多种数据发掘算法对早中期缓慢肾病的症状与证候进行逐步深化的常识发掘,是可行有用的,取得的高支撑度证候组合以及症状的分类猜测规矩关于临床确诊也是有必定指导含义的。如安在算法上有更多打破,一起将更多新的算法引进到中医研讨中,以期进步发掘的功率和精确性,是咱们下一步的研讨方向。

  参阅文献:

  [1]田金洲,王永炎,时晶,等.证候的概念及其特点[J].北京中医药大学学报,2005,28(5):6-8.

  [2]孙安会,袁肇凯,夏世靖.中医证候体系生物学研讨的现状和展望.[J]中华中医药杂志,2016,31(1):200-204.

  [3]JiaWeiHan,MichelineKamber, Jian Pei.数据发掘概念与技能[M].范明,孟晓峰,译.北京:机械工业出版社.2012:243.

  [4]Giannella C,Han Jiawei,Pei Jian,et al. Mining frequent patterns in data streams at multiple time granularities[J].Next GenerationData Mining,2006,35(1):61-84.

  [5]AGRWAL R,SRIKAN R.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: MorganKaufmann Publishers,1994:487-499.

  [6]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据发掘导论 [M]. 范明,范宏建,译.北京:人民邮电出版社。2011:92

  [7]Bayes T. An essay towards solving a problem in the doctrine of chances [J]. London: Philosophical Transactions Royal Societv, 1763,53:370-418

  [8]茆诗松.贝叶斯核算[M].北京:我国核算出版社,1999.

  [9]P M Lee.Bayesian statistics: An Introduction[M]. New York: John Wiley & Sons, 2012.

  [10]A Gelman,J Carlin,H Stern,et al.Bayesian Data Analysis[M].Boca Raton:CRC Press,2013.

  [11]Efrou B.Bayes’ theorem in the 21st century[J].Science, 2013, 340(6137):1177-1178.

  [12]N Robert,E John,M Gary.Handbook of statistical analysis and datamining applications[M].USA:Elservier,2009.

  [13]熊平.数据发掘算法与Clementine 实践[M].北京:清华大学出版社,2011,26:116-118.

  [14]张琪,周琳,陈亮,等.决议计划树模型用于结核病医治计划的分类和预判[J].中华疾病操控,2015,19(5):510-513.

  [15]陈潇雨,马利庄,胡义扬.根据决议计划树办法的缓慢乙型肝炎中医证候分类[J].上海:中医药大学学报,2013,27(1):40-43.

  [16]B D Ripley.Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. 1996.

  [17]曾毅,刘成林,谭铁牛.类脑智能研讨的回忆与展望[J].核算机学报,2016,39(1):212-222.

  本文来源于《电子产品世界》2018年第4期第56页,欢迎您写论文时引证,并注明出处。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/zhishi/moni/310787.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部