190 likes | 344 Views
基于改进 RMM 算法的智能导医. 演讲人:梁璐 导师:王宗敏 教授 指导老师:林予松 副教授. 主要内容. 研究背景及问题提出 设计目标 系统结构 数据库设计 分词算法 推理流程 实验结果与下一步的工作. 研究背景. 社会公众对大中型医疗单位的医疗信息的关注和需求日益增加。 对于一个可以支持医院海量数据快速处理的大规模、高效率的数据库管理系统来说,多年的应用所积累信息资源没有能够得到再生和重复利用是十分可惜的。. 问题提出.
E N D
基于改进RMM算法的智能导医 演讲人:梁璐 导师:王宗敏 教授 指导老师:林予松 副教授
主要内容 • 研究背景及问题提出 • 设计目标 • 系统结构 • 数据库设计 • 分词算法 • 推理流程 • 实验结果与下一步的工作
研究背景 • 社会公众对大中型医疗单位的医疗信息的关注和需求日益增加。 • 对于一个可以支持医院海量数据快速处理的大规模、高效率的数据库管理系统来说,多年的应用所积累信息资源没有能够得到再生和重复利用是十分可惜的。
问题提出 • 网上挂号功能方便了社会大众,为了方便公众对疾病的了解及引导用户正确选择医生,建立了智能导医服务,以使病人在家中通过上网了解疾病有关情况, 选择医生挂号, 减少去医院的次数,以有效预防传染性疾病的传播。
设计目标 系统主要通过分词提取关键字、数据库、知识表示、推理机制等理论知识,从而更进一步实现了对用户输入信息的推理,以达到系统的最终目的,即可以实现自动准确地推断出用户要查询的疾病及此疾病的信息,同时给出能诊治此疾病的医生都有哪些及这些医生的信息,以方便用户选择医生挂号。
系统结构 • 智能导医可以分为四大部分:分词、提取关键字、推理机和数据库。
数据库设计 • 数据库主要有以下4个表: • 表1 zhengzhuang 症状编号 症状名称 备注 权重 • 表2 jibing 疾病编号 疾病名称 备注 权重 • 表3 jibing-zhengzhuang 编号 疾病名称 症状名称 备注 权重 • 表4 jibing-doctor 编号 疾病名称 医生 备注 权重
分词算法 • 目前常用的中文分词方法主要有: • 基于字符串匹配的分词方法:歧义识别能力差,切分准确率低,易于实现。 • 基于语义的分词方法:需要使用大量的语言知识和信息,处于试验阶段。 • 基于统计原理的分词方法:识别精度差,时空开销大,算法简单,实用性强,常用对于长篇文档分词。
分词算法 • 采用改进RMM算法依据 • 数据库中存放的是医疗领域的专有名词。 • 只对简单的字符串分词,不对长篇文档分词。 • RMM算法经典常用,符合中文语法规则。 • RMM只实现初始化,精度不能满足实际需要。
分词算法 • 改进RMM算法特点 • 采用 “窗口”滑动的方式取字符串中的词。 • 保证了长词优先,减少了切分的细碎程度。 • 提高了在专业领域分词的准确率及搜索效率。
分词算法举例 • 句子:“得了肠炎肚子剧烈疼痛难忍”。词典中有词“肠炎”、“肚子剧烈疼痛”、“疼痛难忍”。 • RMM分词: “得/了/肠炎/肚/子/剧/烈/疼痛难忍”,得到关键词“肠炎”、“疼痛难忍”。 • 改进RMM分词: “得/了/肠炎/肚子剧烈疼痛/难/忍”,得到关键词“肠炎”、“肚子剧烈疼痛”。
分词算法举例 • 由上面句子可知我们想要得到的是疾病“肠炎” 及症状“肚子剧烈疼痛”,改进的RMM算法能正确切分我们所需要的关键词,遵从长词优先的要求,在一定程度上减少了分词的歧义。
推理流程 • 为了能在推导疾病时,更准确全面的查找疾病,本文提出了权值相加规则: ①果分词当中有关键字为某一确定疾病,则直接输出疾病对应医生,不需要再赋权值。 ②如果分词当中有类似某一疾病,则给此疾病赋权值0.5。 ③如果分词当中有关键字为某一确定症状,则给此症状赋权值0.5。 ④分词当中有类似某一症状,则给此症状赋权值0.25。
实验结果 当用户输入症状或疾病的时候,系统会根据推理诊断出用户所要查找的疾病并最终返回给用户疾病的相关信息及能诊治此疾病的医生和医生的信息,以方便用户选择查看。
下一步的工作 • 1 继续完善改进RMM算法,减少分词的歧义。 • 2 建立近义词表,解决分词时对字符串中词和词典中词相近 的识别 。 • 3 改进推理方法及对权重值的确定。 • 4 提高查询精确度,实现多疾病情况下让用户选择症状来查找疾病。