1 / 63

基于平台的数据挖掘和数据展示

基于平台的数据挖掘和数据展示. 马维 民 卫宁软件 技术总监 高级程序员、高级工程师、项目管理 师 mwm@winning.com.cn weimin.ma.2046@gmail.com 13311781376. 提纲. 1 、平台解析. 基于 平台 的 数据挖掘 和 数据展示. 2 、 BI 展示技术分析. 3 、挖掘技术分析与应用. 基于健康档案的区域信息平台. 基于电子病历的医院信息平台. 平台存在什么问题?. 平台的生命力问题,囧? 加拿大蓝图中,区域平台的潜在应用,感觉语焉不详

farrah
Download Presentation

基于平台的数据挖掘和数据展示

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于平台的数据挖掘和数据展示 马维民 卫宁软件 技术总监 高级程序员、高级工程师、项目管理师 mwm@winning.com.cnweimin.ma.2046@gmail.com 13311781376

  2. 提纲 1、平台解析 基于平台的数据挖掘和数据展示 2、BI展示技术分析 3、挖掘技术分析与应用

  3. 基于健康档案的区域信息平台

  4. 基于电子病历的医院信息平台

  5. 平台存在什么问题? • 平台的生命力问题,囧? • 加拿大蓝图中,区域平台的潜在应用,感觉语焉不详 • 医院信息系统已经是核心系统,如果宕机,直接影响患者就诊,会成为一个社会事件 • 区域平台什么时候能有如此待遇?

  6. 平台的核心功能 • 1、在一定范围内完成业务流程 --- 互操作性(三个层次) • 众多系统有效协同完成一个业务流程 • 子系统通过平台获取共享信息,完成业务流程 • 基础层、功能层、语义层 -----业务流程驱动 • 2、实现数据汇聚、分析、反馈 --- 大数据?4V -----数据决策驱动

  7. 参与标本流转的医院的检验标本识别码编码规则需实现统一规则管理。参与标本流转的医院的检验标本识别码编码规则需实现统一规则管理。 社区医院、生物标本物流、中心医院均详细记录标本流转过程信息 采用物联网技术,实现样本运输的定位和跟踪 区域临检中心--跨机构标本流转管理 外送标本核对 外送标本接收 患者标本 患者标本 标本条码绑定 生物标本 运送物流 社区 医院 中心 医院 标本上机检测 患者标本采集 报告审核发布 患者检验报告

  8. LOINC 术语 LOINC 代码 5193-8 标准化在满足互操作性的基础上,是实现可比性和数据质量的保证; 经过众多项目的实践和对国内众多项目的观察: 没有标准化,就无法进行对比,进而无法实现数据展现,无法进行数据挖掘。 可见,所谓的检验检查结果互认在本质技术上并未实现 Hepatitis B virus surface Ab 成分 Component ACnc 受检属性 Property Measured Pt 时间特征 Timing Ser 体系 System Qn 标尺精度 Scale EIA 方法 Method 其中,包括六个主要的 LOINC 轴 医学科研中的RCT(randomized controlled trial)随机对照试验其对照的可比性也是关键

  9. A A A A A A B Σ B B E E B Σ Σ B C C B C D D C 接口、数据映射的代价:N*(N-1)/2 vs N 缺乏统一标准 采用统一标准 • 节点 映射(无共同标准) • 2 1 • 3 3 • 4 6 • 5 10 • 6 15 • 7 21 • 8 28 • 9 36 • 10 45 • 11 55 • 12 66 • 13 78 • 14 91 • 15 105 • 16 120 • 17 136 • 18 153 • 19 171 • 20 190 从这个角度讲,平台即标准化 标准化是平台生命力的真正关键所在 在业务流程各个系统中实现标准是标准化真正的贯彻

  10. 未来信息化发展趋势之我见 • 在业务流程中贯彻标准化,是业务流程真正流转的基础,也是标准落地之根本 • 数据标准后,通过业务流程、数据决策双重驱动,实现使平台焕发生机 •  医疗信息产业的升级发展

  11. 提纲 1、平台解析 基于平台的数据挖掘和数据展示 2、BI展示技术分析 3、挖掘技术分析与应用

  12. BI展示技术分析 • 总体BI的思路 • 介绍多维分析 • 展示样例图示

  13. 数据仓库DW OLAP 数据ETL转换 操作数据 数据可视化 BI总体结构 BI  HI  CI OLAP OLTP 临床人员 HIS信息系统 业务量主题 转换 仪表盘和平衡计分卡 临床科主任 收入 医保主题 多维分析 临床信息系统 汇总 医疗质量主题 聚合 数据挖掘 HRP信息系统 分析和查询 管理人员 用药分析主题 装载 其他数据源 报表 数据源 数据清洗 数据合并 指标生成 数据展示

  14. 几个概念 • 数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程 • 数据仓库是一切商业智能系统的基础 • 数据仓库主要过程数据抽取、存储和管理、数据仓库设计、数据表现等过程

  15. BI发展趋势 • 全球范围内,医疗机构持续在信息系统投资,旨在改善医疗质量和运营效率。 • 投资在持续,借以希望从投资获得价值和智能支持 稳定的市场 增长市场 临床管理系统 医疗分析 临床与业务自动化 (交易型) 医院信息整综合分析 (集成的基础框架与分析) 2011 2010 2012 2002 2003 2004 2005 2006 2007 2008 2009

  16. 数据仓库 BI的关键:“挑战”各种应用系统的数据需要整合 HIS HIS • 数据的数量及其复杂性 • 整合大量异构的数据 • 需要成熟完善的分析工具和方法 • 不同系统的协作 其他分析 药品分析 医保分析 收入分析 运营分析 CIS CIS SOA 数据总线 CRM CRM

  17. “最后一环”院长需要什么 ? 1 2 3 4 1. HIS系统 -建立以患者为中心的医院标准工作流系统。 -实现医院日常运行,收费结算一体化的解决方案。 3. HRP资源管理系统 -建立以成本核算为中心的医院资源管理系统 -实现人,财,物有机结合的精细化管理。 2. 临床信息系统 -建立以电子病历为核心的临床信息系统 -j建成功能专业、流程高效、应用简洁、高标准智能化临床信息系统。 4. 数据集成智能分析 -建立以管理为核心的信息集成平台。 -贯穿医院三大数据流,依据预先定义的管理指标提取数据,归并成多个分析主题。为医院决策分析提供准确,全面的数据分析。

  18. “指标”验证信息化建设效果 2月份上了自助机优化流程后门诊病人就诊时间是否减少?具体减少了多少?各再哪几个环节? 门诊平均 就诊时间 56 18%

  19. 区域医保用药控制场景分析 • 严禁超量用药、超限用药、重复用药; • 严禁实施与病情不符的检查、治疗、用药; • 严禁分解处方、分解检查、分解住院。 • 门诊医师严格遵循处方管理规定,杜绝不合理的退费、退药。 • 住院医师严格掌握参保人的入院标准、出院标准,严禁将可在门诊、急诊、留观及门诊特定项目实施治疗的病人收入住院。 通过医生处方决策工具提供快速、准确、临床实用的治疗方案,协助医生做出最佳选择 CPOE EMR CP 规则 医生站 规则库 区域数据库 监测 监测监控

  20. OLAP的核心是多维分析 BI的多维分析 数据魔方(CUBE ) 时间 入院人次,手术次数 住院均次费 药占比,抗生素占比 平均住院日 病床周转次数 入院3日确诊率 入院与出院诊断符合率 抢救次数 院内感染率 住院病人术前平均住院天数 按自然年 按季度 按月份 按星期 24小时 同比,环比 范围 指标 院长 在医院运营仪表盘上发现药占比指数异常。继而查看上个月全院各科室药占比 治疗者:(科室,医生) 患者 :(挂号类型,医保类型,预约标志,诊断分类,性别,年龄段,治疗周期) 治疗情况: (自费药品,医保药品,抗生素分类,项目分类) 相关科室主任按照科室内医生分类查看药占比发现某医生的患者药占比偏高,继而再对患者进行分类,然后发现医保病人药占比正常,自费病人偏高,再对病人用药进行排序,发现有几种药品用药异常。 科主任

  21. 多维魔方

  22. 多维数据集 • 多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。 • 度量值是决策者所关心的具有实际意义的数值。 • 维度是人们观察数据的角度。 • 维的级别是维度的不同的细节程度。 • 维度成员是维的一个取值。 • 数据集合的常用操作有上卷、下钻、切片、切块和转轴。 • 维度表和事实表的连接方式主要有星型架构、雪花型架构以及星型雪花架构。 • 多维数据的存储模式有ROLAP、MOLAP和HOLAP。

  23. 上卷(Roll-Up) • 上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。 沿着时间维上卷,由“季度”上升到半年

  24. 上卷(Roll-Up) • 上卷的另外一种情况是通过消除一个或多个维来观察更加概况的数据。 消除“经济性质”维度

  25. 下钻(drill-down) • 下钻是通过在维级别中下降或通过引入某个或某些维来更细致的观察数据。 沿时间维下钻

  26. 切片(slice) • 在给定的数据立方体的一个维上进行的选择操作。切片的结果是得到了一个二维的平面数据。 “时间=1季度”

  27. 切块(dice) • 在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个子立方体。

  28. 转轴(pivot or rotate) • 转轴就是改变维的方向。 交换“时间”和“经济性质”轴

  29. MDX 多维操作语言 -----SQL 二维操作语言 • MDX( Multidimensional Expressions )是一种语法,支持多维对象与多维数据的定义和操作,专门检索具有几乎任意多个维度的多维数据结构中的数据 • SQL 从表返回二维数据子集,而 MDX 从多维数据集返回多维数据子集 • MDX 查询的创建者通常将多维数据集的结构形象化并加以定义,并且编写对单个多维数据集的查询对该结构进行填充 • MDX 结果集的视觉形象不直观。因为多维结果集可以有三个以上的维度,所以将该结构形象化比较困难

  30. SSAS的多维立方体示例

  31. 指标集 总体 工作量 收入 运营分析 效率 成本 构成 质量 满意度 31

  32. 医院各层面都需要用到数据分析 数据分析 KPI指标分析 管理分析 临床分析 科研分析 1 4 2 3 • 重点关注: • 运营业务分析 • 业务流程分析 • 关键指标: • 固定资产总值 • 年收入 • 年门诊量 • 年出院人数 • 开放床位数 • 手术例数 • 设备总值 • 收入支出比 • 重点关注: • 疾病管理分析 • 医疗质量以及最佳实践分析 • 医疗安全和监控 • 医疗服务差异性分析 • 关键指标: • 治愈好转率 • 院内感染率 • 手术患者死亡率 • 重点关注: • 疾病研究分析 • 临床试验研究设计 • 群组识别 • 病人遴选 • 重点关注: • 根据医院特定需要进行主题分析 • 关键指标: • 关注重点药品 • 关注抗生素 • 关注满意度

  33. 医疗多维多层面数据模型 • 多角度呈现分析数据 • 数据内容一致 • 公式逻辑一致 • 数据权限一致 医保 住院 门诊 病案 。。。 患者层面 其他层面 地区分布 付款方式民族 职业 婚姻状况 。。。。 药品层面 手术层面 物资层面 财务层面 检验检查层面 。。。。。 费用层面 时间层面 科室层面 费用分类 付费方式 付费日期 。。。。 就诊日期 出院日期 确诊日期 入院日期 手术日期 。。。。。 专业职能 临床属性 诊疗手段住院/门诊级别 。。。。

  34. 组件式叠加应用主题 主题A 主题B ? 主题C 一套成熟的BI的技术架构对于管理要求是按照循环递进的方式来进行。 确定指标数据关系,建立指标数据来源矩阵,以此来编写ETL程序抽取数据到数据仓库。 数据仓库汇总应用系统数据产生指标库,根据指标库的分类放入某个主题的多维数据集。 按照多维数据集产生主题分析模型,放入医院BI分析系统中展示。 34

  35. 医院BI与其他系统的关系图示 35

  36. 数据仓库,数据即服务 - 院内外数据口径一致 • 1. 医院内部统计分析 • 报表 • 分析,查询 • 指标,KPI • 2. 卫生局,医联要求上报数据 • 医联工程数据交换接口规范3.0 • 病案首页数据上报 • 医保费用明细 数据仓库DW HIS系统 检查检验系统 医联 卫生局 哪个正确? 36

  37. 多样化展现形式 支持WEB方式展示 20多种图形:条形图,饼图,曲线图,甘特图,雷达图,气泡图,漏斗图等 支持多种数据导出模式 Word,Excel,HTML,XML,PDF 支持在EXCEL中进行数据分析 Excel 2007,2010透视表格可以倒入分析主题进行任意数据分析。 • 支持移动设备展示 • 可在移动设备上迅速访问到所需的信息,具有良好的交互功能,可立即采取行动,部署简便、快捷。 37

  38. 总结:成熟医疗BI应该提供的核心功能 产品由ETL,DW,CUBE,UI展示组成。 能根据预先定义的指标库模型直接从HIS的末端数据集采集数据,保证数据准确,快速,有效。 有10大类500多个指标,并在不断完善中。指标的来源有权威性(1000多家医院管理报表/临床报表,区域医疗交换接口规范3.0版,病案首页数据上报接口) 展示层方案灵活,可根据医院项目级别灵活组合。 38

  39. 常见界面展现演示

  40. 案例演示

  41. 案例演示

  42. 案例演示

  43. 案例演示

  44. 案例演示

  45. 案例演示

  46. 案例演示

  47. 提纲 1、平台解析 基于平台的数据挖掘和数据展示 2、BI展示技术分析 3、挖掘技术分析与应用

  48. 数据挖掘概念 • 数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。 • 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; • 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。 数据挖掘与KDD 知识发现(KDD:Knowledge Discovery in Databases)

  49. 数据挖掘系统的特征 • 数据的特征 • 知识的特征 • 算法的特征 矿山(数据) 挖掘工具(算法) 金子(知识)

  50. 数据挖掘技术 • 技术分类 • 预言(Predication):用历史预测未来 • 描述(Description):了解数据中潜在的规律 • 数据挖掘技术 • 关联分析 • 序列模式 • 分类(预言) • 聚集 • 异常检测

More Related