1 / 38

降低 ADC 故障时长率

集团新业务部 QC 小组. 降低 ADC 故障时长率. 2010 年 3 月. 、小组概况:. 专业术语解释:. ADC :. 英文全称 :Application Data Center, 中文名为数据应用中心。是指中国移动为集团客户(主要为中小企业客户)按需提供基于移动终端的托管式的信息化应用服务。. 月故障时长率 :. 指每月发生故障的小时数除以每月的总小时数再乘以 100% 例如: 1 月发生故障的小时数为 76 小时, 1 月的总小时数为 744 小时,则 1 月的故障时长率为 76÷744×100% =10.2 %. 二、选题理由.

Download Presentation

降低 ADC 故障时长率

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 集团新业务部QC小组 降低ADC故障时长率 2010年3月

  2. 、小组概况:

  3. 专业术语解释: • ADC: 英文全称:Application Data Center,中文名为数据应用中心。是指中国移动为集团客户(主要为中小企业客户)按需提供基于移动终端的托管式的信息化应用服务。 • 月故障时长率 : 指每月发生故障的小时数除以每月的总小时数再乘以100% 例如:1月发生故障的小时数为76小时,1月的总小时数为744小时,则1月的故障时长率为 76÷744×100% =10.2 %

  4. 二、选题理由 经过维护月报统计,发现所管理的几个业务平台中,ADC平台故障较多。 经调查发现ADC的故障时长率较高 2009年1 — 6月ADC平台故障时长率较高,月均达到5.23% 为尽快改进ADC的维护支撑状况,支持业务发展,我们选择课题如下: 课题名称: 降低ADC故障时长率

  5. 达到目标啦! 原因分析 要因确认 制定对策 组织实施 效果检查 巩固措施 计划打算 活动目标 现状调查 时间 2009—7 2010—3 三、活动计划

  6. 三、现状调查 本小组于2009年7月对2009年1、2、3、4、5、6月ADC平台的故障时长率进行了统计,如下表: 该统计表显示:此六个月的平均月故障率达到5.23%。

  7. 三、现状调查 小组又对故障时长的具体情况进行了分类统计,得出各种故障类型所占总故障时长的比例,如下表:

  8. 从此图可看出,“业务无法使用”的故障时长占比数值最高(69.7%),因此“业务无法使用”是影响故障时长的主要故障类型。从此图可看出,“业务无法使用”的故障时长占比数值最高(69.7%),因此“业务无法使用”是影响故障时长的主要故障类型。 三、现状调查 根据以上数据我们制作了饼图: 13% 9.8% 69.7% 2.2% 5.3% 69.7% 业务无法使用 用户无法登陆平台 13% 5.3% 其它故障 企业归属地出错 9.8% 2.2% 计费故障

  9. 5.23% 3% 四、目标确定 现值 目标值 • 通过对业内情况的了解,ADC月平均故障时长率一般不高于3%小组成员通过计算发现,如果能解决“业务无法使用”这个主要问题(占69.7%) ,就可以将故障时长率从5.23%降低到3% 以下,即:5.23% -69.7%*5.23%= 1.58%。所以QC小组成员认为ADC月平均故障时长率达到3%的平均水平是可能的。

  10. 五、原因分析 小组成员应用头脑风暴法,得出以下树图:

  11. 五、原因分析 小组对“业务无法使用”的问题进行了分析,共得出十一条末端原因: 1、产品业务流程不熟悉 7、BOSS与平台链路连接不合理 2、SI侧无鉴权 8、CPU处理和内存处理能力不足 3、不能及时发现SI侧产品故障 9、F5配置不合理 4、用户账户密码忘记 10、并发进程冲突 5、用户帐号被锁 11、外网攻击 6、 SI与ADC跨网连接

  12. 六、要因确认 这对上述十一条末端原因,我们用要因确认表进行逐条的分析:

  13. 六、要因确认

  14. 六、要因确认 确认一:客户经理对产品和业务流程不熟悉 目前,我省ADC平台的产品共计13个,各个产品的业务开通的流程不尽相同,而且业务开通的整个过程涉及BOSS、ADC和SI三方,需要客户经理具备比较丰富的业务知识和操作经验。 QC小组专门查阅了“用户订购失败”故障解决的记录,经过对此类故障原因的分析发现:从2009年1月1日至6月30日,因客户经理不熟悉业务造成用户订购失败的情况共计发生85次,占造成此类故障原因的82.52% ,具体数据见下表: 2009年1月至6月“用户订购产品失败”故障原因统计表

  15. 因 是 QC小组 六、要因确认 确认一:客户经理对产品和业务流程不熟悉 在发现上述问题后,我们又采用问卷和现场访谈的形式对50个客户经理的相关业务知识和电脑操作能力进行了抽样调查,以便再次确认该项要因。调查显示:抽查人员中有56%的人对产品和业务流程不熟悉;而仅有7%的人电脑操作能力较差。具体数据如下: 2009年7月业务能力情况调查表 结论:客户经理对产品和业务流程不熟悉是要因。

  16. 六、要因确认 确认二:SI侧未鉴权 QC小组通过对ADC平台和SI平台接口进行调查,发现SI侧未鉴权 的次数为2次,占用户订购失败次数103次的1.9%,因此不是要因。 确认三:用户帐号密码忘记 QC小组通过对ADC平台用户帐号管理情况进行调查,并访谈ADC平台帐 号管理人员,发现要求重置密码的情况每月不超过2次。按照全省用 户比例,不到1%。所以用户帐号密码忘记不是要因。 确认四:用户帐号被锁 QC小组通过对ADC平台帐号登陆的设置进行查阅,发现现ADC平台未将三 次登陆失败锁定用户的选项打开,不会发生用户帐号被锁的情况,所以 用户帐号被锁不是要因。

  17. 因 是 QC小组 六、要因确认 确认五:不能及时发现SI侧产品故障 1月至6月由客户经理反馈的SI业务平台故障次数31次,而平台维护人员仅在3月份发现一次SI业务平台故障。详细情况如下表: 通过上表可以看出ADC业务用户投诉平均值为5.17条,远远高于主动发现的次数,因此不能及时发现SI侧产品故障是要因。

  18. 六、要因确认 确认六:SI使用其它运营商的网络 通过对ADC平台与SI网络详细、彻底的调查,发现各家SI厂商采用不同运营商的网络通过INTERNET与ADC平台进行连接,具体拓扑图如下:

  19. 因 是 QC小组 六、要因确认 确认六:SI使用其它运营商的网络 从以上网络拓扑图可以看出部分SI系统通过其它运营商的互联网络与ADC 平台进行数据接口交换。由于其它运营商互联网络与中国移动互联网存在网络瓶颈问题,网络传输得不到保障,对用户的业务使用会造成一定的影响。为了测试SI与ADC平台跨网连接是否存在影响,我们采用两家接入在不同运营商网络的相似SI业务进行摸拟对比实验。 实验方法如下: 编写测试脚本,模拟用户连续订购《移动CRM》业务和《 移动OA》订购操作,在每一台ADC服务器上各选取5个区间,在每个区间内执行一次测试脚本,获得ADC与《移动CRM》、《移动OA》SI服务器的交换接口的平均时间。经过实验,统计出如下数据: 经过上面的测试可以得出《移动CRM》比《移动OA》接口交换网速快了5倍左右。网络访问的延时会影响用户定购产品的成功率,增加故障率。 因此SI使用其它运营商的网络是要因。

  20. 因 是 QC小组 六、要因确认 确认七:BOSS与平台链路不合理 通过对ADC平台的BOSSAGENT与BOSS计费库的网络进行详细、彻底的调查,发现BOSS AGENT与BOSS计费库的网络链路较长,故障点太多,发生故障时不能及时排查修复,维护比较困难。具体拓扑图如下: 通过右方网络拓扑图可以看出,BOSS计费库和BOSSAGENT服务器本来在同一地理位置金阳,但网络传输确经过了黑马和新华苑的交换机等中间网络传输设备再绕回到金阳ADC机房,网络链路环节过多,故障原因查找耗时比较长,影响业务故障的及时发现和排处。 故BOSS与平台链路不合理也是要因。

  21. 21 六、要因确认 确认八: CPU和内存处理能力不足情况 QC小组经过现场登陆监控软件取得2009年上半年任意三个月的CPU和内存数据,以中国移动集团公司设备运行标准,70%以上作为告警线。发现CPU和内存的平均使用率都在45%以下。未达到告警线,所以不是要因。

  22. 六、要因确认 确认九:F5配置不合理 F5是负载均衡四层交换机,QC小组经过现场登入负载均衡设备查看设备配置,检查F5日志是否分配到各台Portal服务器的连接数不均衡。登入后发现F5的配置是按照“空闲接入”的设置,进入的所有连接都分配给空闲的服务器。各台Portal服务器的接入量基本相同,所以F5配置不合理,不是要因。 确认十:并发进程过多 QC小组对各台服务器的进程进行对比整理,现场观察。发现除业务必须进程外, 并无其它垃圾进程。所以并发进程冲突不是要因。 确认十一:外网攻击 QC小组对各台服务器和网络设备及架构进行检查。在网络设备上检查发现,连接至外网的Portal服务器是单独划立的Vlan,且在Liunx操作系统的Portal服务器前端有华为的Eudemon500防火墙和AURORA 200、NIP200等入侵检测设备。未发现有外网攻击服务器的情况。其余设备均在内网也不可能遭到外网攻击,所以外网攻击不是要因。

  23. 六、要因确认 小组通过对十一条末端因素的逐条确认,因此找到了四项主要原因: 1、产品业务流程不熟悉 2、不能及时发现SI侧产品故障 3、 SI与ADC跨网连接 4、BOSS与平台链路连接不合理

  24. 七、制定对策 针对要因,QC小组经过充分思考和讨论,制定了相应的对策实施表:

  25. 八、对策实施 对策实施一:开展内部培训,印发业务手册 • QC小组邀请了ADC的专业技术人员对客户经理进行分批培训。并强化实际操作的练习,熟悉各产品的开通办理流程。 • QC小组成员编写ADC平台的业务手册,印发到客户经理的手中。 2009年6月至8月“用户订购产品失败”故障原因统计表 效 果 2009年7月业务能力情况调查表 1、因客户经理不熟悉业务造成用户订购失败的情况由对策实施前的82.52%的占比下降到34.78% 2、经过第二次对客户经理的的抽样调查显示,对产品和业务流程不熟悉的人员由对策实施前的 56%下降到1%

  26. 八、对策实施 对策实施二:引入应用监控系统(AMS)的业务拨测子系统(QT)拨测功能解决 《不能及时发现SI侧产品故障》问题 通过对ADC业务投诉的用户电话回访,QC小组发现在ADC平台长期的运营过程中存在对SI侧故障发生后处理不及时的情况,当(SI)业务提供商不能向用户提供产品支撑或中断业务服务时故障信息无法及时的反馈给SI方,进行迅速排故,从而造成用户无法使用该业务的严重后果。 具体情况如下: 1、无有力的监控手段; 2、定位故障方不准确; 3、故障延续时间较长; 4、用户使用业务投诉增多; 5、人工值守缺乏灵活性

  27. 八、对策实施 对策实施二:引入应用监控系统(AMS)的业务拨测子系统(QT)拨测功能解决 《不能及时发现SI侧产品故障》问题 通过QT数据业务主动拨打测试SI系统,由QT模拟拨测前端机和QT服务器,实现对SI的产品探测。QT服务器平台端可以进行整个系统的探测和监控,通过IE浏览器即可访问平台端实现系统监听。 效果:从2009年8月1日该对策实施后至2010年3月1日,用户使用产品故障投诉率有明显下降,由原先的单业务每月平均故障投诉5.17条降低至现在单业务每月平均故障投诉1.67条。每月主动的发现的故障次数由原来的0.16条增加3.17条。

  28. 八、对策实施 对策实施三:解决SI跨网联接的问题 实施后网络连接图 实施前网络连接图 效果:从2009年8月12日该对策实施后至2009年12月31日,SI系统与ADC系统接口交换明显加快,比原先的连接速度提高了约17倍。

  29. 八、对策实施 对策实施四: BOSS与平台链路不合理 措施:对网络链接进行改造,将原有多级链接改为直联链路。 实施后网络连接图 实施前网络连接图 效果:从2009年7月26日该对策实施后至2010年2月1日,BOSS计费库和BOSSAGENT之间没有再出现过网络传输故障。

  30. 九、效果检查 (一)目标值检查

  31. 对策实施前 对策实施后 目标 九、效果检查 ADC平台月平均故障时长率由项目实施前的5.3%下降至2.2% 达到了QC小组的预定目标。 (一)目标值检查

  32. 3 2 0 0 0 7 元 九、效果检查 (二)经济效 益 • 对策实施后,大大降低了ADC平台故障时长,各业务等的订购量和使用量也得到大幅提高。 • ADC客户数09年底到达15839家,较08年底7504家增长111%。C类集团客户数09年底到达33880家,较08年底16825家增长101%。 • 统计数据表明:QC活动前2009年1月至6月系统无故障时间为94.77%,所运营所得的费用约为1000万,平均每1%的无故障时间产生的信息费约为1000万/94.77%/100=10.55万元;经过小组活动无故障时间提升了3.1个百分点;故QC活动期间共产生经济效益10.55万*3.1 = 32.7万 。

  33. 九、效果检查 (三)社会效益 • 用户订购和使用ADC业务更加顺畅快捷 • 提高了客户的使用感知,提升了客户满意度。 • 增加了对中小型集团客户的粘性,有效促进了目标市场的稳定 • 4. 彰显移动信息专家的价值

  34. 十、巩固措施 为了保障活动成果持续有效,小组针对对策实施的效果,进行了巩固: 1 2 修订《ADC维护管理办法》,并组织维护人员和系统厂商认真学习; 不定期对集团经理进行抽查,并设业务流程操作无错误指标进行考核。

  35. 实施前 实施中 巩固期 十、巩固措施 在2009年11月至2010年2月的巩固期内,能正确执行已纳入的有效措施、规定,并能把效果维持在良好的水平上。 目标值3%

  36. 5 4 3 2 1 0 质量意识 团队精神 改进意识 进取精神 QC工具运用技巧 解决问题的能力 活动前(分) 活动后(分) 十一、总结及下一步打算 • 通过此次活动,小组综合素质得到很大提高,活动前后对照情况如下:

  37. 十一、总结及下一步打算 通过“降低ADC平台故障时长率”的活动,解决了ADC故障时长率较高的实际问题,收到了预期的效果,积累了宝贵的经验。下一步我们将把降低MISC平台的故障率作为QC小组研究的课题。

  38. 感谢您的聆听 !

More Related