900 likes | 1.05k Views
满怀信心拥抱大数据 时代的到来 宁家骏(国家信息中心). 2012.07. 21. 提 纲. 云计算和大数据迎来新的信息时代 大数据是当代信息化深入发展的必然 用数据挖掘迎接大数据应用的新时代. 当今时代步入了一个信息化助力 社会全方位创新的重要时期. 当今时代,人类社会步入了一个科技创新不断涌现的重要时期,新科技革命及其带来的科学技术的重大发现发明和广泛应用,推动世界范围内生产力、生产方式、生活方式和经济社会发展观发生了前所未有的深刻变革,进入 21 世纪,世界新科技革命发展的势头更加迅猛,正孕育着新的重大突破。
E N D
满怀信心拥抱大数据时代的到来宁家骏(国家信息中心)满怀信心拥抱大数据时代的到来宁家骏(国家信息中心) 2012.07.21
提 纲 • 云计算和大数据迎来新的信息时代 • 大数据是当代信息化深入发展的必然 • 用数据挖掘迎接大数据应用的新时代
当今时代步入了一个信息化助力社会全方位创新的重要时期当今时代步入了一个信息化助力社会全方位创新的重要时期 • 当今时代,人类社会步入了一个科技创新不断涌现的重要时期,新科技革命及其带来的科学技术的重大发现发明和广泛应用,推动世界范围内生产力、生产方式、生活方式和经济社会发展观发生了前所未有的深刻变革,进入21世纪,世界新科技革命发展的势头更加迅猛,正孕育着新的重大突破。 • 信息科技将进一步成为推动经济增长和知识传播应用进程的重要引擎,基础研究的重大突破将进一步为人类认知客观规律、推动技术和经济发展展现新的前景。云计算、云服务和大数据,将成为新时期信息化理论、技术和实践重大突破的前沿,为新时期信息化展现新的前景。
信息技术发展趋势 (来源:Google,刘骏,“谷歌与云计算”;Intel,WSTS,Dataquest) Technology Trends 1982年以来: x2 in density/speed every 18-24 months CPU性能提高3500 Integrated Circuits 倍,内存价格下降45000倍,硬盘价格下降360万倍 Photonics Storage Displays Wireless x2 in transmission capacity every year x2 in storage density every 9 months x2 in pixels every 2 years x2 in peak data rate every year 如果汽车的价格以与 硬盘同等速率下降, 今天一部新车的价格 仅为0.01美元 Software x2 in operating system size every 2 years 如果汽油的性能能够 以同样的速度发展, 1 升汽油能够使飞行器 环绕地球旅行573圈 11 Source: Amit Patel, CTO, US Strategic Accounts, Alcatel-Lucent, Future of Telecommunications, January 2009 Hotmail 为每一用户免费提供5GB邮箱, 如果使用1995年技术,每用户的成本将需要5500美元, 如果用1975年技术则每用户成本为1000万美元。
发明光纤 发明计算机 发明IC 发明Internet 3G 3G标准化 发明WWW @ 发明蜂窝电话 1966 53年前 43年前 信息通信技术发展进入新时代 1959 23年前 1969 1999 33年前 摩尔时代 1989 68年前 13年前 1979 1944 以用户为中心 ? 以应用为中心 资源共享 IOT 以服务为中心 物联网时代 LTE 信息共享 Cloud 物联网时代2020? 2012 以软件为中心 网络共享 云计算时代 Web 宽带移动通信时代 云计算时代2015? Windows成为PC平台 GUI 网络时代 以计算机为中心 WEB时代 后WEB时代2012 PC 时代 DOS 发明PC 移动通信时代 后PC时代2012 38年前 PC时代 1974 互联网时代 移动互联网时代 2012 46年前 发明电视 后摩尔时代 2018? 73年前 数字化/平板化电视时代2010 1939
开创云终端后PC时代 装上彩屏 手写输入 TV功能 3G和WiFi 嵌入传感器功能 双核处理器、GPU、遥控器、摄像机 00’ 01’ 02’ 03’ 04’ 05’ 06’ 07’ 08’ 09’ 10’ 11’ 12’ MP3 照像机 录音机 游戏加速卡 触摸屏 PC功能 四核处理器、重力感应、光线感应、手势输入、语音搜索、 语音翻译、柔性屏幕、 3D游戏、投影仪、 画板 移动终端成为物联网节点! 加速度传感器、陀螺仪传感器、亮度传感器、地磁传感器 方向传感器、压力传感器、距离传感器、温度传感器、核辐射传感器 看和写 听和讲 触摸 感知/NFC 人机接口的演进 1980s Text 1990s Graphical 2000s Touch / Sound / Move
移动互联网进一步促进云计算更快普及 28 iPad 销售达到100万的天数 来源:华为公司 iPhone 74 Netbook 180 Blackberry 300 iPod 360 智能手机的能力相当于8年前的PC! 中国的桌面互联网和移动互联网用户规模增长速度 来源:李开复,变迁与机遇--2012年的中国移动互联网,2012.3.23
分布计算 计算机技术体系的演进 公用计算 并行计算 云计算是并行计算、分布式计算、网格计算和公用计算及虚拟计算的组合演进自然延伸的结果,或者说是这些计算机科学的商业实现,它更强调服务。 • 分布计算 • 松耦合 • 异构 • 单一管理 • 机群计算 • 紧耦合 • 同构 • 协同工作 超级计算 虚拟计算 网格计算 • 网格计算 • 大规模 • 交叉组织 • 几何分布 • 分散管理 • 用并行计算解决复杂问题 复杂设施的扩展 云计算 • 公用计算 • 计算 “服务” • 无需关心提供者 • 由网格技术使能 • 提供计算资源作为计费服务 物理上的整合 云计算将在物联网中发挥重要作用! 虚拟化 Hiro Kishimoto
信息化迎来了基础架构变革的云计算新时代 • 云计算是一种新兴的共享基础架构的方法,云计算催生了信息化基础设施的变革 • 云计算是一种趋势,势不可挡,就像当年的井水变成如今的自来水 • 云计算具有低成本高效率的优点,今后各类机构和个人将倾向以购买服务方式来购买 “计算”,而且已建或在建具有分布式数据中心的单位将成为这种服务的提供者,由各类用户加以选择。
云计算是新的信息产业技术革命 • 云计算是新的信息产业技术革命,已成为信息行业的未来发展方向。世界各国、包括中国,都在制定云计算的研究和发展战略。 • “十二五”规划的新一代信息技术产业重点发展中包括了云计算等十项产业;“加强云计算服务平台建设”是构建下一代信息基础设施的重要措施。 • 云存储服务是指云存储服务供应商提供存储和存储相关的服务。云存储服务是目前最为成熟的云计算服务。云存储是云计算的重要组成部分和服务基础,关系到各种重要的应用系统和大量的用户群体。
云计算是战略性新兴产业的重要组成部分 • 云计算是信息产业的一个子集,也是网络计算及其应用发展的新阶段,是信息系统建设、运行和使用的新模式 • 对用户—从购买产品到租用模式转变 • 对提供商—通过网络特别是互联网为多个客户提供第三方集中式信息服务,通过规模效应提高信息服务的价值和效益
云计算是: • 一种新的使用与交付模式 • 云计算可以实现: • 节省成本 • 可扩展 • 提高利用率 • 自助服务 • IT敏捷性、灵活性和价值实现 • 云计算代表: • IT 服务交付的工业化革命 云计算提供了新型的 IT 使用与交付模式
云计算: 支持高效部署、统一标准 分享基础设施、平台、软件、运维保障 应用结构无限扩展 动态资源服务配置 N 部门办公 B 部门办公 A 部门办公 C 部门办公 利用云计算解决异构和数据整合 在同样的机构中存在: 不同的标准 不同的应用 主机/数据/应用相互独立 费用 减少升级费用 减少维护成本 扩展 添加任意设备/向上扩展到任意大系统 应用分享 可以跨越多组织、地域实施应用,支持强大的分布性 标准 需要统一的应用与数据
新的计算模式进一步趋向融合 • 新型计算模式--SO LO MO CO • SO 社交 • LO 位置服务 • MO 移动 • CO 商业
互联网环境下从数据共享、信息共享走向服务共享互联网环境下从数据共享、信息共享走向服务共享 • 共享计算能力为主的服务 • 共享存储能力为主的服务 • 共享交互能力为主的服务 依托互联网,通过端设备,随时随地获得个性化服务, 买计算、买存储、买带宽。 15
提 纲 • 云计算和大数据迎来新的信息时代 • 大数据是当代信息化深入发展的必然 • 用数据挖掘迎接大数据应用的新时代
海量数据增长是不可阻挡的洪流 • 据《经济学人》杂志统计和预测,数据的增长是一股不可阻挡的洪流,人类在2005年创造的数据是1500亿GB,2010年是12000亿GB • 刚刚引入艾字节(exabyte) 单位,即1艾字节=1024PB=1024*1024TB=1024*1024*1024GB,现在又引入了泽字节的概念,zettabyte,1泽字节=1024艾字节 • 预测2012年人类将创造2729EXB,而到2015年将达到7910EXB • 海量数据为科技创新提供了机遇和挑战
实例之一:位置服务需要更多的数据现势性 • 数据现势性属性众多 • 位置信息 • 地物与设施信息 • 组织机构信息 • 相关商品与服务信息 • 相关商务信息 • 相关交通信息 • 相关交易信息 • 带来海量信息的增长
大数据时代的到来 • 美国互联网流量监测机构Telegeography的数据显示,2010年国际互联网流量增速62%,东欧和印度等地区增幅超过了100%。 • 2010年全球数据总量达600EB(1EB=1018 Byte),全球信息总量每两年就可以翻一番。 • 将有90%的数字内容属于音像等非结构化内容。
Big Data Has Arrived Electronic Payments Video Rendering VideoSurveillance Social Media Mobile Sensors Medical Imaging Gene Sequencing GeophysicalExploration Smart Grids
什么是大数据? • 定义*: • 数据集(Data Sets)组成非常巨大和复杂,以至于传统数据库管理工具处理起来面临很多问题。 • 获取、存储、检索、共享、分析和可视化。 • 数据量达到PB、EB或ZB级别。 * from {Big Data} @wikipedia.
什么是大数据? 持续快速增加的数据量 • 3个V* Volume 高速率的数据I/O 大数据 Variety Velocity 多样化的数据类型和来源 * originally by Doug Laney, analyst from Gartner.
大数据有多大?—— 以互联网为例 • Facebook: • *截止2012年4月,每日评论已达32亿条;每天新上传照片近3亿张。 • 每周新增图片容量约60TB,图片总量约2600亿张,已超过20PB。 • 平均每秒3500次写操作,读操作的峰值可以达到每秒百万次。 • Amazon • **目前EC2有约450000台服务器(存储+处理)。 • *数据来自Facebook于2012年4月提交的监管文件。 • **数据来源于亚马逊2012年4月的官方介绍材料。
大数据从何而来?—— 人 • 内容提供商 • 新闻报道、时事评论、广告宣传。。。 • 音频、视频、微视频。。。 • 职业撰稿人 • 网络作家、写手、推手、水军。。。 • 普通大众 • 博文、图片、音乐、视频。。。 • SNS网络传播: • 评论、转发。。。
大数据从何而来?—— 机器 • 存储 • 软件、系统文件、基础数据 • 元数据(如索引) • 冗余、备份 • 。。。 • 处理 • 原始数据的自动加工: • 压缩、聚类、规则适用、可视化、智能衍生。。。 • 传播 • 负载迁移、分布式共享( 如P2P)。。。
大数据从何而来?—— 物理世界 • 无所不在的感知数据 • 传感节点(压力、温度、湿度、声光电。。。) • 无线宽频信号采样、太湖蓝藻检测、PM 2.5。。。 • 视频监控 • 目前1路720P高清视频摄像数据每小时视频录像3GB左右。按一个月保存时间要求计算,3GB/小时×24小时×30天×1路=2.16T。一个拥有500路高清视频摄像,需要保存1个月的监控系统所需的最少存储容量是1PB。 • 对地观测 • 资源三号卫星在运行前两个月的时间内,产生37TB的原始影像数据。这是后续互联网地图的基础。 • 天文物理、气象、医学等专业领域数据。。。
大数据向何而去? • 服务 • 如果不能提供服务,大数据就没有意义。 • 面向人、机、物的服务 • 物理世界:需要足够的采样数据 • 机器:需要数据具有关联度,能够从中分析出有用信息,非结构化半结构化结构化 • 人:能够直接使用数据的表现形式,进行生产和决策
人、机、物对数据的参与 数据 感知 数据 传输 数据 存储 数据 处理 数据 服务 物理世界 机器 人 数据 应用 数据 分发 数据 封装 数据 转换 数据 创造
人、机、物对数据贡献与需求 数据规模 小 高 人 机器 物理世界 大 低 数据质量
数据库与大数据的区别 数据库 vs 大数据* 传统数据库/数据仓库 大数据 GB/TB级 高质量、较干净 强结构化 Top-down 重交易 确定解 PB级以上 有噪声、有冗余 非结构化 Bottom-up 重交互 满意解 * 摘自李德毅院士于2012年5月23日在云计算大会上的讲话,略有修改
数据结构 数据关联度 规模 大数据时代的挑战 复杂 大 高 关联度的高低关系到数据的可挖掘度,如果数据关联度较低,无论数据量如何大,结构如何复杂,也形成不了大数据。 复杂的数据结构的数据能够传递更丰富的信息 很难给出一个绝对的数字标准来确定大小.可能用一些模糊的感觉来相对比较 Taobao Confidential
系统软件的改变之大数据存储 —— NoSQL(1) • NoSQL的出现背景 • 大数据引发的问题 • 对数据库高并发读写的需求 • 对海量数据的高效率存储和访问的需求 • 对数据库的高可扩展性和高可用性的需求 • 传统SQL主要性能无用武之地 • 数据库事务一致性需求 • 数据库的写实时性和读实时性需求 • 对复杂的SQL查询,特别是多表关联查询的需求
系统软件的改变之大数据存储 —— NoSQL(2) • NoSQL的普及 • Google-----BigTable(谷歌三驾马车之一), Leveldb • Facebook-----Cassandra • Vmware------Redis • Oracle-----NoSQL • Aamazon-----Dynamo,DynamoDB • IBM------基于DB2的NOSQL • 雅虎-----HBase • 微软-----Trinity • 新浪-----KVDB • 淘宝-----OceanBase • 百度-----Hypertable • ….
系统软件的改变之操作系统 —— ? • 现有RedHat EL、SuSE EL、Ubuntu、CentOS是否已经足够好? • No. 还有以下问题没有亟待解决: • 新型计算资源的直接抽象和调度,如GPU、APU • 分布式文件系统下的统一数据视图 • 全数据中心范围内的能耗管理 • 大数据下的安全性 • 。。。 • 面向大数据的OS目前还没有成熟
大数据与Web • 当前大数据研究的商业目标是什么? • 互联网巨头的答案:更好的支撑Web服务。 • Google搜索引擎服务 • Facebook SNS网站 • 新浪微博网站 • 腾讯QQ Zone • 淘宝商城
大数据驱动的Web服务特征 • 更加流畅的网页交互的体验 • 更加快速的社会资讯的获取 • 更加便捷的日常工作和生活 • 更加深入的人、机、物融合
举例 —— 新浪微博:郑伟在座位吗? 压力传感器 • 扩展应用 • 健康关注 • 微博值勤 • 智能节能 • ifttt规则 • 。。。 Bob Alice • *http://weibo.com/zhengweizaizuoweima
遇到的问题 • 简单的脚本语言预处理,无法解析过于复杂的数据结构 • 关系型数据库在大数据量面前遭遇尴尬 • 商业数据库的优化空间有限 • 数据质量无法做到有效监控 • 越来越多的业务需求向数据运算能力妥协
大数据需要超级存储设备系统 Your Approach To Enterprise Storage Must Change Storage Islands More Capacity, More Admins Performance Optimization“Whack-A-Mole” One Storage Pool To 10+PB More Capacity, Same Admins Linear Performance Scalability
大数据更需要分布式存储和统一管理 L.A. L.A. BOSTON BOSTON LONDON LONDON Storage Islands Single Storage Pool • Disparate Systems • Manual Administration • One Tenant, Many Systems • IT Provisioned Storage • Single System Across Locations • Automated Policies • Many Tenants One System • Self-Service Access
大数据应用需要实现对大数据的及时分析 Your Approach To Business Analytics Must Change
大数据应用场景之一:Increase Profit Margins With Big Data Retail Banking Firm Aligns Offers To Customers New System & Big Data Legacy System & Traditional Data Profit-Based Recommendations Customer Profit Agent“Best Guess” Identify “At-Risk”Customers User Based Recommendations
大数据的典型应用场景之一--Deliver Better Healthcare With Big Data Billion Dollar Specialty Care Service Provider New System & Big Data Legacy System & Traditional Data International Results Treatment Pathways On All The Data Treatment Pathways On Summary Data Quality Of Patient Care Individual Patient History Social & Economic Factors
Web的发展 Web 1.0 Web 2.0 Web 3.0 Web内容由网站服务商提供 用户大量参与Web内容的贡献,如博客、微博 人、机、物共同参与Web内容贡献,使Web形成对真实世界的全面映射。
向后Web时代的演进 WEB 2.0为代表的网络传播技术工具,模糊了新闻发布者和受众的边界,从根本上动摇了新闻发布权力绝对集中的传统格局,网页内容的监管面临严峻挑战! Web1.0 Web2.0 Web3.0 Web4.0 RDF,Sparqi,Semantic Web HTML/HTTP AJAX,Tagging More smarter and productive app 信息分发技术 信息交互技术 语义技术 智能应用技术 连接信息 连接人 连接物件 连接智能 1990 2000 2010 2020 2030 新闻网站 游戏网站 购物网站 社交网站 内容由网站专业人员产生 内容由网民产生。组合数据与服务。面向关系、长尾、双向交互。 内容还可由物件产生。自然语言处理、机器学习、上下文感知、集成信息给出有意义的解答。 自组织、内容感知、自描述、自配置、自治通信 从Web1.0到Web2.0:由消费到参与、由下载到上传,由浏览到分享! 搜索引擎演变为推荐引擎,让您发现您原来不知道的但又是您感兴趣的网站 Office 2.0、即时通信、维基百科、博客、微博、 社交网络、社区门户、SaaS 语义搜索、语义图书馆、语义数据库、 语义社区门户、 语义代理、Widgets、Mashup Web浏览、地址薄、群件、关键词搜索、 查号门户、数据库、 文件服务器 分布搜索、智能个人代理 来源:Nova Spivack, Radar Networks: linked data model
中国大数据市场特别大 1 2011年-2016年中国大数据市场规模 • 计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。 • 计世资讯预测,2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。 2 2012年各行业大数据市场规模 • 计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 • 由于各个行业都存在大数据应用需求,潜在市场空间非常可观。 47
中国企业大数据现状 中国大数据的企业市场 结构化数据 中国500强企业日数据生成量 企业非结构化数据越来越多 半结构化数据 非结构化数据 中国500强企业数据中心数据年增长率 中国企业级数据中心数据存储量正在快速增长,非结构化数据呈指数倍增长,如果能有效的处理和分析,非结构数据中也富含了对企业非常有价值的信息。 48
企业大数据应用需求分析 中国大数据市场有待解决的问题 目前企业的数据系统架构存在问题 1 2 目前企业数据分析处理面临的问题 3 各行业企业对大数据的关注程度 49
大数据应用案例(中信银行信用卡中心) 实时的商业智能 可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内部系统、模型整体性能显著提高 秒级营销 例如采用了Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。 • 发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。 • 业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨胀。 • 数据存储、系统维护、数据有效利用都面临巨大压力。 可扩展、高性能的数据仓库解决方案 能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动有针对性的营销活动。 采用大数据方案后价值体现 大数据 挑战 需求 优秀的解决方案 50