450 likes | 712 Views
大数据与政府统计. 国家统计局统计科学研究所 中国统计学会 许亦频 20140827. http://nssc.stats.gov.cn. 何为大数据 大数据应用现状 政府统计应用大数据 障碍与问题. http://nssc.stats.gov.cn. 一、何为大数据. Google. 百度. 2012 年是中国的大数据元年, 2013 年是中国政府统计的大数据元年。. 何为大数据.
E N D
大数据与政府统计 国家统计局统计科学研究所 中国统计学会 许亦频 20140827 • http://nssc.stats.gov.cn
何为大数据 • 大数据应用现状 • 政府统计应用大数据 • 障碍与问题 • http://nssc.stats.gov.cn
一、何为大数据 Google
百度 2012年是中国的大数据元年,2013年是中国政府统计的大数据元年。
何为大数据 • Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it。
定义 • Mckinsey大数据的定义:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。 • EMC公司的定义,大数据中的“大”是指大型数据集,一般在10TB规模左右;多用户把多个数据集放在一起,形成PB级的数据量;同时,这些数据来自多种数据源,以实时、迭代的方式来实现。 • 维基百科(Wikipedia)的表述,大数据是难以用现有的数据库管理工具处理的兼具海量特征和复杂性特征的数据集成。大数据带来的挑战包括获取、存储、搜索、共享、分析和可视化。
特征:6个V+C • 体量大(Volume) • 类型多样化(Variety) • 应用价值(Value)价值密度 • 处理速度快(Velocity) • 数据获取与发送的方式自由灵活(Vender) • 准确性(veracity) • 处理和分析难度非常大(Complexit)
数据量的单位 • 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB • 8 bit = 1 Byte • 1 KB = 1,024 Bytes • 1 MB = 1,024 KB = 1,048,576 Bytes • 1 GB = 1,024 MB = 1,048,576 KB • 1 TB = 1,024 GB = 1,048,576 MB • 1 PB = 1,024 TB = 1,048,576 GB • 1 EB = 1,024 PB = 1,048,576 TB • 1 ZB = 1,024 EB = 1,048,576 PB • 1 YB = 1,024 ZB = 1,048,576 EB • 1 BB = 1,024 YB = 1,048,576 ZB • 1 NB = 1,024 BB = 1,048,576 YB • 1 DB = 1,024 NB = 1,048,576 BB
大数据时代特征 • 数据成为了资源 • 全部样本 • 允许存在一定范围的误差 • 关联性 • 大数据可能引发了数据革命,可能改变科学研究范式,实现社会科学研究的定量化,也可能促使经济、社会、军事等所有社会领域产生巨大的变革。
二、大数据应用现状 来自麦肯锡2011年的报告
1.联合国:时效性、高品质 • 2.美国商务部:创造条件,实现数据共享 • 各类非敏感性信息在Data.gov网站发布 • 可读的格式 • 通过API(应用程序接口) • 产品化 • 3.美国国家海洋和大气管理局:数据公开化 • 4.美国国家安全和情报机构:大数据创业热潮背后的真正推手
5.开放政府伙伴关系OGP • 开始于是2013年11月1日 • 由联合国发起成立 • Obama于2011年9月与其他7个国家的领导人共同宣布发起“开放政府伙伴关系”(Open Government Partnership,OGP)—— • 是一项鼓励透明、有效、负责任的治理的全球性努力。 • 两年来,“开放政府伙伴关系”已发展到包括68个国家,共作出1000多项改善对全球20多亿人的管理的承诺。 • 美国宣布了一项新的《美国开放政府全国行动计划》(U.S. Open Government National Action Plan),该计划包括6项工作,包括扩展开放数据、使《信息自由法》(Freedom of Information Act,FOIA)现代化、提高财政透明度、提高公司透明度、增进公民的参与和权能,以及更有效地管理公共资源。 • 扩展开放数据:开放数据能激发创新,从而带动经济增长并增进政府的透明度。
7.2013年6月 “八国集团”——《开放数据宪章》 • 技术附件 • 2015年末
一些经典的应用 • IBM日本公司:通过在互联网新闻中搜索出影响制造业的480项经济指标,计算并预测PMI • 谷歌心情分析工具对短信、微博做分析,预测道琼斯指数。据说准确率接近90%
沃尔马“北极星”系统。机器语义学习系统。网上销售的精确配置沃尔马“北极星”系统。机器语义学习系统。网上销售的精确配置 • 阿里巴巴的中小企业贷款 • 京东的京宝贝 • UPS、中国中远物流公司、美国AIRSAGE等公司的交通运输中应用大数据 • 美国PANJIVA(磐聚网)公司的全球外贸搜索引擎 • 百度迁移图。节日人流动态分析 • 纸牌屋。角色的选择。
关键词1:数据开放与共享 • 关键词2:智慧在民间 • 美国:3万亿的效益 • 英国:数据集市可提供5.8万个工作岗位,直接创造18亿经济价值,间接的社会效益接近68亿。
银行能及时地了解风险,使经济将更加强大。 • 电信公司能够降低成本,使话费将更加便宜。 • 能够掌握交通动态天气,使出行将更加方便。 • 政府能够降低欺诈开支,使税收将更加合理。 • 商场和物流能够动态调整库存,使商品将更加实惠。 • 医生能够更早发现疾病,使身体将更加健康。
8.世界经济论坛:懂得利用大数据的企业将成为最强者8.世界经济论坛:懂得利用大数据的企业将成为最强者 • 9. Gartner:不知道自己在做什么,也不知道为什么要做大数据工作。 • 关键词3:一切都不晚
京东商城(北京) 百度(北京) 1号店(上海) 1号店(上海)
大数据的影响 • 大数据将对政府统计的主体地位带来挑战 • 大数据将影响政府统计的数据采集方式发生变化 • 大数据将促使政府统计的管理体系及运作方式有所调整 • 大数据将推动政府统计的制度方法进行改革 • 大数据将丰富政府统计质量控制和数据分析的手段 • 大数据将对政府统计人员的综合素质提出新的要求
(一)应用的方向 1.大数据的统计标准与分类 2.消费价格(CPI)统计 3.工业生产者价格(PPI)统计 4.商品房价格统计 5.批发零售贸易业统计 6.工业统计 7.农业统计
8.工资和收入统计 9.就业统计 10.人口统计 11.交通运输业、物流业统计 12.利用大数据开展经济预警监测 13.利用大数据开展舆情监测
(二)我们的研究及与企业的合作 • 大数据企业的优势: • 企业是大数据应用与研究的先行者。 • 亚马逊停用Mapreduce,PB级数据处理困难。 • 阿里某种程度上解决了PB级数据库的并行计算,建立了自主知识产权的阿里云及其操作系统——飞天系统。 • 百度大脑:4岁的智能。
与企业合作开展的工作 第一类:借助成熟的网络平台,宣传介绍统计,提升统计服务的质量 第二类:利用大数据企业比较成熟的大数据产品 第三类:扩展统计数据源,打造政府统计“第二轨” 第四类:合作研究
淘宝网络零售价格指数(iSPI,internetShopping Price Index) iSPI总体物价指数和CPI月度环比趋势比较
上海钢联大宗商品价格指数( Mysteel Bulk Commodity Price Index of China) MyBCIC与PPI同比(左)、PPI环比(右)走势对比图
百度指数 舆情监测
四、障碍与问题 1.大数据与伦理 法律与机制,顶层设计 2.大数据的价值挖掘 相关与因果
3.预测真可笑 大数据有局限性
4.数据公开性 • 5.数据标准与分类 • 6.人才是关键;人,才是关键
随着信息社会的迅猛发展,由互联网商品交易信息、企业电子化经营记录、电子化部门行政记录组成的大数据,为统计调查提供了海量原始资料,能够极大拓展统计调查范围,有效提高统计数据的真实性、及时性。 随着信息社会的迅猛发展,由互联网商品交易信息、企业电子化经营记录、电子化部门行政记录组成的大数据,为统计调查提供了海量原始资料,能够极大拓展统计调查范围,有效提高统计数据的真实性、及时性。 如何紧跟时代步伐,采用科学的方法和手段获取大数据并进行统计化处理,需要统计部门下大力气研究探索。同时也需要学术界、企业界的积极参与和大力的支持。
谢 谢! 欢迎交流:xuyp@gj.stats.cn