大数据时代——计量是城市大数据应用的重要基础
作者简介:江青, 中国统计信息咨询中心执行主任, 中南财经政法大学MBA合作导师, 中国教育大数据研究院副院长, 中国统计信息服务中心 (国家统计局社情民意调查中心) 大数据研究实验室主任。研究方向:大数据应用、大数据与领导决策、产业规划与政策研究。主要成果:带领团队创立并成功运行中国统计信息服务中心 (国家统计局社情民意调查中心) 舆情监测分析室、大数据研究实验室, 并建设舆情大数据、网络零售大数据、一带一路大数据、工商大数据、食品大数据、统计大数据、智库大数据、社情民意大数据、社会风险感知与防控大数据、经济仿真大数据等应用平台。承担了包括国办、国家行政学院、国家食药总局、国家工商总局、国家统计局、四川、河南等多项中央领导、部委、地方政府、企事业单位基于大数据应用的委托项目、大数据顶层设计及工程建设;发起并联合厦门市共建厦门大数据研究服务基地, 推动大数据进入产业化运营;发起并联合曲阜师范大学创立共建中国教育大数据研究院, 推动大数据进入行业化应用;推动并具体实施国家统计局、陕西省人民政府共建的中国 (西安) 丝绸之路研究院|一带一路大数据研究中心具体工作, 推动大数据应用进入国际化。2013年起, 连续五年带领团队承担全国两会总理专报任务, 并获得中央领导的肯定和批示;数年来致力于大数据应用的产业化推动, 带领团队基于大数据技术及方法承担了多个重要的国家级项目, 如:基于大数据、算法模型的简政放权指数研究, “大众创业万众创新”效益评估体系, 国家食品安全满意度研究, 国民食品安全素养研究, 食药统计指标体系研究, 智库动态, 陕西丝绸之路定位研究, 大学声誉指数研究, 中国城市生态指数研究, 中国品牌口碑指数研究 (C-BRI) , 大数据产业指数研究等。
一、一个新的词汇
2010年2月, 维克托·迈尔-舍恩伯格 (英国牛津大学教授、中国教育大数据研究院外方名誉院长) 与肯尼斯·库克耶在《经济学人》上发表的《数据, 无所不在的数据》中提到:“世界上有着无法想象的巨量数字信息, 并以极快的速度增长。从经济界到科学界, 从政府部门到艺术领域, 很多方面都已经感受到了这种巨量信息的影响。科学家和工程师为这个现象创造了一个新词汇:“大数据 (Big Data) ”。
在中国, 从2010年下半年开始, 大数据概念逐渐为人们所熟知。尽管耳熟能详, 我们还是需要从其发展说起。大致经历了从20世纪60年代的数据处理, 到七八十年代的信息应用, 再到90年代的决策支持模型, 然后进入2000年前后的数据存储和挖掘;大部分与大数据相关的技术和分析应用则是从2010年左右开始出现的, 直到今天的大数据应用于各行各业。大数据, 一个撞击时代的新概念, 已经开始催生社会、技术、科学和经济的巨大变革。
维基百科解释大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;调研公司IDC对大数据的定义是:一种新一代的技术和架构, 具备高效率的捕捉、发现和分析能力, 能够经济地从类型繁杂、数量庞大的数据中挖掘价值;研究机构Gartner给出的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;《大数据时代》一书中, 大数据指不用随机分析法 (抽样调查) 这样的捷径, 而采用所有数据进行分析处理。笔者赞同以上不同的定义, 更愿意把大数据理解为是统计插上了信息化的翅膀, 是从数据中获取价值的技术能力, 是以信息技术为基础的决策支持系统的演进。
移动互联网、物联网、智能设备、云计算的普遍化导致人和物的所有轨迹都能被记录, 数据产生的速度呈爆炸性增长, 包括结构化数据、非结构化的文本、视频、音频、图片等各类型数据同时存在。很多人会将大数据理解为海量数据, 但海量数据主要是从存储的角度去考虑问题, 而大数据除了数据存储, 还包括商务智能和数据分析。通过对大数据深入的分析挖掘, 能为组织、社会、消费者创造出巨大的价值, 这是大数据分析应用的目的所在。互联时代, 高速度流动着的数据需要即时反应和处理, 创建实时数据流已成为流行趋势。因此业界通常用4“V”, 即体量大 (Volume) 、类型多 (Variety) 、价值高 (Value) 、速度快 (Velocity) 来概括大数据的特征。
二、大数据的历史轨迹
2011年5月, 麦肯锡报告《大数据:创新、竞争和生产力的下一个新领域》中指出, 大数据已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率的增长和消费者盈余浪潮的到来。这是专业机构首次全方位地介绍和展望大数据, 大数据开始受到关注。
2012年1月, 大数据成为瑞士达沃斯召开的世界经济论坛的主题之一, 会上发布的报告《大数据, 大影响》称, 数据已经成为一种新的经济资产类别, 就像货币或黄金一样。3月, 美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》, 标志着大数据技术从商业行为上升到国家科技战略, 美国政府对数据定义为“未来的新石油”, 大数据技术领域的竞争, 事关国家安全和未来。2012年年底, 《大数据时代:生活、工作与思维的大变革》出版。作者维克托·迈尔-舍恩伯格指出, 大数据带来的信息风暴正在变革我们的生活、工作和思维, 大数据开启了一次重大的时代转型。至此, 大数据概念开始风靡全球。
2012年12月, 时任国家统计局局长马建堂官方首次解读大数据时代, 指出大数据时代的来临, 对我国统计数据的生产方式带来了很大的挑战。并在此后的调研中提出“要积极应对大数据时代的机遇和挑战, 深入研究探索大数据在统计工作中的应用, 倾力打造统计基础数据搜集‘第二轨’”。
2012年12月30日, 白春礼院士呼吁应将大数据上升为国家战略。次年1月19日, 大数据背景下的计算机和经济发展论坛举办。此后, 大数据在中国掀起浪潮, 从数据中心遍地建, 到云计算、物联网等, 大数据无处不在。
2014年的《政府工作报告》明确提出, 设立新兴产业创业创新平台, 在大数据等方面赶超先进, 引领未来产业发展。
2014年4月, 世界经济论坛以“大数据的回报与风险”为主题发布了《全球信息技术报告 (第13版) 》。报告认为, 在未来几年中, 针对各种信息通信技术的政策会显得更加重要。全球大数据产业日趋活跃, 技术演进和应用创新加速发展, 各国政府逐渐认识到大数据在推动经济发展、改善公共服务, 增进人民福祉, 乃至保障国家安全方面的重大意义。为推动大数据产业有序健康发展, 我国政府在不同场合多次强调发展大数据产业, 且出台了多项政策推动大数据发展, 并最终将大数据发展上升至国家战略层面。
2015年, 多次国务院常务会议均研究了大数据的相关问题。1月, 国务院印发《关于促进云计算创新发展培育信息产业新业态的意见》, 提出数据资源已成为战略性资源, 对数据资源的掌控能力和运用能力日益成为综合国力的重要体现, 大力推进大数据发展, 对于促进云计算创新发展具有重要的战略意义。7月1日, 国务院发布《关于运用大数据加强对市场主体服务和监管的若干意见》, 提出充分运用大数据先进理念、技术和资源, 加强对市场主体的服务和监管, 推进简政放权和政府职能转变, 提高政府治理能力。9月5日, 经李克强总理签批, 国务院印发《促进大数据发展行动纲要》, 系统部署大数据发展工作。该《纲要》的发布, 对推进落实“中国制造2025”和“互联网+”国家战略、促进大众创业和万众创新、推动经济和社会发展具有重要意义。
2016年3月, 《“十三五”规划纲要》全文发布, 其第二十七章明确提出“实施国家大数据战略”, 彰显国家对于大数据战略的重视, 大数据发展正式上升为我国的国家战略。2016年下半年开始, 各地陆续制定关于大数据发展的相关政策、文件, 大数据在中国开始进入应用发展阶段。
三、主要国家大数据蓬勃发展
绝非仅是数据量大的挑战, 大数据的核心问题是数据挖掘背后所能产生的价值。Gartner公司发布的新兴技术成熟度曲线, 旨在帮助企业及IT人士更好地了解新技术的发展情况。2012年的Gartner技术成熟度曲线显示, 大数据即将进入概念炒作的高峰期;2013年, 大数据达到概念炒作的高峰期;2014年转向泡沫化的低谷期, 此时存活下来的大数据企业, 创新技术及商业模式更加符合市场需求;2015年和2016年, 技术成熟度曲线上已不见大数据踪影, 炒作之后, 大数据技术已成为产业发展的基本要素, 开始实实在在地在各种实践中解决问题。
英国政府最早推进大数据规划。2004年, 英国设立了水平扫描中心 (HSC) 项目, 以提升政府处理跨部门和多学科挑战的能力。2011年, 水平扫描中心启动气候变化的未来国际影响计划, 通过对多数据源进行整合及深度分析, 研究解决气候变化对食品和水的可获得性、对地区或国际形势的影响等问题。2009年, 英国政府建立了http://data.gov.uk公共网站, 7个政府部门将8633个数据集对外开放。荷兰、瑞士、英国和其他17个国家与IBM合作在英国曼彻斯特的Jodrell Bank天文台开发了DOME超级计算系统项目, 每天读取、存储和分析处理源于射电望远镜平方公里阵列 (SKA) 超过1EB的数据, 旨在通过探索百亿亿次的计算、数据传输和存储等新兴技术, 解决一系列的宇宙科学问题。
2004年, 针对国家安全、传染病和其他国家层面关心的问题, 新加坡政府发布了风险评估和水平扫描计划 (RAHS) 。通过对大数据的采集和分析, 积极把控威胁国家安全的相关问题, 包括恐怖袭击、传染病传播和金融危机等。2007年开放的风险评估和水平扫描计划实验中心 (REC) 聚焦于风险评估和水平扫描计划相关政策制定的新技术工具, 并通过大数据基础设施系统升级来维持和强化这一能力。新加坡政府门户网站http://data.gov.sg/向公众开放超过50个政府部门5000多个数据集。
日本政府已启动多个大数据计划, 成立了大数据专家组, 把“大数据应用”作为日本面向2020年的关键使命。从2005年到2011年, 日本文部科学省与相关大学和研究机构合作设立了新IT基础设施项目。2011年起, 政府优先解决地震、核电站灾难、受污染区域的重建和灾民安置以及相关的社会和经济救济。文部科学省与国家科学基金会合作提高研究和利用大数据的技术, 以预防、减轻和管理自然灾害。
2010年, 为了建立统一的“数字市场”, 欧盟正式发布“欧洲数字化议程”, 推动欧盟内部互联互通和应用共享, 促进欧盟经济社会可持续发展, 造福欧盟人民。2012年, 欧盟委员会制定了大数据战略, 强调公共数据安全及挖掘公共机构数据的价值潜力、发展物联网、确保网络安全及在线交易的数据处理安全。
2011年, 韩国总统国家ICT战略委员会发布了“大数据倡议”, 旨在建立泛政府大数据网络和分析系统, 推进政府与私有部门之间的数据共享融合, 建立公共数据诊断系统, 培养和培训合格的大数据专业人员, 保障个人信息安全, 以及改善相关法律, 发展大数据基础设施和技术, 发展大数据管理和分析技术。韩国卫生部建立了社会福利综合管理网络, 分析来源于35个机构的385个不同类型的公共数据, 综合管理中央和地方政府提供的福利和服务。食品、农业、森林与渔业部、公共行政与安全部 (MOPAS) 推出了依托于分析动物疾病相关的海外大数据、海关出入境记录、养殖场的跟踪调查、牲畜迁移和养殖工人活动等相关的大数据, 以及预防手足口病的综合系统。韩国生物信息中心计划开发和运营国家DNA管理系统, 该系统集成大量的DNA和病人医疗信息, 为个人提供个性化定制的诊断和治疗。
2012年, 奥巴马政府颁布了投入2亿美元、涵盖美国6个重要部门参与的《大数据研究和发展计划》, 通过提高大型复杂的数字数据集中提取知识和观点的能力, 加快在科学与工程中的步伐, 加强国家安全, 并改变教学研究。
由中国统计信息服务中心 (国家统计局社情民意调查中心) 、首页大数据研究编制的第2次《中国大数据发展指数报告》指出, 我国大数据产业发展态势良好。2016年下半年, 我国大数据产业发展的基础支撑指数为66.70, 经济的平稳发展为大数据产业的发展提供了有力支撑。我国大数据产业不但自身成为规模庞大的新兴产业, 并有望带动万亿市场规模的IT服务业转型, 促进国民经济其他领域的飞速发展。目前已经形成京津冀、长三角、珠三角、西部地区和东北地区5个各具特色的分布区域。其中北京、上海、广东、江苏、浙江、贵州6个省市大数据企业聚集, 涵盖了数据采集、数据存储、数据分析、数据可视化、数据安全及数据应用等领域。
New Vantage Partners的大数据管理调查发现, 62.5%的公司在2016年至少有一个大数据项目投入生产。Forrester公司的数据显示, 全球近40%的公司正在实施和扩展大数据技术应用, 另有30%的公司计划在未来12个月内采用大数据技术。全球大数据市场逐渐进入完全竞争格局, 大数据企业数量迅速增多, 产品和服务的差异度增大, 市场竞争越发激烈。2016年全球大数据市场中, 行业解决方案、计算分析服务、存储服务和大数据应用为市场份额排名最靠前的细分市场, 分别占据35.4%、15.7%、14.1%和14.7%的市场份额。数据库服务的市场份额为7.6%, 云服务的市场份额为6.7%, 基础软件占据3.5%的市场份额, 而网络服务仅占据了2%的市场份额。
四、计量与大数据紧密关联
数据无处不在。人类自从发明文字, 就开始记录各种数据, 随着互联网、物联网和社交网络的发展, 预计在2020年, 我们可以有40ZB可以记录的数据。全球90%的数据是在过去几年产生的。大数据主要来源于本地、互联网和物联网。在互联网普及之前, 绝大多数数据都存贮在本地, 不是公开的数据资源。例如政府统计数据、城市基础数据、居民消费数据和企业运营数据等。这些数据历经多年的沉淀, 数据量巨大, 一旦对其进行开发, 将成为一座巨大的数据宝藏。2017年6月28日, 国家统计局与清华大学共建的数据开发中心举行揭牌仪式, 标志着我国首个开发利用政府微观调查数据的试点机构正式成立, 大数据宝藏开始启动价值释放。
随着互联网的普及, 人们每天都会通过使用网络产生数以十亿计的海量信息。如Google、百度等在线地图出现后, 产生了大量新型的代表着行为和习惯的位置数据;微博、微信、Facebook、Twitter等社交媒体兴起, 用户可以随时随地在网络上分享内容, 由此产生了海量的用户生产数据;电子商务的热潮带来了包括支付行为、购买行为、物流运输等交易数据, 这些海量的互联网数据中隐藏着特定人群的行为和习惯, 经分析挖掘后能够帮助企业准确地识别出影响用户行为的因素, 有效地将客户需求分级, 从而能够既有创造力又有效率地实现客户的需求。
计量是实现单位统一、量值准确可靠的科学活动, 古代称为度量衡。计量与大数据之间存在着先天的联系, 计量存在于人们生产、生活的方方面面, 因计量而产生的各类数据, 都将成为大数据应用广泛的数据源, 参与计算和研究。在自然科学的发展中, 计量工作是人们正确认识自然现象、掌握自然规律、验证科学预见不可缺少的手段, 其对生产、生活乃至社会发展的重要性不言而喻。因为互联互通, 包括计量在内, 人类社会的数据量不断推出一个个新的量级单位, 目前已经跃升至EB、ZB级别。我们来看几组数据计量单位, 找一下大数据和计量的相关感觉。Byte是计算机信息技术用于计量存储容量和传输容量的一种计量单位, 1个字节等于8位二进制, 是目前我们常用计算存储空间的最小单位 (更小的单位是bit, 1 Byte=8 bit, 不过并不常用) 。
数据需要准确计量、正确认识, 并且在其中挖掘和掌握数据规律。大数据动态实时、结构多样、数据规模大、价值密度低, 不同的信息量以Byte可以具体形象地进行换算量化, 无论是结构化数据还是非结构化数据, “采、存、管、研、用”的研究实现过程中的量化离不开计量基础, 然后用统计学方法分析数据背后的经济、社会现象以及复杂规律, 从而为经济和管理决策服务。
五、计量是城市大数据应用的重要基础
IBM提出“数字地球”概念后, 美国迪比克市于2009年率先与IBM展开合作, 利用物联网技术, 建立美国第一个“智慧城市”。其中第一步工作是向所有住户和商铺安装数控水电计量仪表, 其中也包含低流量传感器技术, 以防止泄漏造成的浪费。他们同时搭建综合监测平台, 将城市水、电、油、气、交通、公共服务等各种公用资源连接起来, 动态及时地对数据进行监测、分析、整合和展示, 以做出智能化的响应, 更好地服务市民, 也能让城市管理者对整个城市资源的使用情况一目了然。
智慧城市或者数字城市建设的核心是大数据精准应用, 其根本意义在于运用信息和通信技术手段感知整个城市的运行, 并基于物联网对各种需求做出数据化的智能响应。计量在能源、环境、交通及医疗服务方面发挥最基本的作用。检测和监测数据是城市管理的开始, 计量器具的智能化则是数字城市建设的首要因素, 是推动城市民生、政府服务以及基础设施领域数字化、智能化的基础, 也是数据来源的重要物联网终端。
计量服务广泛应用于城市的贸易结算、食品安全、环境保护、医疗卫生、安全防护、导航定位、海洋探测、航空航天、特色高效农业和油气产业等领域, 其能力的强弱会直接影响社会的公平正义和人民的福祉。例如, 空气质量实时发布系统和重点污染源监控系统可以通过各种监测仪表发布各监测点监测到的PM10、PM2.5和SO2等数据;在城市的道路中增设感应装置以及监测仪表, 实时掌握行驶车辆状况, 提供整个城市道路运行整体状况信息, 以此提高道路使用效率, 缓解拥堵现象;通过智能电能表的数据传输功能, 电网整体的用电效率将得到大大提升, 实现智能电网的建设, 智能电能表能够将单个家庭的详细用电数据随时传回电网, 电网可以及时调控整体供电策略, 夏季用电高峰期区域性电力短缺的局面将大有改观。
融合发展将催生更多新技术、新模式、新业态, 物联网使任何物品与物品之间可以进行信息交换和通信, 因此数据量规模、数据生成频率、数据传输速率、数据多样化、数据真实性等优于传统互联网。“大数据”时代, 基于经验和直觉的决策将日益转变为基于数据和分析作出, 每个领导者或者个人都需要具有一定数据素养的“数商”。计量经济学家们做预测的数据基础也已经具备, 而庞大的数据资源使得各个领域开始了融合和量化进程, 学术界、商界以及政府, 所有领域都将开始并且逐步适应。
数据驱动成为潮流, 这是历史的必然。
