信息技术经过了计算机、互联网时代,进入了云计算、大数据、物联网应用及移动互联、体感交互技术突破的阶段。
鲜明地展现出,新一代信息技术融合、产品软化、开放与服务等基本特征和趋势;产生了人的智慧参与、可持续创新,面向服务的顶层设计等新理念。
成为推动社会经济发展的创新引擎,知识成为社会生产力中最活跃的要素,社会发展到了一个新阶段——知识社会,呼唤着新的社会(城市)形态——智慧城市的出现。
图片来源:图虫创意
大数据
大数据(big data),指无法在一定时间范围内,用常规软件工具进行抽取、管理和处理的数据集合;是需要新处理模式才能产生更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
《大数据时代》指出:大数据不能用随机分析法(抽样调查)等简单方法,而是要对所有数据进行分析处理。
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。当前的主流的平台是:并行数据库、MapReduce,及基于两者的混合架构。
研究机构(Gartner)对大数据的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资源。
麦肯锡研究所对大数据的的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
上述定义综合起来,揭示了大数据的价值、特点和人们应该做出的相应的改变:即具有更强的决策力、洞察发现力和流程优化能力的信息资源。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
若把大数据比作一个产业,它实现盈利的关键是:提高对数据的“加工能力”;通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样。大数据无法用单台计算机进行处理,必须依托云计算的分布式架构、分布式数据库和云存贮、虚拟化技术,对海量数据进行分布式数据挖掘。
大数据的特点, 5V:Volume(大量)、Velocity(快速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
数据体量巨大,从TB级别,跃升到PB级别;数据类型繁多,包括:网络日志、视频、音频、图片、文本、地理位置信息等;处理速度快,可从各种类型的数据中,快速获得高价值的信息(1秒定律)。这是和传统数据挖掘技术本质的差别;
数据本身价值密度低(不取样),但是,因量大而价值高,也可以这样理解大数据的特点:容量,数据的体量决定其价值和潜在信息的多少;种类,数据类型的多样性,来源多渠道;速度,获得数据的速度快;处理快可变性,要求处理和有效地管理数据的过程快
数据的体量决定其价值和潜在信息的多少。
大数据的价值 ,同云计算一样,大数据也是新观念(价值观)和思维逻辑转变的产物。由于数据采集能力(感知手段)和存贮能力的增强,系统可以容易地获得巨量的数据,并把它保存起来。但麻烦随之而来。
通常认为:数据价值在于它载有的表面信息,没有价值的是垃圾。在大量垃圾中找出有价值的数据又变得很困难(存贮量大)。要求人们对数据的价值有新的观念。
新观念则看到:巨量数据所具有的潜在价值是所有数据共性信息的价值。巨量数据所具有的潜在价值是所有数据共性信息的价值。
大数据的核心价值是预测,将为人类的生活创造前所未有的可量化的维度,使人们具有更强的决策力、洞察发现力和流程优化能力。
传统处理方法理解数据的表面信息,获得数据价值。而大数据是挖掘所有数据的共性信息,得到具有趋势性和预测性的信息,是增值信息。思维模式转变的催化剂是新一代信息技术,它能够应对大数据分析3V的挑战。
大数据又称数据矿藏(DATA MINING),中译为数据挖掘。既说明大数据价值所在,又指出获得价值的方法 —挖掘。
必须指出:前面出现的“数据”是个泛指的概念。在数据流程中,前端设备产生的内容称为信息,经转换(结构化)才称为数据,存入数据库;挖掘之后,产生增值信息。
随着云时代的来临,大数据越来越的受关注。大数据可视为大量非结构化数据和半结构化数据,这些数据下载到关系型数据库用于分析时,会花费很多时间和成本。
大数据技术
1.Hadoop
应用最普遍的有:Hadoop,是目前应用最广泛的大数据技术,特别是针对文本及视频等非结构化数据。除分布式文件系统之(HDFS)外,伴随Hadoop同时出现的还有大数据集处理MapReduce架构。
Hadoop是由Apache基金会开发的分布式系统基础架构。用户不用了解分布式底层细节,就可开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop框架核心是:HDFS(分布式文件系统Hadoop Distributed File System)和MapReduce。HDFS为海量数据提供存储;MapReduce为海量数据提供计算。
Hadoop特点是:高效,通过并行处理加快处理速度,在节点之间动态地移动数据并保证各节点的动态平衡,可处理理PB级数据;
Hadoop框架的核心是:HDFS和MapReduce 。
其特点:高可靠,按位存储和处理数据的能力值得人们信赖;高扩展性,在可用的计算机集群间分配数据,并完成计算任务的,这些集群可以方便地扩展到数以千计的节点中;高容错性,能自动保存数据的多个副本,并且自动将失败的任务重新分配;低成本,可轻松地在Hadoop上开发和运行处理海量数据的应用程序。它可运行在廉价设备
总之,Hadoop是一种分布式数据和计算的框架。特别适于存储大量的半结构化的数据集。
2.Spark
Spark,专为大规模数据处理而设计的快速通用的计算引擎(加州大学伯克利分校AMP lab )。
拥有Hadoop MapReduce所具有的优点;不同于MapReduce的是:Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此能更好地适用于数据挖掘与机器学习等
Spark是与 Hadoop相似的开源集群计算环境,在某些工作负载方面表现得更加优越。换句话说,它启用内存分布数据集,除了能够提供交互式查询外,还可优化工作负载。
Spark 是在 Scala语言中实现的,将 Scala 用作其应用程序框架。
Spark的特点,主要有三个:高级 API 不用关注于集群本身,Spark 应用开发者可以专注于应用所要做的计算本身;运算速度快,支持交互式计算和复杂算法;是通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,在 Spark 出现之前,我们需要学习各种各样的引擎来分别处理这些速度运算。
3.NoSQL数据库
NoSQL数据库,泛指非关系型的数据库。随着互联网的深入发展,传统的关系数据库在应付超大规模和高并发数据方面,已经显得力不从心,暴露了很多难以克服的问题;因而,非关系型的数据库由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合、多重数据种类带来的挑战,尤其是大数据应用难题。
NoSQL的流行与火起来是近年来的事,但已经开始了第二代的阶段。早期,堆栈代码只能算是一种实验,然而,现在的系统已经更加的成熟稳定,且技术越来越成熟,以至于原来很好的NoSQL数据存储不得不进行重写,这可能就是V2.0版本。
我们生活的时代,相对稳定的数据库市场中还在出现一些新的技术,而且在未来几年,它们会发挥作用。
NoSQL数据库本身就包含了几种新技术。总体而言,它们关注关系型数据库引擎的限制,如索引流媒体和高访问量的网站服务等。在这些领域,NoSQL相较关系型数据库引擎, 效率明显更高。
4.内存分析
内存分析,Gartner评选的2012年十大战略技术之一。内存分析在个人消费电子设备及其他嵌入式设备中的应用得到快速的发展。
随着越来越多的价格低廉的内存应用于数据中心,如何利用内存分析对软件进行最大限度的优化就成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力,也许内存分析就是答案。
集成设备,随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来。企业将利用数据仓库新技术的优势提升自身竞争力。
集成设备将企业的数据仓库硬件、软件整合在一起;提升查询性能、扩充存储空间,并获得更多的分析功能;能够提供同传统数据仓库系统一样的优势。在大数据时代,集成设备将成为企业应对数据挑战的一个重要利器。
准确、深入的理解大数据,要从三个层面着手:
理论,是认知的首要途径。从大数据的定义、特征、价值的理解,探讨大数据之所在,洞悉其发展趋势;从隐私的视角,审视人和数据之间的长久博弈。
技术,是大数据价值体现的手段和进步的基础。从云、分布式处理、存储和感知技术的发展,理解大数据从采集、处理、存储到形成结果的整个过程。
实践,是大数据的最终价值体现。从互联网、政府、企业和个人大数据四个方面。展望其的美好景象将实现的蓝图。
大数据应用,是非常广泛的。如:洛杉矶警察局利用大数据,预测犯罪的发生。google利用搜索关键词,预测禽流感的传播。统计学家(Nate Silver)利用大数据,预测美国大选结果;麻省理工学院利用手机定位和交通数据,制定城市规划;梅西百货根据需求和库存数据,建立实时定价机制,对多达7300万种货品进行实时调价;医疗行业通过大数据,特别是处理海量、非结构化数据数据,调配医、药资源和医保资金管理。
大数据发展趋势,大数据是信息化浪潮中的一朵浪花。数据的资源化,大数据成为企业和社会关注的重要战略资源,并成为大家争夺的新领域。与云计算深度融合,云计算为大数据提供了弹性、可拓展的基础平台;大数据技术已开始和云计算技术紧密融合。
物联网、移动互联网等也助力大数据产生更大的影响力。
理论的突破,大数据很可能是新一轮的技术革命,随之兴起的数据挖掘、机器学习和人工智能等可能改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
数据科学和数据产业,数据科学将成为专门的学科。
各大高校将设立专门的数据科学类专业;社会将出现数据产业,催生一批与之相关的新的就业岗位。数据泄露泛滥,未来几年,数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。
可以预见:未来,大型企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。
总之、大数据像一把双刃剑,利害同在。
数据管理成核心竞争力,当“数据资产是企业核心资产”的概念深入人心之后,数据管理便有了新的定位。
数据质量是关键,企业采用自助式商业智能工具进行大数据处理,面临的挑战是数据源带来大量低质量数据。要理解原始数据与数据分析之间的差距,从而消除低质量数据。
数据生态系统复合化,大数据世界是一个由设备、设施、服务提供商等一系列参与者共同构建的生态系统。今后,这一生态系统的复合化程度逐渐增强。
智慧的天空任创新之翼自由地飞翔;机器学习的基础上,产生了深度学习,导致今天的AI大爆发,成了这天空中最绚丽多彩的画卷。然而、学习是人类独有的能力、是人类社会进步的动力之源。大课堂的目的是;选择一些有意义、业界关注的课题,营造学习的环境和氛围,促进安防企业成为学习型组织。
希望大家通过学习,不仅获得全面正确的知识、信息,感受创新之美。,还能主动地参与其中,迎接头脑的风暴,碰撞出智慧的火花,激发创新的灵感。智慧的天空任创新之翼自由飞翔。
李仲男,公安部第一研究所研究员
长期从事安防技术研究工作