大数据报告
目录
大数据报告 1
前言大数据在改变世界 2
一、大数据到底是什么 3
二、大数据的特征 3
1.规模性(Volume) 4
2.多样性(Variety) 4
3.高速性(Velocity) 4
4.价值性(Value) 4
三、大数据的应用 5
(一)数据从哪里来 6
(二)数据怎么用 7
追踪 8
识别 8
画像 8
提示 8
匹配 8
优化 8
(三) 成果谁买单 9
四、大数据资源 9
五、大数据处理的基本流程 10
(一) 数据抽取,建设数据海 10
(二) 数据清洗,建设数据仓 11
(三) 联机分析处理(OLAP),进行数据挖掘 12
前言大数据在改变世界
有因有果是人们普遍的思维习惯,探究“为什么”从而知道“怎么办”是长久以来形成的行为方式。但在大数据时代,诞生于海量数据上由科学统计和概率分析得到的某种模型或规律,可能已可解答“怎么办”、“做什么”而无须回答“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据说话。
《大数据时代:生活、工作与思维的大变革》一书的作者维克托·迈尔·舍恩伯格曾说:“如果你是一个个人,如果你拒绝的话,可能会失去生命,如果是一个国家的话,拒绝大数据时代的话,可能失去这个国家的未来,失去一代人的未来。”大数据时代使我们对客观世界的认识探过纷繁的面纱走近背后的规律,使我们所做的决策不再仅仅依赖主观判断。基于个人的一个习惯动作、一次消费行为、一份就诊记录,都会被巨大的数字网络串联起来。
大数据的运用是思维方式的变革,大数据正在改变着我们的世界。
一、 大数据到底是什么
麦肯锡咨询公司曾公布了一份详细分析大数据领域的关键技术和应用的报告,并在报告中对“大数据时代”作了定义:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”维基百科对大数据的定义是:“无法在一定时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合”。
简单说,“大数据”就是超越了传统IT技术和数据库软件处理能力的海量数据。
狭义概念里,大数据指代了海量的数据,不仅是数据海洋,还包含了实时的数据、流数据以及其他数据。
广义概念里,大数据,不仅指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,更涵盖了整个信息资产的获取、处理、分析和使用等方面。
大数据最核心的价值就是在于对于海量数据进行存储和分析
二、 大数据的特征
大数据的概念尚在发展和完善中,现有四个得到普遍认同的特征,简称4V----Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。
1. 规模性(Volume)
指搜集和分析的数据量不断扩大,大量的数据由不同的源头持续产生,最后汇聚在一起形成海量的数据。如今,数据的量级越来越高,已从GB、TB、PB发展至EB,甚至是ZB、YB、DB、NB(1NB=TB)。
2. 多样性(Variety)
指大数据来源于多种数据源。数据的结构、类型多,数据不仅有结构化数据,还有半结构化数据和非结构化数据;数据的类型也不仅包括网页、文本、图片,也包含视频、点击流和地理位置等。
3. 高速性(Velocity)
指数据的流动性非常快,该特性可能导致数据的价值急速降低甚至消失,所以数据具有特别强的时效性。数据的生成也十分快速,维克托在《大数据时代》中曾提到,数据增长速度是时间经济增长速度的5倍。
4. 价值性(Value)
指大数据中含有大量可挖掘的价值。虽然大数据蕴含的价值大,但其价值密度低,也就是说,大数据蕴含着巨大价值,但并非所有数据都是有效数据。
大数据技术的战略意义不仅在于掌握庞大的数据信息,更在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。相比起现有的其他技术,大数据的“廉价、迅速、优化”三方面的综合成本是最优的。
三、 大数据的应用
大数据应用的关键点是数据来源、产品化和价值创造。
大数据首在应用。年,国务院出台《促进大数据发展行动纲要》(国发〔〕50号);年,山西省制定发布了《山西省大数据发展规划(-年)》,将大数据作为省发展战略引擎。
国务院《促进大数据发展行动纲要》(简称《大数据纲要》)将大数据定位为“新一代信息技术和服务业态”,赋予大数据“推动经济转型发展”、“重塑国家竞争优势”、“提升政府治理能力”的战略功能,并将数据界定为“国家基础性战略资源”。在应用方面,《大数据纲要》在公共领域提出许多发展方向,如宏观调控科学化、政府治理精准化、商事服务便捷化、安全保障高效化、民生服务普惠化;在产业层面,主要按行业领域划分为工业大数据、新兴产业大数据、农业农村大数据、万众创新大数据,以及大数据产品体系和大数据产业链。无论是在公共领域还是在产业层面,大数据应用都离不开数据来源、处理技术和方法、创造价值的模式这三个关键点。
(一) 数据从哪里来
一般意义上,互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源作为大数据金矿,正在不断产生各类应用。国外关于大数据的成功经验介绍,也大多是这类数据资源应用的经典案例。
交易中心,商贸集团、物业管理集团和市政建设集团都会在业务处理中积累大量数据。虽然从严格意义上讲,在应用初期受限于数据收集的范围和处理利用的水平,这些数据资源还算不上真正的大数据,但于商业应用而言,已经是首先可以获得和较为容易加工处理的数据资源,可以作为大数据在企业应用的起点。
政府部门掌握的数据资源,是质量好、价值高的资源,但一般开放程度较低。《大数据纲要》把公共数据互联开放共享作为努力方向,期望通过大数据技术破除政府部门间信息数据的相互封闭割裂,实现向社会的公共数据开放,实现政府间信息高效传递使用,发挥信息倍增器的作用。这方面的整体推进依赖于各单位各部门的协同配合。
在大数据发展初期,通过技术手段从公共接口及时有效的获取各项政策信息,通过采集器获取企业各项数据信息,服务于企业管理工作;获取各项经济信息,提供于企业生产经营,是可以作为大数据的应用起点。
解决数据从哪里来是实现大数据应用的第一关键点。
一是要看这个应用是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患。
二是要看这个应用的数据资源质量如何,是“富”还是“贫”,能否保障这个应用的实效。对于来自自身业务的数据资源,具有较好的可控性,数据质量一般也有保证,但数据覆盖范围可能有限,需要借助其他资源渠道。对于从互联网抓取的数据,技术能力是关键,既要有能力获得足够大的量,又要有能力筛选出有用的内容。对于从第三方获取的数据,需要特别