Hadoop系列——大数据概念day1-1
Hadoop系列——大数据概念day1-1
- Hadoop系列——大数据概念day1-1
- 数据
- 数据的单位
- 大数据
- 大数据的特点(5V)
- Volume数据体量大
- Variety种类、来源多样化
- Value低价值密度
- Velocity速度快
- Veracity数据的质量
- 大数据应用场景
- 大数据业务分析的基本步骤
- 明确分析目的和思路
- 数据分析方法论∶营销管理相关理论
- 数据收集
- 数据处理
- 数据分析
- 数据展现
- 报告撰写
- 企业中的大数据部门组织架构
Hadoop系列——大数据概念day1-1
数据
- 是事实或观察的结果
- 是对客观事物的逻辑归纳
- 是用于表示客观事物的未经加工的原始素材
数据的单位
- 1Byte = 8bit
- 1K(千)=1024Byte
- 1MB(兆)=1024K
- 1G(吉)=1024M
- 1T(太)=1024G
- 1P(拍)=1024T
- lE(艾)=1024P
- 1z(泽)=1024E
- 1Y(尧)=1024Z
- 1B(布)=1024Y
- 1N(诺)=1024B
- 1D(刀)=1024N
大数据
是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
----------------from baidu
大数据的特点(5V)
Volume数据体量大
- 采集数据量大
- 存储数据量大
- 计算数据量大
- TB、PB级别
Variety种类、来源多样化
种类:结构化、半结构化、非结构化
来源:日志文本、图片、音频、视频
Value低价值密度
信息海量但是价值密度低
深度复杂的挖掘分析需要机器学习参与
Velocity速度快
- 数据增长速度快
- 获取数据速度快
- 数据处理速度快
Veracity数据的质量
- 数据的准确性
- 数据的可信赖度
大数据应用场景
如:电商广告推荐、个性化推荐、大数据杀熟、精准营销、推荐、风险评估、客户等级评估、导航最优规划、智慧交通、犯罪监控、医疗追踪等等
大数据业务分析的基本步骤
- 明确分析目的和思路
- 数据收集
- 数据处理
- 数据分析
- 数据展现
- 报告撰写
明确分析目的和思路
目的是整个分析流程的起点:
- 为数据的收集、处理及分析提供清晰的指引方向
思路是使分析框架体系化∶
- 先分析什么,后分析什么,使各分析点之间具有逻辑联系
- 保证分析维度的完整性,分析结果的有效性以及正确性
数据分析方法论∶营销管理相关理论
如:用户行为理论(认知->熟悉->试用->使用->忠诚)、PEST分析法、5W2H分析法等
数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析,各方面包含什么内容和指标?数据分析方法论主要从宏观角度指导如何进行数据分析,它就像是一个数据分析的前期规划,指导着后期数据分析工作的开展。
而数据分析法则是指具体的分析方法,例如我们常见的对比分析、交叉分析、相关分析、回归分析、聚类分析等数据分析法。数据分析法主要从微观角度指导如何进行数据分析。
数据收集
是数据从无到有的过程(例如传感器接收数据),是数据传输搬运的过程(如采集数据库数据到数据分析平台)
数据常分为:
- 业务数据
- 日志数据
- 爬虫数据
- 互联网公开数据
数据处理
对收集到的数据进行加工处理,形成适合数据分析的样式
主要包括:
- 数据清理
- 数据转化
- 数据提取
- 数据计算
数据分析
用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
需要掌握各种数据分析方法,还要熟悉数据分析软件的操作
数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律。
数据展现
是分析结果的直观展示
数据是通过表格和图形进行展现,让人能够只管的展示出来
报告撰写
数据分析报告是对整个数据分析过程的一个总结与呈现
把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
需要有明确的结论,最好有建议或解决方案