当前位置: 首页 > news >正文

Hadoop系列——大数据概念day1-1

Hadoop系列——大数据概念day1-1

  • Hadoop系列——大数据概念day1-1
    • 数据
      • 数据的单位
    • 大数据
      • 大数据的特点(5V)
        • Volume数据体量大
        • Variety种类、来源多样化
        • Value低价值密度
        • Velocity速度快
        • Veracity数据的质量
      • 大数据应用场景
      • 大数据业务分析的基本步骤
        • 明确分析目的和思路
          • 数据分析方法论∶营销管理相关理论
        • 数据收集
        • 数据处理
        • 数据分析
        • 数据展现
        • 报告撰写
    • 企业中的大数据部门组织架构

Hadoop系列——大数据概念day1-1

数据

  • 是事实或观察的结果
  • 是对客观事物的逻辑归纳
  • 是用于表示客观事物的未经加工的原始素材

数据的单位

  • 1Byte = 8bit
  • 1K(千)=1024Byte
  • 1MB(兆)=1024K
  • 1G(吉)=1024M
  • 1T(太)=1024G
  • 1P(拍)=1024T
  • lE(艾)=1024P
  • 1z(泽)=1024E
  • 1Y(尧)=1024Z
  • 1B(布)=1024Y
  • 1N(诺)=1024B
  • 1D(刀)=1024N

大数据

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
----------------from baidu

大数据的特点(5V)

Volume数据体量大

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别

Variety种类、来源多样化

种类:结构化、半结构化、非结构化
来源:日志文本、图片、音频、视频

Value低价值密度

信息海量但是价值密度低
深度复杂的挖掘分析需要机器学习参与

Velocity速度快

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快

Veracity数据的质量

  • 数据的准确性
  • 数据的可信赖度

大数据应用场景

如:电商广告推荐、个性化推荐、大数据杀熟、精准营销、推荐、风险评估、客户等级评估、导航最优规划、智慧交通、犯罪监控、医疗追踪等等

大数据业务分析的基本步骤

  1. 明确分析目的和思路
  2. 数据收集
  3. 数据处理
  4. 数据分析
  5. 数据展现
  6. 报告撰写

明确分析目的和思路

目的是整个分析流程的起点:

  • 为数据的收集、处理及分析提供清晰的指引方向

思路是使分析框架体系化∶

  • 先分析什么,后分析什么,使各分析点之间具有逻辑联系
  • 保证分析维度的完整性,分析结果的有效性以及正确性
数据分析方法论∶营销管理相关理论

如:用户行为理论(认知->熟悉->试用->使用->忠诚)、PEST分析法、5W2H分析法等
数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析,各方面包含什么内容和指标?数据分析方法论主要从宏观角度指导如何进行数据分析,它就像是一个数据分析的前期规划,指导着后期数据分析工作的开展。
而数据分析法则是指具体的分析方法,例如我们常见的对比分析、交叉分析、相关分析、回归分析、聚类分析等数据分析法。数据分析法主要从微观角度指导如何进行数据分析。

数据收集

是数据从无到有的过程(例如传感器接收数据),是数据传输搬运的过程(如采集数据库数据到数据分析平台)
数据常分为:

  1. 业务数据
  2. 日志数据
  3. 爬虫数据
  4. 互联网公开数据

数据处理

对收集到的数据进行加工处理,形成适合数据分析的样式
主要包括:

  1. 数据清理
  2. 数据转化
  3. 数据提取
  4. 数据计算

数据分析

用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
需要掌握各种数据分析方法,还要熟悉数据分析软件的操作
数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律。

数据展现

是分析结果的直观展示
数据是通过表格和图形进行展现,让人能够只管的展示出来

报告撰写

数据分析报告是对整个数据分析过程的一个总结与呈现
把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
需要有明确的结论,最好有建议或解决方案

企业中的大数据部门组织架构

在这里插入图片描述

相关文章:

  • ✨Linux定时备份mysql中的数据库(包括Docker)
  • 文件操作安全之-文件上传原理篇
  • 这就是为什么美联储加息 0.75% 可能对比特币有利的原因
  • 冒泡排序算法-python实现
  • 嵌入式分享合集61
  • MySQL进阶语句
  • MySQL:备份与恢复
  • Spring MVC
  • MySQL 日志管理
  • 机器学习之特征选择
  • 高薪程序员面试题精讲系列149之你熟悉单点登录吗?说说单点登录的实现原理及流程
  • 【Unity3D】顶点和片段着色器
  • jmeter实战
  • 【零基础学QT】第十章 项目打包,利用Inno Setup制作软件安装包
  • LeetCode合并有序数组
  • Android框架之Volley
  • CSS进阶篇--用CSS开启硬件加速来提高网站性能
  •  D - 粉碎叛乱F - 其他起义
  • download使用浅析
  • extract-text-webpack-plugin用法
  • JavaScript工作原理(五):深入了解WebSockets,HTTP/2和SSE,以及如何选择
  • nfs客户端进程变D,延伸linux的lock
  • pdf文件如何在线转换为jpg图片
  • Python 反序列化安全问题(二)
  • Python打包系统简单入门
  • Redis字符串类型内部编码剖析
  • 前端学习笔记之原型——一张图说明`prototype`和`__proto__`的区别
  • 巧用 TypeScript (一)
  • 看到一个关于网页设计的文章分享过来!大家看看!
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • 树莓派用上kodexplorer也能玩成私有网盘
  • ​【C语言】长篇详解,字符系列篇3-----strstr,strtok,strerror字符串函数的使用【图文详解​】
  • ​Spring Boot 分片上传文件
  • ​一帧图像的Android之旅 :应用的首个绘制请求
  • (2/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (day6) 319. 灯泡开关
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (Redis使用系列) Springboot 在redis中使用BloomFilter布隆过滤器机制 六
  • (八)Docker网络跨主机通讯vxlan和vlan
  • (二)linux使用docker容器运行mysql
  • (附源码)springboot高校宿舍交电费系统 毕业设计031552
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • .NET BackgroundWorker
  • .NET C# 使用 SetWindowsHookEx 监听鼠标或键盘消息以及此方法的坑
  • .NET delegate 委托 、 Event 事件,接口回调
  • .NET MVC第三章、三种传值方式
  • .NET/C# 判断某个类是否是泛型类型或泛型接口的子类型
  • .Net组件程序设计之线程、并发管理(一)
  • ??如何把JavaScript脚本中的参数传到java代码段中
  • [ solr入门 ] - 利用solrJ进行检索
  • [ vulhub漏洞复现篇 ] ECShop 2.x / 3.x SQL注入/远程执行代码漏洞 xianzhi-2017-02-82239600
  • [ vulhub漏洞复现篇 ] JBOSS AS 5.x/6.x反序列化远程代码执行漏洞CVE-2017-12149
  • [2023年]-hadoop面试真题(一)