当前位置: 首页 > news >正文

大数据全解:定义、价值及挑战

这些年,“大数据”一词已成为当下最热门的词汇之一。对于很多人来说,都不太理解什么是大数据?它比想象中复杂。大数据不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。更进一步来说,大数据是一种全新的思维方式和商业模式。

今天就让我们深入了解一下,到底什么是大数据。

大数据的定义

首先,还是要重新审视大数据的定义。行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。

广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

■ 要做什么?——获取数据、存储数据、分析数据

■ 对谁做?——大容量数据

■ 目的是什么?——挖掘价值

大数据,到底有多大?

传统的个人电脑,处理的数据,是GB/TB级别。

■ 1 GB = 1024 MB (GB - gigabyte)

■ 1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢?PB/EB级别。

■ 1 PB = 1024 TB (PB - petabyte)

■ 1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话,似乎不是很直观。

举个例子:

1TB,只需要一块硬盘可以存储。容量大约是20万张图片或20万首音乐,或者是671部小说。

1PB,需要大约2个机柜的存储设备。容量大约是2亿张图片或2亿首音乐。如果一个人不停地听这些音乐,可以听1900年。

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.3公里。如果摆放在机房里,大约需要21个标准篮球场,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

EB还不是最大的。目前全人类的数据量,是ZB级。

而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

1 ZB = 1024 EB (ZB - zettabyte)

大数据的特点4Vs

行业里对大数据的特点,概括为4个V。除了Volume(海量化)之外,剩下三个,分别是Variety、Velocity、Value。

Variety(多样化)

01

数据又分为结构化数据和非结构化数据。

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

Velocity(时效性)

02

从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

■ Email:2.04亿封被发出

■ Google:200万次搜索请求被提交

■ Youtube:2880分钟的视频被上传

■ Facebook:69.5万条状态被更新

■ 12306:1840张车票被卖出

■ ……

怎么样?是不是瞬息万变?

Value(价值密度)

03

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。

大数据的价值

人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。大数据,究竟有什么价值?

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。

■ 第一次浪潮:农业阶段,约1万年前开始

■ 第二次浪潮:工业阶段,17世纪末开始

■ 第三次浪潮:信息化阶段,20世纪50年代后期开始

进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。

2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。

如今,大数据应用开始走进我们的生活,影响我们的衣食住行。

之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。

归纳来说,大数据的价值主要来自于两个方面:

  1. 帮助企业了解用户

大数据通过相关性分析,将客户和产品、服务进行关系串联。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。通过数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

  1. 帮助企业了解自己

大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。

大数据的挑战

大数据时代下,大部分人对于信息安全的意识不够,对相关数据的使用不当,造成敏感、隐私数据的泄露,尤其是具有一定关联性的多组数据同时泄漏,引发的连锁反应会让问题加重。

大数据时代下信息安全面对极大的挑战,信息安全技术也面临很大的考验,互联网信息安全有着无限的发展趋势,将会是大数据时代下最值得关注的问题。在未来互联网行业里,信息安全技术将是重中之重。

在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。除了安全之外,大数据还要面临能耗等方面的问题。

换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。

相关文章:

  • spring项目打jar包运行,读取资源文件失败
  • 深度辨析 Python 的 eval() 与 exec()
  • 这题不会!别说你懂值传递与引用传递
  • 换芯 Edge 的新截图曝光,看起来更像 Chrome 了?
  • 如何阅读Java源码?
  • 腾讯云详解宕机故障:光纤挖断后的150秒
  • 【面试准备·3】网络相关
  • Linux基础(第二周)
  • java 企业门户网站 源码 自适应响应式 freemarker 静态引擎 html5 SSM
  • 搭建nonde项目结构
  • 简单封装的ajax请求
  • MySQL学习【第十三篇日志管理】
  • BootStrap基础知识
  • Shiro原理解析(三)--再谈过滤器
  • mysql-python安装时EnvironmentError: mysql_config not found
  • Google 是如何开发 Web 框架的
  • 2018以太坊智能合约编程语言solidity的最佳IDEs
  • angular学习第一篇-----环境搭建
  • conda常用的命令
  • CSS3 变换
  • express.js的介绍及使用
  • GraphQL学习过程应该是这样的
  • iOS小技巧之UIImagePickerController实现头像选择
  • Linux链接文件
  • mysql 数据库四种事务隔离级别
  • Otto开发初探——微服务依赖管理新利器
  • QQ浏览器x5内核的兼容性问题
  • 关于for循环的简单归纳
  • 在Docker Swarm上部署Apache Storm:第1部分
  • Spring Batch JSON 支持
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • #Lua:Lua调用C++生成的DLL库
  • #pragma once与条件编译
  • #每日一题合集#牛客JZ23-JZ33
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (JS基础)String 类型
  • (十八)用JAVA编写MP3解码器——迷你播放器
  • (完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子
  • (转)jQuery 基础
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • ******IT公司面试题汇总+优秀技术博客汇总
  • . NET自动找可写目录
  • .Net 中的反射(动态创建类型实例) - Part.4(转自http://www.tracefact.net/CLR-and-Framework/Reflection-Part4.aspx)...
  • .NetCore部署微服务(二)
  • .NET单元测试
  • .NET开发不可不知、不可不用的辅助类(一)
  • .NET框架类在ASP.NET中的使用(2) ——QA
  • .Net中的集合
  • [bug总结]: Feign调用GET请求找不到请求体实体类
  • [BUUCTF NewStarCTF 2023 公开赛道] week3 crypto/pwn
  • [BZOJ 2142]礼物(扩展Lucas定理)
  • [codevs1288] 埃及分数
  • [J2ME]如何替换Google Map静态地图自带的Marker
  • [java] 23种设计模式之责任链模式