当前位置: 首页 > news >正文

大数据概述

学习大数据有什么用?

2010年:大数据技术体系开始在国内火热

2015年:国务院印发《促进大数据发展行动纲要》

2016年:发改委发布关于组织实施促进大数据发展重大工程的通知

2017年:工信部印发大数据产业规划(2016-2020)

2020年:国务院指示十四五规划大数据重点发展

2022年:国务院印发十四五数字经济发展规划

由此可见,国家对于大数据越来越重视。同时,伴随着信息全球化的发展,大数据也成为了很多行业的基础。我们随时随地都在创造数据。

数据是什么?

数据与信息不同

数据:一种可以被鉴别的对客观事件进行记录的符号。

常见的数据类型:文本,图片,音频,视频等。

信息:与数据不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位。离散的数据没有任何实用价值。

数据的组织形式和生命周期

计算机系统中的数据组织形式主要有两种,即文件和数据库。

文件:计算机系统中的很多数据都是以文件形式存在的,例如:WORD文件、一个文本文件、一个网页文件、一个图片文件等等。

数据库:数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。

数据生命周期:是指数据从创建->修改->发布利用->归档/销毁的整个过程。

  • 对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据。
  • 构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中。
  • 根据不同数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率。

数据如何转化为信息

  • 一致性检查:根据每个变量的合理取值范围相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
  • 无效值和缺失值的处理:由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算整例删除变量删除成对删除
  • 数据管理:利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织
  • 数据分析:把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使数据成为信息的过程。

数据的价值

  • 数据的价值在于可以为人们找出答案。
  • 数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
  • 各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
  • 数据已经具备资本的属性,可以用来创造经济价值。

大数据具有哪些特性?

数据层面:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、警理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

技术层面:大数据(技术)使用分布式技术完成海量数据的处理,以得到数据背后蕴含的价值。

大数据5V性质

Volume(体积):采集数据量大,存储数据量大,计算数据量大,TB、PB级别起步。

Variety(种类):结构化、半结构化、非结构化 日志、文本、图片、音频、视频。

Value(价值):数据海量但是价值密度低,深度复杂的挖掘分析需要机器学习参与。

Velocity(速度):数据增长速度快,获取数据速度快,数据处理速度快。

Veracity(质量):数据的准确性,数据的可信赖度。

大数据是如何产生的?

数据的生产方式

  • 运营式系统阶段:

数据库的出现使得数管理的复杂度降低,数据往往伴随着一定的运营活动而产生并记录在数据库中。 在此阶段,数据被动产生。

  • 用户原创内容阶段:

数据爆发产生于Web 2.0 时代,而Web 2.0 的最重要标志就是用户原创内容。 在此阶段,数据主动产生。

  • 感知式系统阶段:

感知式系统的广泛应用最终导致了大数据的产生。 在此阶段,数据自动产生。

信息化浪潮

  • 第一次浪潮:1980前后,个人计算机处理信息。
  • 第二次浪潮:1995前后,互联网传输信息。
  • 第三次浪潮:2010前后,物联网、云计算和大数据让信息爆炸。

大数据带来了哪些影响?

正面影响——科学研究

图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结:人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。

虽然计算科学和数据密集型科学都是利用计算机来进行计算,但是二者的本质区别在于:计算科学先提出可能的理论,再搜集数据,然后通过计算来验证;数据密集型科学先有了大量已知的数据,然后通过计算得到之前未知的理论。

正面影响——社会发展

  • 大数据决策逐渐成为一种新的决策方式。
  • 大数据成为提升国家治理能力的新途径。
  • 大数据应用有力促进了信息技术与各行业的深度融合。
  • 大数据开发大大推动了新技术和新应用的不断涌现。

正面影响——就业市场

大数据的兴起使得数据科学家成为热门职业。

正面影响——人才培养

  • 一是计算机技术相关人才,包括平台搭建和应用开发。  
  • 二是统计学相关人才,包括数学、建模、算法。
  •  三是业务人才,就是要有一定的专业领域知识,只有明白目标领域知识的人,才能了解数据的意义以及指导数据分析的方向并判断数据分析结果的可信性。

相关文章:

  • 「Vue3系列」Vue3 计算属性(computed)、监听属性(watch)
  • 轻量级Redis慢查询监控脚本
  • 低代码与国产化部署:软件开发的未来趋势与应用实践
  • Java架构之路-架构应全面了解的技术栈和工作域
  • 【大模型推理】浅谈推理过程中流行的加速技术
  • 如何用可调电源给 GSX-250R 摩托车电瓶充电
  • Spring Boot的启动流程(个人总结,仅供参考)
  • nextjs13如何进行服务端渲染?
  • 智能驾驶规划控制理论学习06-基于优化的规划方法之数值优化基础
  • 蓝桥杯倒计时 41天 - 二分答案-最大通过数-妮妮的月饼工厂
  • 【奇淫巧计】Unity 如何对齐父容器
  • 微服务定时执行任务
  • mac电脑使用pyinstaller打包python脚本
  • Applied Energy+C论文复现:考虑泊位分配灵活性的港口综合能源系统优化调度程序代码!
  • 【Vue】探究 Vue 2 与 Vue 3 生命周期:变化与延续
  • angular组件开发
  • Docker: 容器互访的三种方式
  • iOS编译提示和导航提示
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • JS正则表达式精简教程(JavaScript RegExp 对象)
  • LeetCode算法系列_0891_子序列宽度之和
  • Node + FFmpeg 实现Canvas动画导出视频
  • PAT A1017 优先队列
  • PAT A1120
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • ReactNative开发常用的三方模块
  • vue:响应原理
  • 案例分享〡三拾众筹持续交付开发流程支撑创新业务
  • 对JS继承的一点思考
  • 蓝海存储开关机注意事项总结
  • 前端性能优化--懒加载和预加载
  • 小程序 setData 学问多
  • const的用法,特别是用在函数前面与后面的区别
  • elasticsearch-head插件安装
  • 选择阿里云数据库HBase版十大理由
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • #我与Java虚拟机的故事#连载08:书读百遍其义自见
  • (3)选择元素——(17)练习(Exercises)
  • (DFS + 剪枝)【洛谷P1731】 [NOI1999] 生日蛋糕
  • (done) NLP “bag-of-words“ 方法 (带有二元分类和多元分类两个例子)词袋模型、BoW
  • (八)光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记
  • (顺序)容器的好伴侣 --- 容器适配器
  • (小白学Java)Java简介和基本配置
  • (一)pytest自动化测试框架之生成测试报告(mac系统)
  • .NET LINQ 通常分 Syntax Query 和Syntax Method
  • .NET Project Open Day(2011.11.13)
  • .net2005怎么读string形的xml,不是xml文件。
  • .Net环境下的缓存技术介绍
  • /dev下添加设备节点的方法步骤(通过device_create)
  • []T 还是 []*T, 这是一个问题
  • [Android 13]Input系列--获取触摸窗口
  • [BT]BUUCTF刷题第9天(3.27)
  • [BUUCTF NewStarCTF 2023 公开赛道] week3 crypto/pwn
  • [C#]C# winform实现imagecaption图像生成描述图文描述生成