当前位置: 首页 > news >正文

解读:大数据分析及其数据来源

当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围。大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深入的了解。当然,大数据分析最核心的,关于数据的来源更是至关重要的。在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题。接下来,小编就带大家来了解下大数据分析及其数据来源。

解读:大数据分析及其数据来源

大数据分析

大数据分析,顾名思义,就是对规模巨大的数据进行分析,是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。

大数据分析的第一步是数据的“抽取—转换—加载”(the Extract-Transform-Load,ETL),这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。需要指出的是,尽管大数据分析有它的优势,但是也有很大的局限性。很多时候,大数据产生的相关关系可能是虚假的,在完全随机的数据中显示了某些规律,因为数据的量非常大,可能产生向各个方向辐射的各种联系,有可能会得到与事实完全相反的结论。但是只要数据足够大,数据挖掘总能发现一些相关关系,可以帮助我们发现趋势和异常情况。

数据来源

大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源。分为以下几类:

  1. 交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
  2. 移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。
  3. 人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
  4. 机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。
  5. 互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。

  6. 本文作者:小数点
  7. 来源:51CTO

相关文章:

  • general error c101008d: Failed to write the updated manifest to the resource of file
  • 容器如何访问外部世界?- 每天5分钟玩转 Docker 容器技术
  • 使用cookies实现浏览历史记录功能
  • 字符串类型内建方法归纳总结
  • 【随笔】也随便说说隐私的事情
  • Android MVC模式
  • 诗歌rails 之bundle
  • 第十七、十八周微职位:tomcat,MogileFS
  • JSON 入门
  • 解密回声消除技术之一(理论篇)
  • 流水号连续生成的问题解决方法
  • PyCharm常用设置
  • 不使用中间变量交换两个数
  • 阿里巴巴集团CTO张建锋兼任阿里云CTO
  • 转:Discuz!NT跨站缓存同步
  • @jsonView过滤属性
  • [笔记] php常见简单功能及函数
  • 【EOS】Cleos基础
  • 【React系列】如何构建React应用程序
  • 30天自制操作系统-2
  • input的行数自动增减
  • JavaScript实现分页效果
  • Joomla 2.x, 3.x useful code cheatsheet
  • Koa2 之文件上传下载
  • PAT A1017 优先队列
  • QQ浏览器x5内核的兼容性问题
  • SpiderData 2019年2月13日 DApp数据排行榜
  • Sublime Text 2/3 绑定Eclipse快捷键
  • 订阅Forge Viewer所有的事件
  • 动态魔术使用DBMS_SQL
  • 入口文件开始,分析Vue源码实现
  • 使用 Xcode 的 Target 区分开发和生产环境
  • 中国人寿如何基于容器搭建金融PaaS云平台
  • 中文输入法与React文本输入框的问题与解决方案
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • 昨天1024程序员节,我故意写了个死循环~
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • ​什么是bug?bug的源头在哪里?
  • #NOIP 2014# day.2 T2 寻找道路
  • #前后端分离# 头条发布系统
  • (C++17) std算法之执行策略 execution
  • (八)光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)
  • (算法设计与分析)第一章算法概述-习题
  • (转)iOS字体
  • (轉貼) UML中文FAQ (OO) (UML)
  • .locked1、locked勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .net core webapi 大文件上传到wwwroot文件夹
  • .net framework4与其client profile版本的区别
  • .NET Micro Framework初体验
  • .net websocket 获取http登录的用户_如何解密浏览器的登录密码?获取浏览器内用户信息?...
  • .NET业务框架的构建
  • @JsonSerialize注解的使用
  • @RequestMapping-占位符映射