当前位置: 首页 > news >正文

数理统计(二)-数据的类型和基本概念

####################################################################################

文章内容引用自:http://blog.csdn.net/u012149341/article/details/50190029,并对其加以个人描述,本文章不做任何商业用途仅供学习梳理,若有侵权行为请联系留言。

####################################################################################

眼下数据科学如此火热,入了金融ML的坑才发现,要补的知识实在是太多了,打算从今天起,时常整理一些自己了解的学到的知识,分享给大家。

一来整理在这里的知识,自己看着也方便;

二来给自己个恒心,不要半途而废。

今天就从统计学开始,想入坑的各位同学,记得培养自己对数据的Sense,很有必要。

1.什么是统计学?

统计学(Statistics),是收集、处理、分析、解释数据并从数据中得出结论的科学。

——统计学是关于数据的科学,它所提供的是一整套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。


2.数据分析所用的方法可分为描述统计方法和推断统计方法。


描述统计方法 (descriptive statistics)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。


推断统计 (inferential statistics)是研究如何利用样本数据来推断总体特征的统计方法。


3.统计数据

统计数据 是对现象进行测量的结果。

——比如,对股票价格变动水平的测量可以得到股票价格指数的数据;


3.1 分类数据、顺序数据、数值型数据(数据是实体)

按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据

——计量尺度分四种:(1)分类尺度(数据表现为类别);(2)顺序尺度(数据表现为有序的类别);(3)间隔尺度(数据表现为数字,没有绝对零点);(4)比率尺度(数据表现为数字,但是有绝对零点);


分类数据 (categorical data)是只能归于某一类别的非数字型数据,它是对事务进行分类的结果,数据表现为类别,是用文字来表述的。(可以认为分类数据的类别之间是平行的)


顺序数据 (rank data)是只能归于某一有序类别的非数字型数据。(顺序数据虽然也是类别,但是这些类别是有序的)


数据型数据 (metric data)是按数字尺度测量的观测值,其结果表现为具体的数值。

(分类数据和顺序数据说明的是事务的品质特征,通常是用文字来描述的,其结果均表现为类别,因而也可以统称为 定性数据 或 品质数据(qualitative data)

    数值型数据说明的是现象的数量特征,通常是数值来表现的,因此也可以成为定量数据或数量数据(quantitative data))


3.2 时间序列数据(time series data)

实在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的数据(如2010--2012年我国的国内生产总值数据就是时间序列数据)


4.参数和统计量

参数 (parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。(总体平均数、总体标准差、总体比例)


统计量 (statistic)是用来描述样本特征的概括性数字度量。(样本平均数、样本标准差、原本比例)


——统计量是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。

——一些为统计分析的需要而构造出来的统计量,如统计检验的z统计量、t统计量、(x方)统计量,F统计量等。

5.变量

变量 (variable)是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额,受教育程度,产品的质量等级等)

分类变量 (categorical variable)是说明事务类别的一个名称,其取值是分类数据。(如,性别 作为一个分类变量,其变量值为 男 或 女)

顺序变量 (rank variable)是说明事务有序类别的一个名称,其取值是顺序数据。(如,产品等级 作为一个顺序变量,其变量值可以为 一等品,二等品,三等品,次品 等)

数值型变量 (metric variable)是说明事务数字特征的一个名称,其取值是数值型数据。(如,产品产量,商品销售额,零件尺寸,年龄)

——离散型变量 (discrete variable)是只能取可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举

——连续型变量 (continuous variable)是可以在一个或多个区间中取任何值得变量,它的取值是连续不断的,不能一一列举(年龄,温度,两件尺寸的误差)

<<<在对社会和经济问题的研究中,当离散型变量的取值很多时,也可以将离散型变量当做连续型变量来处理>>>

相关文章:

  • 通过matlab实现正交表
  • 基于TP-LINK(AC1200)主路由器+FAST(FWR303)副路由器的桥接(中继)信号放大
  • matlab怎么找出一串数中的连续的数字
  • C#+VTK+VS2010环境配置---方法1
  • C#+VTK+VS2010环境配置--方法2
  • Qt Creator下载和安装(详细教程)
  • java绘制图片验证码两种方式实现,点击【图片】刷新和点击【看不清换一张】刷新
  • java 验证码实现
  • Servlet中doGet和doPost方法有何区别?
  • form表单
  • 关于struts2中ActionContext的实现原理
  • Struts2 form表单的action和onsubmit事件说明
  • Struts2(二)---将页面表单中的数据提交给Action
  • UUID
  • BigInteger
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • css系列之关于字体的事
  • es6
  • ES学习笔记(12)--Symbol
  • JAVA_NIO系列——Channel和Buffer详解
  • JavaScript函数式编程(一)
  • Java的Interrupt与线程中断
  • js递归,无限分级树形折叠菜单
  • JS实现简单的MVC模式开发小游戏
  • Lucene解析 - 基本概念
  • magento2项目上线注意事项
  • PAT A1092
  • PHP 7 修改了什么呢 -- 2
  • PHP变量
  • react-native 安卓真机环境搭建
  • SSH 免密登录
  • Theano - 导数
  • use Google search engine
  • 开源地图数据可视化库——mapnik
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 算法系列——算法入门之递归分而治之思想的实现
  • HanLP分词命名实体提取详解
  • #每日一题合集#牛客JZ23-JZ33
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • (02)Cartographer源码无死角解析-(03) 新数据运行与地图保存、加载地图启动仅定位模式
  • (day6) 319. 灯泡开关
  • (javascript)再说document.body.scrollTop的使用问题
  • (libusb) usb口自动刷新
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (每日持续更新)jdk api之FileReader基础、应用、实战
  • (免费领源码)Python#MySQL图书馆管理系统071718-计算机毕业设计项目选题推荐
  • (转)jQuery 基础
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • ***检测工具之RKHunter AIDE
  • ... fatal error LINK1120:1个无法解析的外部命令 的解决办法
  • .NET CLR Hosting 简介
  • .net framework 4.0中如何 输出 form 的name属性。
  • .NET/C# 使用 #if 和 Conditional 特性来按条件编译代码的不同原理和适用场景
  • .NET框架类在ASP.NET中的使用(2) ——QA
  • .net网站发布-允许更新此预编译站点