MOOC python数据分析(2)数据存取/随机数函数
一、系列文章目录
(1)Numpy
(2)数据存取/随机数函数
(3)PIL库/图像处理
(4)Matplotlib库
(5)Pandas库
文章目录
- 一、系列文章目录
- 二、CSV文件
- 多维数据存取
- 便捷文件存取
- 随机数函数
- 统计函数
- 梯度函数
二、CSV文件
CSV (Comma‐Separated Value, 逗号分隔值)CSV是一种常见的文件格式,用来存储批量数据。但只能有效存储一维和二维数组。
写入CSV文件的方法:
np.savetxt(frame, array, fmt='%.18e', delimiter=None)
可以写为任何文件,但一般用于保存为CSV文件。
• frame : 文件、字符串或产生器,可以是.gz或.bz2的压缩文件。文件名字和格式,例如a.csv。
• array : 存入文件的数组。
• fmt : 写入文件的格式,例如:%d(十进制整数) %.2f(float后的小数输出两位) %.18e(科学计数法,保留18位) 默认 %.18e,一般改为%d
• delimiter : 分割字符串,默认是任何空格,要求我们定义为逗号。delimiter = ’ , ’
将CSV中的内容读入数组的方法:
np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)
• frame : 文件名和格式。
• dtype : 数据类型,可选
• delimiter : 分割字符串,默认是任何空格
• unpack : 如果True,读入属性将分别写入不同变量
多维数据存取
存
a.tofile(frame, sep='', format='%s')
• frame : 文件、字符串
• sep : 数据分割字符串,如果不设置,写入文件为二进制。二进制比较省空间,仅用于数据备份。
• format : 写入数据的格式
写好的文件没有维度信息
取
np.fromfile(frame, dtype=float, count=‐1, sep='')
• frame : 文件、字符串
• dtype : 读取的数据类型
• count : 读入元素个数,‐1表示读入整个文件
• sep : 数据分割字符串,如果是空串,读入文件为二进制
读入的数据没有维度信息
该方法需要读取时知道存入文件时数组的维度和元素类型,a.tofile()和np.fromfile()需要配合使用,可以在写一个文件,通过元数据文件来存储额外信息。
便捷文件存取
二进制存储,文件内有数据类型、维度等信息
np.save(fname, array)
np.savez(fname, array) #压缩版
• fname : 文件名,以.npy为扩展名,压缩扩展名为.npz
• array : 数组变量
np.load(fname)
• fname : 文件名,以.npy为扩展名,压缩扩展名为.npz
随机数函数
- np.random.rand (shape) [0,1),均匀分布
- np.random.randn(shape) 正态分布
- np.random.randint(low,high,(shape)) 整数[low,high)均匀分布
- np.random.seed(随机数种子) 调用同一个随机数种子,可以得到相同的随机数
shuffel(a) 按照最外维度对a乱序,改变a
permutation(a) 同shuffel,生成新数组,不改变a
choice(a,size,replace,p) 在a中按照概率p(一般设为与元素有关的函数)抽取元素,replace表示是否允许重复抽取,不设置默认可以重复。不设置p则等概率。
统计函数
- sum(a,axis=None)axis指定维度,默认全部元素
- mean(a,axis=None)
- average(a,axis=None,weights=None)加权平均值
- std(a,axis=None) 标准差
- var(a,axis=None) 方差
- min max
- argmin argmax 扁平化后的位置
- median 中位数 浮点数
- ptp(a) 极差
- unravel_index(index, shape) 根据shape将一维下标index转换成多维下标
梯度函数
np.gradient(f) 计算元素梯度,当f为多维时,返回每个维度的梯度。
22= (40-18)/ 1