当前位置：首页 > news >正文

MOOC python数据分析（2）数据存取/随机数函数

news 来源：原创 2024/9/20 15:40:12

一、系列文章目录

（1）Numpy
（2）数据存取/随机数函数
（3）PIL库/图像处理
（4）Matplotlib库
（5）Pandas库

文章目录

一、系列文章目录
二、CSV文件
- 多维数据存取
- 便捷文件存取
- 随机数函数
- 统计函数
- 梯度函数

二、CSV文件

CSV (Comma‐Separated Value, 逗号分隔值)CSV是一种常见的文件格式，用来存储批量数据。但只能有效存储一维和二维数组。

写入CSV文件的方法：

np.savetxt(frame, array, fmt='%.18e', delimiter=None)

可以写为任何文件，但一般用于保存为CSV文件。
• frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件。文件名字和格式，例如a.csv。
• array : 存入文件的数组。
• fmt : 写入文件的格式，例如：%d(十进制整数) %.2f(float后的小数输出两位) %.18e（科学计数法，保留18位）默认 %.18e，一般改为%d
• delimiter : 分割字符串，默认是任何空格，要求我们定义为逗号。delimiter = ’ , ’

将CSV中的内容读入数组的方法：

np.loadtxt(frame, dtype=np.float, delimiter=None， unpack=False)

• frame : 文件名和格式。
• dtype : 数据类型，可选
• delimiter : 分割字符串，默认是任何空格
• unpack : 如果True，读入属性将分别写入不同变量

多维数据存取

存

a.tofile(frame, sep='', format='%s')

• frame : 文件、字符串
• sep : 数据分割字符串，如果不设置，写入文件为二进制。二进制比较省空间，仅用于数据备份。
• format : 写入数据的格式
写好的文件没有维度信息

取

np.fromfile(frame, dtype=float, count=‐1, sep='')

• frame : 文件、字符串
• dtype : 读取的数据类型
• count : 读入元素个数，‐1表示读入整个文件
• sep : 数据分割字符串，如果是空串，读入文件为二进制

读入的数据没有维度信息

该方法需要读取时知道存入文件时数组的维度和元素类型，a.tofile()和np.fromfile()需要配合使用，可以在写一个文件，通过元数据文件来存储额外信息。

便捷文件存取

二进制存储，文件内有数据类型、维度等信息

np.save(fname, array) 
np.savez(fname, array) #压缩版

• fname : 文件名，以.npy为扩展名，压缩扩展名为.npz
• array : 数组变量

np.load(fname)

• fname : 文件名，以.npy为扩展名，压缩扩展名为.npz

随机数函数

np.random.rand (shape) [0，1)，均匀分布
np.random.randn(shape）正态分布
np.random.randint(low,high,(shape)) 整数[low,high）均匀分布
np.random.seed（随机数种子）调用同一个随机数种子，可以得到相同的随机数

在这里插入图片描述
shuffel(a) 按照最外维度对a乱序，改变a
permutation(a) 同shuffel，生成新数组，不改变a

choice(a,size,replace,p) 在a中按照概率p（一般设为与元素有关的函数）抽取元素，replace表示是否允许重复抽取，不设置默认可以重复。不设置p则等概率。