当前位置: 首页 > news >正文

100天精通Python(数据分析篇)——第56天:Pandas读写txt和csv文件(read_csv、to_csv)

在这里插入图片描述

文章目录

  • 每篇前言
  • 一、文本文件
    • 1. read_csv()
      • skiprows
      • nrows
      • index_col
      • names
    • 2. to_csv()
      • sep
      • na_rep
      • columns
      • header
      • index

每篇前言

  • 🏆🏆作者介绍:Python领域优质创作者、华为云享专家、阿里云专家博主、2021年CSDN博客新星Top6

  • 🔥🔥本文已收录于Python全栈系列专栏:《100天精通Python从入门到就业》
  • 📝​📝​此专栏文章是专门针对Python零基础小白所准备的一套完整教学,从0到100的不断进阶深入的学习,各知识点环环相扣
  • 🎉🎉订阅专栏后续可以阅读Python从入门到就业100篇文章还可私聊进两百人Python全栈交流群(手把手教学,问题解答); 进群可领取80GPython全栈教程视频 + 300本计算机书籍:基础、Web、爬虫、数据分析、可视化、机器学习、深度学习、人工智能、算法、面试题等。
  • 🚀🚀加入我一起学习进步,一个人可以走的很快,一群人才能走的更远!

在这里插入图片描述
在这里插入图片描述

一、文本文件

文本文件,主要包括csv和txt两种等,相应接口为read_csv()和to_csv(),分别用于读写数据

1. read_csv()

格式代码:

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None

常用参数

  • filepath_or_buffer:文件路径
  • sep=',':默认以,为数据分隔符
  • skiprows:跳过前几行
  • nrows :只读前几行
  • parse_dates = [‘col_name’]:指定某行读取为日期格式
  • index_col = [‘col_1’,‘col_2’]:读取指定的几列
  • error_bad_lines = False :当某行数据有问题时,不报错,直接跳过,处理脏数据时使用
  • na_values = ‘NULL’:将NULL识别为空值
  • header = 0:表示以数据的第一行为列索引
  • encoding = “utf-8”:表明以utf-8为编码规则。
  • names = range(0,50)):表示以[0…49]为列索引的名字

(1)读取csv文件:

>>> import pandas as pd
>>>
>>> df = pd.read_csv(r"E:\Python学习\test.csv")
>>> print(df)
  name  age
0   小红   10
1   小明   20
2   小白   30
>>> print(type(df))
<class 'pandas.core.frame.DataFrame'>
>>> # 行和列
>>> print(df.shape)
(3, 2)
>>> print(list(df.columns))
['name', 'age']

(2)读取txt文件:

>>> df = pd.read_csv(r"E:\Python学习\test.txt")
>>> print(df)
   北京
0  上海
1  成都
2  深圳
3  广州
4  广东

skiprows

跳过前n行


>>> df = pd.read_csv(r"E:\Python学习\test.csv", skiprows=2)
>>> print(df)
   小明  20
0  小白  30

nrows

只读前几行

>>> df = pd.read_csv(r"E:\Python学习\test.csv", nrows =2)
>>> print(df)
  name  age
0   小红   10
1   小明   20

index_col

index_col = [‘col_1’,‘col_2’]:读取指定的几列。整数或者字符串或者整数/字符串列表。指定用作的行标签的列。

感觉有问题,和我想象中不同:


>>> df = pd.read_csv(r"E:\Python学习\test.csv", index_col  =['name'])
>>> print(df)
      age
name
小红     10
小明     20
小白     30
>>> df = pd.read_csv(r"E:\Python学习\test.csv", index_col=1)
>>> print(df)
    name
age
10    小红
20    小明
30    小白

names

names = range(0,50):表示以[0…49]为列索引的名字

不与header=0共同使用:

>>> df = pd.read_csv(r"E:\Python学习\test.csv", names=['姓名', '年龄'])
>>> print(df)
     姓名   年龄
0  name  age
1    小红   10
2    小明   20
3    小白   30

header=0共同使用:

>>> df = pd.read_csv(r"E:\Python学习\test.csv", header=0, names=['姓名', '年龄'])
>>> print(df)
   姓名  年龄
0  小红  10
1  小明  20
2  小白  30

2. to_csv()

格式代码:

pd.to_csv(path_or_buf,sep,na_rep,columns,header,index)

常用参数:

  • path_or_buf:str:放文件名、相对路径、文件流等。

  • sep:分隔符。与read_csv()中sep参数意思一样。

  • na_rep:将NaN转换为特定值。

  • columns:指定哪些列写进去。

  • header;默认header=0,如果没有表头,设置header=None。

  • index:关于索引的,默认True,写入索引。

(1)写入csv文件:

>>> import pandas as pd
>>>
>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> print(df)
   A  B    C
0  1  2  NaN
1  3  4  5.0
>>> print(type(df))
<class 'pandas.core.frame.DataFrame'>
>>> df.to_csv('test1.csv')
>>>

可以看到生成了新文件:
在这里插入图片描述
我们读取看看:

>>> df1 = pd.read_csv(r"test1.csv", header=0, encoding="utf-8")
>>> print(df1)
   A  B    C
0  1  2  NaN
1  3  4  5.0

(2)写入txt文件:

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test1.txt')

生成新文件:
在这里插入图片描述

sep

设置分隔符


>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test2.csv', sep=';') # 设置;号为分割符

可以看到分隔符为分号:
在这里插入图片描述

na_rep

na_rep:将NaN转换为特定值。


>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test3.csv', na_rep='100') # 空值替换为100
>>>
>>> df1 = pd.read_csv('test3.csv')
>>> print(df1)
   Unnamed: 0  A  B      C
0           0  1  2  100.0
1           1  3  4    5.0

columns

columns:指定哪些列写进去。


>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test4.csv', columns=['A','B']) # 只写入A、B列
>>>
>>> df1 = pd.read_csv('test4.csv')
>>> print(df1)
   Unnamed: 0  A  B
0           0  1  2
1           1  3  4

header

header;默认header=0,如果没有表头,设置header=None。


>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test5.csv', header=None)
>>>
>>> df1 = pd.read_csv('test5.csv')
>>> print(df1)
   0  1  2  Unnamed: 3
0  1  3  4         5.0

index

index:关于索引的,默认True,写入索引

不保留索引:

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test6.csv', index=False)
>>>
>>> df1 = pd.read_csv('test6.csv')
>>> print(df1)
   A  B    C
0  1  2  NaN
1  3  4  5.0

相关文章:

  • 【开发小记】vue项目优化
  • 1、javaweb学习知识简析
  • 【Linux操作系统】基础概念和常用指令(一)
  • 类和对象·默认成员函数
  • Elastic Stack(elk+filebeat)
  • PyTorchの可视化工具
  • LeetCode279:完全平方数,动态规划解法超过46%,作弊解法却超过97%
  • docker安装以及运行nacos、rabbitmq、MySQL容器小记
  • S7-200SMART PLC进行MODBUS通信轮询时掉站处理和错误信息提取的具体方法演示
  • Transformer - Attention Is All You Need - 跟李沐学AI
  • c语言qsort函数使用教程
  • Android修行手册 - TabLayout全解析(下)-监听和示例
  • Java面试高频面试题总结
  • 手把手教你电机FOC控制【一】
  • 【Java面向对象】封装的认识与实现
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • 【附node操作实例】redis简明入门系列—字符串类型
  • Apache Pulsar 2.1 重磅发布
  • ECMAScript6(0):ES6简明参考手册
  • ES6核心特性
  • httpie使用详解
  • Intervention/image 图片处理扩展包的安装和使用
  • Java 11 发布计划来了,已确定 3个 新特性!!
  • JavaScript 基本功--面试宝典
  • Lucene解析 - 基本概念
  • Mysql优化
  • Python实现BT种子转化为磁力链接【实战】
  • React的组件模式
  • Spring Cloud中负载均衡器概览
  • Theano - 导数
  • 对象引论
  • 高度不固定时垂直居中
  • 回顾 Swift 多平台移植进度 #2
  • 解析带emoji和链接的聊天系统消息
  • 漫谈开发设计中的一些“原则”及“设计哲学”
  • 使用docker-compose进行多节点部署
  • 数组大概知多少
  • 一、python与pycharm的安装
  • python最赚钱的4个方向,你最心动的是哪个?
  • Unity3D - 异步加载游戏场景与异步加载游戏资源进度条 ...
  • ​iOS实时查看App运行日志
  • ​Python 3 新特性:类型注解
  • ​软考-高级-系统架构设计师教程(清华第2版)【第9章 软件可靠性基础知识(P320~344)-思维导图】​
  • ​业务双活的数据切换思路设计(下)
  • #职场发展#其他
  • (1)STL算法之遍历容器
  • (21)起落架/可伸缩相机支架
  • (Matalb分类预测)GA-BP遗传算法优化BP神经网络的多维分类预测
  • (Note)C++中的继承方式
  • (Redis使用系列) SpirngBoot中关于Redis的值的各种方式的存储与取出 三
  • (Ruby)Ubuntu12.04安装Rails环境
  • (二)fiber的基本认识
  • (二)斐波那契Fabonacci函数
  • (翻译)Entity Framework技巧系列之七 - Tip 26 – 28
  • (附源码)ssm高校升本考试管理系统 毕业设计 201631