当前位置: 首页 > news >正文

pandas:读取各类文件方法以及爬虫时json数据保存

文件的读取与写入

| 常用读文件方法 | 说明             |
| -------------- | ---------------- |
| read_csv       | 读取CSV文件      |
| read_excel     | 读取Excel文件    |
| read_html      | 读取网页HTML文件 |
| read_table     | 通用读取方法     |

| 常用写文件方法 | 说明        |
| -------------- | ----------- |
| to_csv         | 写csv文件   |
| to_excel       | 写Excel文件 |

1、读取文件常用的参数


pandas.read_csv(
    filepath_or_buffer=None,
    sep=',',
    delimiter=None,
    header=None,
    names=None,
    index_col=None,
    usecols=None,
    skiprows=None,
    na_values=None,
    nrows=None,
    chunksize=None,
    encoding=None,
):
 

| 参数               | 说明                                                         |
| ------------------ | ------------------------------------------------------------ |
| filepath_or_buffer | 读取文件的路径或对象                                         |
| sep/delimiter      | 输出文件的字段分隔符, 默认字符","                            |
| header             | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |
| names              | 自定义列名/列索引                                            |
| index_col          | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |
| usecols            | 只读取选中的列                                               |
| skiprows           | 跳过行读取                                                   |
| na_values          | 个性化数据,将指定的数据变为缺失值NaN                         |
| nrows              | 数据按指定行显示                                             |
| chunksize          | 数据按指定行进行分块                                         |
| encoding           | 设置编码格式                                                 |

注意事项:

1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的

 2、写入文件参数

```
df.to_csv(
    path_or_buf=None,
    sep=',',
    columns=None,
    header=True,
    index_lable=None,
    index=True,
    encoding=None,)
```

| 参数        | 说明                               |
| ----------- | ---------------------------------- |
| path_or_buf | 写入文件的路径或对象               |
| sep         | 输出文件的字段分隔符, 默认字符","  |
| columns     | 空值写入后的顺序,也可选列写入      |
| header      | 布尔值,默认为True,写入列名称(索引) |
| index_label | 选择列作为 行索引                  |
| index       | 布尔值,默认为True,写入行名称(索引) |
| encoding    | 设置写入的编码格式                 |

excel表格读取写入特点

所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点

1、写入excel文件需要依赖模块-openpyxl

```python
安装: pip install openpyxl
```

2、读取excel文件需要依赖模块-xlrd

```
安装: pip install xlrd


df.to_excel(
        excel_writer,
        sheet_name="Sheet1",
        columns=None,
        header=True,
        index=True,
        index_label=None,
        encoding=None,
    )
```

| 特有的参数   | 说明                |
| ------------ | ------------------- |
| excel_writer | ExcelWriter目标路径 |
| sheet_name   | excel工作表名命名   |

- read_excel


pandas.read_excel(
    io,
    sheet_name=0,
    header=0,
    names=None,
    index_col=None,
    usecols=None,
    skiprows=None,
    nrows=None,
    na_values=None,
)
```

| 特有的参数 | 说明                                                         |
| ---------- | ------------------------------------------------------------ |
| io         | excel路径                                                    |
| sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |

当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • RabbitMQ 07 另两种集群方式 warren(主备模式),shovel(远程模式)
  • PHP常用正则表达式大全
  • 快速傅里叶变换(FFT)时,所需指定的FFT点数如何选择
  • 【秋招笔试-支持在线评测】9.19小米秋招(已改编)-三语言题解
  • Linux - iptables防火墙
  • Flask项目入门和视图
  • 监控IDS和IPS增强网络安全性
  • 基于物联网的火灾报警器设计与实现(论文+源码)
  • 客户案例:CACTER硬件网关精准防护,助力互联网企业安全升级
  • YOLOv5/v8 + 双目相机测距
  • PrintPreviewDialog控件里面,预览好了按下打印按钮触发什么事件
  • sqlserver 合并重复行数据,取有值的字段
  • 【题解】CF1983E
  • Python redis 安装和使用介绍
  • 计算机考研408-计算机网络
  • @jsonView过滤属性
  • angular2开源库收集
  • Git初体验
  • java概述
  • JDK 6和JDK 7中的substring()方法
  • Js基础——数据类型之Null和Undefined
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • TypeScript迭代器
  • vue+element后台管理系统,从后端获取路由表,并正常渲染
  • 技术:超级实用的电脑小技巧
  • 数组的操作
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • 通过调用文摘列表API获取文摘
  • 小白应该如何快速入门阿里云服务器,新手使用ECS的方法 ...
  • ​经​纬​恒​润​二​面​​三​七​互​娱​一​面​​元​象​二​面​
  • (4)事件处理——(2)在页面加载的时候执行任务(Performing tasks on page load)...
  • (JSP)EL——优化登录界面,获取对象,获取数据
  • (十) 初识 Docker file
  • (十)c52学习之旅-定时器实验
  • (四)linux文件内容查看
  • (转)Android学习笔记 --- android任务栈和启动模式
  • (转载)利用webkit抓取动态网页和链接
  • (自用)交互协议设计——protobuf序列化
  • .Family_物联网
  • .Net Core 笔试1
  • .net core 依赖注入的基本用发
  • .Net Core缓存组件(MemoryCache)源码解析
  • .NET 中 GetProcess 相关方法的性能
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)
  • .NET应用UI框架DevExpress XAF v24.1 - 可用性进一步增强
  • @for /l %i in (1,1,10) do md %i 批处理自动建立目录
  • [《百万宝贝》观后]To be or not to be?
  • [16/N]论得趣
  • [ai笔记9] openAI Sora技术文档引用文献汇总
  • [android] 天气app布局练习
  • [bzoj 3124][sdoi 2013 省选] 直径
  • [Git 1]基本操作与协同开发
  • [hdu 4552] 怪盗基德的挑战书
  • [ios]准备好app后使用xcode发布ios操作
  • [JMS 3] ActiveMQ实现简单的helloworld