当前位置：首页 > news >正文

Pandas 模块-操纵数据(12)-处理字符串数据

news 来源：原创 2024/9/21 2:50:26

1. .str 模块

1.1 数据准备

1.2 .str 函数详解

1.2.1 .str capitalize() 首字母大写

1.2.2 .str casefold() 返回字符串的副本

1.2.3 .str cat() 连接输出

1.2.4 .str center(width[,fillchar]) 字符串居中

1.2.5 .str contains() 含有特定字符

1.2.6 .str count() 计数

1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾

1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符

1.2.9 .str swapcase() 字符串大小写翻转

1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串

1.2.11 .str join(str]) 连接生成新字符串

1.2.12 .str replace(str1,str2]) str2 替换 str1

1.2.13 .str split(str[,num]) 用 str 分割字符串

1.2.14 .str translate(table) 字符转换

我们实际处理数据时候，往往要对原始数据进行很多精细化处理，下面减少一些常用的处理字符串的方式。

1. .str 模块

Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据）。Series 结构中有个 str 模块，可以对字符串数据进行精雕细琢。

1.1 数据准备

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bm', '456cj', '789du', 'e11fo']})
print(df)
type(df['data'])

1.2 .str 函数详解

1.2.1 .str capitalize() 首字母大写

df['data'].str.capitalize()

1.2.2 .str casefold() 返回字符串的副本

casefold 返回字符串的副本，所有的大写字符都被转换为小写字符，并且使用Unicode规范化，以便比较字符串时能够忽略大小写和语言差异。与lower()方法不同，casefold()方法在转换时考虑了更多的字符集和语言差异。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.casefold()

1.2.3 .str cat() 连接输出

cat 命令原来是一个Linux shell命令。它是 concatenate 的简写。它被放在最常用的shell命令中。它可以用于各种目的，如在终端上显示一个文件的内容，将一个给定文件的内容复制到另一个给定文件，追加和覆盖内容都可以用 cat 命令完成。在 Python 中它用来连接所有的数据一起输出

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.cat()

1.2.4 .str center(width[,fillchar]) 字符串居中

center()是一个非常实用的方法。该方法主要用于将字符串居中，并在两侧填充指定字符（默认为空格）以达到指定的总长度。对于文本格式化、界面设计以及数据展示等场景，center()方法都能提供高效的解决方案。

width：指定字符串居中后的总长度，如果该长度小于原字符串长度，则原样返回字符串。
fillchar：可选参数，用于指定填充字符，默认为空格。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.center(20,"*")

1.2.5 .str contains() 含有特定字符

contains 方法可以判断子串是否在原字符串中。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.contains("M")

1.2.6 .str count() 计数

count 用于计算给定元素在字符串中出现的次数。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.count("(\d)")

1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾

endswith() 方法用于判断字符串是否以指定后缀结尾，如果以指定后缀结尾返回True，否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.endswith('\d')

1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符

extract 方法用于提取正则表达式pat中的捕获组作为DataFrame中的列。对于系列中的每个主题字符串，从正则表达式pat的第一个匹配中提取组。

        pat : 带有捕获组的正则表达式模式。
        flags : int, default 0 (no flags)
        expand : 如果为真，则返回每个捕获组有一列的DataFrame。

df['data'].str.extract("(\d+)")

1.2.9 .str swapcase() 字符串大小写翻转

df['data'].str.swapcase()

1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串

find() 方法检测字符串中是否包含子字符串 str ，如果指定 beg（开始）和 end（结束）范围，则检查是否包含在指定范围内，如果包含子字符串返回开始的索引值，否则返回-1。

str -- 指定检索的字符串
beg -- 开始索引，默认为0。
end -- 结束索引，默认为字符串的长度。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.find('a'))
print(df['data'].str.findall('a'))

1.2.11 .str join(str]) 连接生成新字符串

join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.join("-"))

1.2.12 .str replace(str1,str2]) str2 替换 str1

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.replace("a","A"))

1.2.13 .str split(str[,num]) 用 str 分割字符串

split 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.split("\d"))

1.2.14 .str translate(table) 字符转换

translate 用于执行字符转换操作。它接受一个映射表（translation table）作为参数，该映射表指定了要替换的字符以及它们的对应替换值。

import pandas as pd
# 创建一个示例 DataFrame
df = pd.DataFrame({'data': ['12345', '57890', '22222', '77777']})
table = str.maketrans( '0123456789','abcdefghij')
df['data'].str.translate(table)