当前位置: 首页 > news >正文

数据科学 第 3 章 11 字符串处理

本节是通过函数,查看值包含了哪些字符串,有点像搜索关键词
主要的函数是:
str.*()
str.len() 长度
str.contains() 包含**字符

书中用到的是通过查找关键词,查看包含这些原料的菜谱有哪些。 结合现在的,我觉得可以在处理推广数据时,通过设置好的参数来分析url中的用户来源。

查看了word列的字符串长度,平均搜索词的长度为8.8,75%是搜索词在10个以内,最长的有95个字符

df.word.str.len().describe()

Out:
count    2324.000000
mean        8.767642
std         4.695302
min         0.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        95.000000
Name: word, dtype: float64

查看字符大于50个的数据,执行代码后只有2条数据。

df[df.word.str.len() > 50]

# 如果想查看字符串长度大于30的数据有多少条,可以用
df[df.word.str.len() > 30].count()

Out:
date       15
id         15
word       15
rank1      15
number1    15
url        15
dtype: int64

-- 查找是否包含某些字符

str.contains

#word列包含‘家’字的数据是什么
df[df.word.str.contains('家')]

clipboard.png

还可以用input()的方法,来查找输入的字符是否在word列中

keyw = input()
df[df.url.str.contains(keyw)

clipboard.png

就这样,下节学习时间格式的处理,然后第3章就结束了,拜拜。

相关文章:

  • Elasticsearch 优化
  • 深入理解多线程(三)—— Java的对象头
  • 内存池原理大揭秘
  • Python3爬取英雄联盟英雄皮肤大图
  • (6)添加vue-cookie
  • win10下配置java jdk jre环境变量
  • 如何写一个日志采集工具
  • ubuntu linux下解决“no java virtual machine was found after searching the following locations:”的方法...
  • apollo-server 返回模拟数据
  • HTTP--网络协议分层,http历史(二)
  • Java编写基于netty的RPC框架
  • 使用python编写游戏修改器
  • 通过Eclipse 为java 项目生成Api 文档、JavaDoc
  • ios多个target
  • php去除html标签
  • axios请求、和返回数据拦截,统一请求报错提示_012
  • C++类中的特殊成员函数
  • Idea+maven+scala构建包并在spark on yarn 运行
  • JavaScript DOM 10 - 滚动
  • JavaScript 基本功--面试宝典
  • Netty 4.1 源代码学习:线程模型
  • Netty 框架总结「ChannelHandler 及 EventLoop」
  • Unix命令
  • 第2章 网络文档
  • 删除表内多余的重复数据
  • 通信类
  • 微服务入门【系列视频课程】
  • 我与Jetbrains的这些年
  • 吴恩达Deep Learning课程练习题参考答案——R语言版
  • 详解NodeJs流之一
  • 新版博客前端前瞻
  • 用 Swift 编写面向协议的视图
  • 选择阿里云数据库HBase版十大理由
  • #ifdef 的技巧用法
  • #前后端分离# 头条发布系统
  • $ git push -u origin master 推送到远程库出错
  • $redis-setphp_redis Set命令,php操作Redis Set函数介绍
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (floyd+补集) poj 3275
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (solr系列:一)使用tomcat部署solr服务
  • (ZT)出版业改革:该死的死,该生的生
  • (附源码)基于ssm的模具配件账单管理系统 毕业设计 081848
  • (轉貼)《OOD启思录》:61条面向对象设计的经验原则 (OO)
  • ****Linux下Mysql的安装和配置
  • .NET MVC第五章、模型绑定获取表单数据
  • .Net 知识杂记
  • .NET导入Excel数据
  • .Net的DataSet直接与SQL2005交互
  • .NET序列化 serializable,反序列化
  • ??myeclipse+tomcat
  • ?php echo $logosrc[0];?,如何在一行中显示logo和标题?
  • @取消转义