当前位置: 首页 > news >正文

pandas 查找数据

这里选取的数据集为 conceptNet5 的中文数据集

data = pd.read_csv(FILE, delimiter='\t')
data.columns = ['uri', 'relation', 'start', 'end', 'json']

在这里插入图片描述

使用布尔运算

使用计时器参见:【python 代码计时】

with Timer() as t:
    data[data['start'].str.contains('zh') & data['end'].str.contains('zh')]
'''
[time spent: 0.57s]
'''

这个速度还比较快了
在这里插入图片描述

使用 apply 方法

with Timer() as t:
    data[data.apply(lambda row: 'zh' in row['start'] and 'zh' in row['end'],axis=1)]
'''
[time spent: 9.03s]
'''

apply 是逐行遍历,看来没有做并行优化,

然鹅!上面的代码是有问题的!是可以优化的!

最大的问题就是上面的代码把不相关的列也牵扯了进来,正确的写法应该是:

with Timer() as t:
	data[data['start'].apply(lambda row: row.find('zh')>0) & data['end'].apply(lambda row: row.find('zh')>0)]
'''
[time spent: 0.33s]
'''

速度提升令人震惊!

相关文章:

  • SUN发布JavaFX...
  • ConceptNet
  • 如何制作倒影
  • pyecharts 标记指定经纬度
  • Photoshop制作倒影字
  • folium 可视化地理数据
  • geoJson 下载
  • 绚丽多彩Photoshop打造水中倒影
  • 概率图模型
  • PhotoShop的字体安装及制作文字特效
  • 艺术字体 Photoshop滤镜打造线框特效美术字
  • python topk
  • Photoshop 7.0做发光字体
  • win10 安装 lapack + blas
  • 用Photoshop制作钻石字
  • 【跃迁之路】【477天】刻意练习系列236(2018.05.28)
  • Android 架构优化~MVP 架构改造
  • CentOS 7 修改主机名
  • create-react-app项目添加less配置
  • ES6--对象的扩展
  • JavaWeb(学习笔记二)
  • JS正则表达式精简教程(JavaScript RegExp 对象)
  • php ci框架整合银盛支付
  • Python 反序列化安全问题(二)
  • Python利用正则抓取网页内容保存到本地
  • Redis的resp协议
  • RxJS: 简单入门
  • Vue 2.3、2.4 知识点小结
  • 阿里云购买磁盘后挂载
  • 简析gRPC client 连接管理
  • 前端自动化解决方案
  • 数组的操作
  • 详解NodeJs流之一
  • 小程序 setData 学问多
  • 东超科技获得千万级Pre-A轮融资,投资方为中科创星 ...
  • 哈罗单车融资几十亿元,蚂蚁金服与春华资本加持 ...
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (TipsTricks)用客户端模板精简JavaScript代码
  • (二十一)devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布
  • (十)T检验-第一部分
  • (转)Java socket中关闭IO流后,发生什么事?(以关闭输出流为例) .
  • (转)项目管理杂谈-我所期望的新人
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • ****** 二十三 ******、软设笔记【数据库】-数据操作-常用关系操作、关系运算
  • .net专家(高海东的专栏)
  • .Net转Java自学之路—SpringMVC框架篇六(异常处理)
  • [ 数据结构 - C++]红黑树RBTree
  • [.net 面向对象程序设计进阶] (19) 异步(Asynchronous) 使用异步创建快速响应和可伸缩性的应用程序...
  • [c++] 什么是平凡类型,标准布局类型,POD类型,聚合体
  • [cb]UIGrid+UIStretch的自适应
  • [excel与dict] python 读取excel内容并放入字典、将字典内容写入 excel文件
  • [hive] sql中distinct的用法和注意事项
  • [Intel Edison开发板] 05、Edison开发基于MRAA实现IO控制,特别是UART通信