当前位置: 首页 > news >正文

爬虫与DataFrame对象小小结合

import pandas as pd
import requests
from lxml import etree
#数据请求
url="https://www.maigoo.com/brand/list_1715.html"
headers={'User-Agent':''}
#数据响应
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
#数据解析
title=tree.xpath('.//div[@class="info"]/a/text()')
company=tree.xpath('.//div[@class="info"]//span//text()')
company=" ".join(company).replace('(', '').replace(')', '')#获取数据,进行简单的处理,转成列表类型暂存数据。
company=company.split('  ')
content=tree.xpath('.//div[@class="rongyu dhidden2 c888"]/text()')
adress=tree.xpath('.//div[@class="brandlogo"]/a/@href')
picture=tree.xpath('.//div[@class="brandlogo"]//img/@src')
#数据保存
for i in title,content,adress,picture:data = pd.DataFrame([title,company,content,adress,picture],index=['title','company','content','adress','picture'])
print(data.T)

---如有侵权,请即使联系。谢谢~

相关文章:

  • [创业之路-99/管理者与领导者-141] :绩效管理-1-绩效管理是一把手工程、是系统工程、是化繁为简工程
  • 【Flutter】IOS运行工程二次启动崩溃问题。
  • Transformer家族
  • 汽车IVI中控开发入门及进阶(十四):功能安全
  • Spring Boot+Vue前后端分离项目如何部署到服务器
  • 基于YOLOv8深度学习的野外火焰烟雾检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测
  • 2024年AI辅助研发:科技创新的引擎
  • 【C++ vector 类】
  • Selenium操作浏览器,弹出文件选择框,实现自动选定“目标文件”
  • 链表的简单概念
  • Python 单元测试
  • 3 模型评估
  • 设计模式 单例模式
  • idea远程服务器debug
  • 关于vue项目浏览器debugger失效问题
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • 【5+】跨webview多页面 触发事件(二)
  • 【EOS】Cleos基础
  • 【跃迁之路】【699天】程序员高效学习方法论探索系列(实验阶段456-2019.1.19)...
  • docker-consul
  • el-input获取焦点 input输入框为空时高亮 el-input值非法时
  • Java|序列化异常StreamCorruptedException的解决方法
  • Java应用性能调优
  • Theano - 导数
  • vue.js框架原理浅析
  • 等保2.0 | 几维安全发布等保检测、等保加固专版 加速企业等保合规
  • 分布式熔断降级平台aegis
  • 简单数学运算程序(不定期更新)
  • 聚类分析——Kmeans
  • 可能是历史上最全的CC0版权可以免费商用的图片网站
  • 聊聊flink的TableFactory
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 如何用Ubuntu和Xen来设置Kubernetes?
  • 如何优雅地使用 Sublime Text
  • 温故知新之javascript面向对象
  • 小程序上传图片到七牛云(支持多张上传,预览,删除)
  • 写给高年级小学生看的《Bash 指南》
  • 运行时添加log4j2的appender
  • 在weex里面使用chart图表
  • hi-nginx-1.3.4编译安装
  • mysql面试题分组并合并列
  • 如何在招聘中考核.NET架构师
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • #android不同版本废弃api,新api。
  • $分析了六十多年间100万字的政府工作报告,我看到了这样的变迁
  • (4)(4.6) Triducer
  • (6)STL算法之转换
  • (Matalb分类预测)GA-BP遗传算法优化BP神经网络的多维分类预测
  • (Redis使用系列) Springboot 使用Redis+Session实现Session共享 ,简单的单点登录 五
  • (附源码)ssm考试题库管理系统 毕业设计 069043
  • (汇总)os模块以及shutil模块对文件的操作
  • (蓝桥杯每日一题)平方末尾及补充(常用的字符串函数功能)
  • (区间dp) (经典例题) 石子合并
  • (算法设计与分析)第一章算法概述-习题