当前位置: 首页 > news >正文

网络数据抓取

安装pip - Python的安装包管理工具 mac 已经自带Python,我的mac 系统是Sierra, 自带python版本是Python 2.7.13 sudo easy_install pip

相关工具安装: 1、网络请求工具 pip install lxml pip install requests

2、网页数据解析工具 BeautifulSoup官网文档 pip install beautifulsoup4

3、解析器 pip install html5lib

示例1:获取我的简书首页展示的所有文章标题 ( http://www.jianshu.com/u/5b771dd604fd )

网页元素查看如下:

Python代码展示:

from lxml import html
from lxml import etree
from urllib import urlopen
import requests
import bs4
from bs4 import BeautifulSoup
import html5lib

//网页数据获取
examplePage = urlopen('http://www.jianshu.com/u/5b771dd604fd')
//HTML数据
soupExam = BeautifulSoup(examplePage,"html5lib")
//网页标题
print soupExam.title
print soupExam.title.string
//文章标题
for link in soupExam.find_all('a',class_ = 'title'):
	print(link.text)
复制代码

结果输出如下:

示例2:个别网站出现如下问题 1、希望获取红色标记中的数据:

2、但是获取到的都是 <\a> text </a> 中的text内容:

问题原因如下: (1)后台脚本requests网络数据,需要账号相关数据,解决方法为添加cookies; (2)网页有刷新机制,首先获取到的数据为刷新状态,解决方法为sleep一段时间;

相关文章:

  • Xcode 7 制作 framework
  • WARNING Uninstalling will remove the application data!
  • 新手 php连接数据库大概。简单过程浅析以及遇到的问题分析
  • Django 配置文件 settings.py
  • CORS FOR AspNetCore
  • spark shell的学习
  • 安卓模拟器BlueStacks+TCPdump对APP抓包分析
  • maven scope含义的说明
  • Javac编译器源代码分析
  • 物极必反,滥用闭包的结果就是回归结构化编程
  • 2017 年终总结 —— 在路上
  • 加密算法(对称加密)AES、DES (非对称加密)RSA、DSA
  • Hadoop集群(第10期)_MySQL关系数据库
  • python学习笔记(四)字符串及字符串操作
  • 【Dalston】【第六章】API服务网关(Zuul) 下
  • Flannel解读
  • github从入门到放弃(1)
  • iOS小技巧之UIImagePickerController实现头像选择
  • JAVA并发编程--1.基础概念
  • leetcode46 Permutation 排列组合
  • Material Design
  • MYSQL如何对数据进行自动化升级--以如果某数据表存在并且某字段不存在时则执行更新操作为例...
  • PHP的类修饰符与访问修饰符
  • php面试题 汇集2
  • STAR法则
  • Vue ES6 Jade Scss Webpack Gulp
  • 将 Measurements 和 Units 应用到物理学
  • 腾讯大梁:DevOps最后一棒,有效构建海量运营的持续反馈能力
  • 我这样减少了26.5M Java内存!
  • 正则学习笔记
  • gunicorn工作原理
  • 你学不懂C语言,是因为不懂编写C程序的7个步骤 ...
  • $var=htmlencode(“‘);alert(‘2“); 的个人理解
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (MonoGame从入门到放弃-1) MonoGame环境搭建
  • (二) Windows 下 Sublime Text 3 安装离线插件 Anaconda
  • (翻译)terry crowley: 写给程序员
  • (附源码)springboot高校宿舍交电费系统 毕业设计031552
  • (论文阅读23/100)Hierarchical Convolutional Features for Visual Tracking
  • (三)docker:Dockerfile构建容器运行jar包
  • (十一)手动添加用户和文件的特殊权限
  • (四)linux文件内容查看
  • (转载)从 Java 代码到 Java 堆
  • *p++,*(p++),*++p,(*p)++区别?
  • *p=a是把a的值赋给p,p=a是把a的地址赋给p。
  • .helper勒索病毒的最新威胁:如何恢复您的数据?
  • .net FrameWork简介,数组,枚举
  • .NET 常见的偏门问题
  • .NET的数据绑定
  • .NET使用HttpClient以multipart/form-data形式post上传文件及其相关参数
  • /etc/sudoers (root权限管理)
  • [100天算法】-不同路径 III(day 73)
  • [20140403]查询是否产生日志
  • [3D游戏开发实践] Cocos Cyberpunk 源码解读-高中低端机性能适配策略
  • [CTF]php is_numeric绕过