当前位置: 首页 > news >正文

Python 爬虫入门3种方法

 Python 2.0

url = "http://www.baidu.com" 
print '第一种方法' 
response1 = urllib2.urlopen(url) 
print response1.getcode() 
print len(response1.read()) 

print '第二种方法' 
request = urllib2.Request(url) 
request.add_header("user-agent","Mozilla/5.0") 
response2 = urllib2.urlopen(request) 
print response2.getcode() 
print len(response2.read()) 

print '第三种方法' 
cj = cookielib.CookieJar() 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
urllib2.install_opener(opener) 
response3 = urllib2.urlopen(url) 
print response3.getcode() 
print cj print 
response3.read()

Python 3.0

第一种方法
import urllib.request
import http.cookiejar

url="http://www.baidu.com"

print('第一种方法:')
response1 = urllib.request.urlopen(url)

print(response1.getcode())
print(len(response1.read()))

print('第二种方法')
request = urllib.request.Request(url)
request.add_header('user-agent','Mozilla/5.0')
response2 =urllib.request.urlopen(request)
print(response1.getcode())
print(len(response2.read()))

print('第三种方法')
cj = http.cookiejar.CookieJar()
opener= urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 =urllib.request.urlopen(url)
print(response3.getcode())
print(cj)
print(response3.read())

 

 

 

参考:http://www.imooc.com/article/16363

相关文章:

  • GSSAPIAuthentication=no
  • 红帽推 Ansible Tower 3.1 扩展 DevOps自动化功能
  • 从边缘计算看移动化与云计算的融合之道
  • 卡巴斯基:Duqu2.0病毒使用的数字证书窃取自富士康
  • 网络攻击检测:五大致命弱点和解决办法
  • Arbor Networks发布新安全平台 通过内部企业网络连接互联网上的攻击
  • 中国大数据利用率仅0.4%?行业大咖教你如何用好大数据
  • Spring IoC 学习(4)
  • 为什么要点两下才能删除一个li节点 原来是空白节点作怪
  • 《中国人工智能学会通讯》——3.30 改革性成就
  • spring+SpringMVC+mybati整合JBPM
  • 《逻辑与计算机设计基础(原书第5版)》——3.7 选择
  • 为什么运营商玩不转物联网?
  • 商业WiFi将与4G网络长期共存
  • Java Python 未修复漏洞导致跨越防火墙大混乱
  • android图片蒙层
  • Angular4 模板式表单用法以及验证
  • avalon2.2的VM生成过程
  • input实现文字超出省略号功能
  • JavaScript 基础知识 - 入门篇(一)
  • js 实现textarea输入字数提示
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • PAT A1017 优先队列
  • SQLServer之创建数据库快照
  • vue学习系列(二)vue-cli
  • vue中实现单选
  • 跨域
  • 排序(1):冒泡排序
  • 前端攻城师
  • 使用 @font-face
  • 微信小程序设置上一页数据
  • # Python csv、xlsx、json、二进制(MP3) 文件读写基本使用
  • (C#)Windows Shell 外壳编程系列4 - 上下文菜单(iContextMenu)(二)嵌入菜单和执行命令...
  • (DFS + 剪枝)【洛谷P1731】 [NOI1999] 生日蛋糕
  • (pytorch进阶之路)CLIP模型 实现图像多模态检索任务
  • (笔试题)分解质因式
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (附源码)springboot电竞专题网站 毕业设计 641314
  • (六)c52学习之旅-独立按键
  • (算法)N皇后问题
  • (转)socket Aio demo
  • (转载)深入super,看Python如何解决钻石继承难题
  • *p=a是把a的值赋给p,p=a是把a的地址赋给p。
  • .form文件_SSM框架文件上传篇
  • .net 8 发布了,试下微软最近强推的MAUI
  • .Net CoreRabbitMQ消息存储可靠机制
  • .NET 的静态构造函数是否线程安全?答案是肯定的!
  • .net6+aspose.words导出word并转pdf
  • .Net6使用WebSocket与前端进行通信
  • .NET开源快速、强大、免费的电子表格组件
  • .Net转Java自学之路—SpringMVC框架篇六(异常处理)
  • @Repository 注解
  • [14]内置对象
  • [20170728]oracle保留字.txt
  • [ABC294Ex] K-Coloring