当前位置: 首页 > news >正文

python 第一个爬虫

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

# -*- coding: utf-8 -*-   
#---------------------------------------  
#   程序:百度贴吧爬虫   
#   语言:Python 2.7  
#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数  
#   功能:下载对应页码内的所有页面并存储为html文件
#---------------------------------------  

import urllib2,string

def baidu_tieba(url,begin_page,end_page):
	for i in range(begin_page,end_page+1):
		sName = string.zfill(i, 5)+".html"
		print "正在下载第" + str(i) + "页,存储为文件" + sName + "......"
		f = open(sName,"w+")
		res = urllib2.urlopen(url) 
		f.write(res.read())
		f.close()
		
url = raw_input("请输入地址 : ")
begin_page = int(raw_input("输入开始页数 : "))
end_page = int(raw_input("输入结束页数 : "))

baidu_tieba(url, begin_page, end_page)

请输入地址 : http://tieba.baidu.com/p/3526302131?

输入开始页数 : 1

输入结束页数 : 2

正在下载第1页,存储为文件00001.html......

正在下载第2页,存储为文件00002.html......

OK了,打开看看有没有这两个文件。


转载于:https://my.oschina.net/sunxichao/blog/372013

相关文章:

  • C#文件操作
  • 通过日志恢复SQL Server的历史数据
  • DateTime Calendar
  • Sqlserver与Oracle 10g数据类型对照
  • win7、Ubuntu双系统Grub启动菜单修复
  • IT男吃什么最利于健康
  • 根据经纬度获取时区信息
  • 团购消费已成近期投诉热点 长假团购需防三大陷阱
  • 大数据架构和模式(五)——对大数据问题应用解决方案模式并选择实现它的产品...
  • 解决MSE, Windows Update/Defender无法更新(错误代码0x8024402F)
  • Android_CodeWiki_03
  • D3D 部分功能测试结论
  • PHP time(), microtime(),date()函数
  • 使用快照隔离snapshot isolation实例(二)
  • Powershell管理系列(十七)在PowerShell中添加Exchange管理单元
  • Angular 2 DI - IoC DI - 1
  • download使用浅析
  • Electron入门介绍
  • HTTP传输编码增加了传输量,只为解决这一个问题 | 实用 HTTP
  • HTTP中的ETag在移动客户端的应用
  • input的行数自动增减
  • Java面向对象及其三大特征
  • laravel with 查询列表限制条数
  • Python实现BT种子转化为磁力链接【实战】
  • Spring Cloud中负载均衡器概览
  • Vue.js 移动端适配之 vw 解决方案
  • 闭包--闭包之tab栏切换(四)
  • 分布式任务队列Celery
  • 诡异!React stopPropagation失灵
  • 罗辑思维在全链路压测方面的实践和工作笔记
  • 如何使用Mybatis第三方插件--PageHelper实现分页操作
  • 设计模式走一遍---观察者模式
  • 使用Maven插件构建SpringBoot项目,生成Docker镜像push到DockerHub上
  • 一天一个设计模式之JS实现——适配器模式
  • 06-01 点餐小程序前台界面搭建
  • raise 与 raise ... from 的区别
  • ​油烟净化器电源安全,保障健康餐饮生活
  • #常见电池型号介绍 常见电池尺寸是多少【详解】
  • (003)SlickEdit Unity的补全
  • (26)4.7 字符函数和字符串函数
  • (MATLAB)第五章-矩阵运算
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (rabbitmq的高级特性)消息可靠性
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (SpringBoot)第七章:SpringBoot日志文件
  • (TipsTricks)用客户端模板精简JavaScript代码
  • (TOJ2804)Even? Odd?
  • (二)hibernate配置管理
  • (分布式缓存)Redis持久化
  • (已解决)报错:Could not load the Qt platform plugin “xcb“
  • (转)重识new
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • .apk 成为历史!
  • .NET 8.0 中有哪些新的变化?
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)