2019独角兽企业重金招聘Python工程师标准>>>
# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:百度贴吧爬虫
# 语言:Python 2.7
# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
# 功能:下载对应页码内的所有页面并存储为html文件
#---------------------------------------
import urllib2,string
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page,end_page+1):
sName = string.zfill(i, 5)+".html"
print "正在下载第" + str(i) + "页,存储为文件" + sName + "......"
f = open(sName,"w+")
res = urllib2.urlopen(url)
f.write(res.read())
f.close()
url = raw_input("请输入地址 : ")
begin_page = int(raw_input("输入开始页数 : "))
end_page = int(raw_input("输入结束页数 : "))
baidu_tieba(url, begin_page, end_page)
请输入地址 : http://tieba.baidu.com/p/3526302131?
输入开始页数 : 1
输入结束页数 : 2
正在下载第1页,存储为文件00001.html......
正在下载第2页,存储为文件00002.html......
OK了,打开看看有没有这两个文件。