当前位置：首页 > news >正文

python 第一个爬虫

news 来源：原创 2024/5/10 8:16:27

2019独角兽企业重金招聘Python工程师标准>>>

# -*- coding: utf-8 -*-   
#---------------------------------------  
#   程序：百度贴吧爬虫   
#   语言：Python 2.7  
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数  
#   功能：下载对应页码内的所有页面并存储为html文件
#---------------------------------------  

import urllib2,string

def baidu_tieba(url,begin_page,end_page):
	for i in range(begin_page,end_page+1):
		sName = string.zfill(i, 5)+".html"
		print "正在下载第" + str(i) + "页，存储为文件" + sName + "......"
		f = open(sName,"w+")
		res = urllib2.urlopen(url) 
		f.write(res.read())
		f.close()
		
url = raw_input("请输入地址 : ")
begin_page = int(raw_input("输入开始页数 : "))
end_page = int(raw_input("输入结束页数 : "))

baidu_tieba(url, begin_page, end_page)

请输入地址 : http://tieba.baidu.com/p/3526302131?

输入开始页数 : 1

输入结束页数 : 2

正在下载第1页，存储为文件00001.html......

正在下载第2页，存储为文件00002.html......

OK了，打开看看有没有这两个文件。

转载于:https://my.oschina.net/sunxichao/blog/372013

C#文件操作

通过日志恢复SQL Server的历史数据

DateTime Calendar

Sqlserver与Oracle 10g数据类型对照

win7、Ubuntu双系统Grub启动菜单修复

IT男吃什么最利于健康

根据经纬度获取时区信息

团购消费已成近期投诉热点长假团购需防三大陷阱

大数据架构和模式（五）——对大数据问题应用解决方案模式并选择实现它的产品...

解决MSE, Windows Update/Defender无法更新（错误代码0x8024402F）

Android_CodeWiki_03

D3D 部分功能测试结论

PHP time(), microtime()，date()函数

使用快照隔离snapshot isolation实例（二）

Powershell管理系列（十七）在PowerShell中添加Exchange管理单元

Angular 2 DI - IoC DI - 1

download使用浅析

Electron入门介绍

HTTP传输编码增加了传输量，只为解决这一个问题 | 实用 HTTP

HTTP中的ETag在移动客户端的应用

input的行数自动增减

Java面向对象及其三大特征

laravel with 查询列表限制条数

Python实现BT种子转化为磁力链接【实战】

Spring Cloud中负载均衡器概览

Vue.js 移动端适配之 vw 解决方案

闭包--闭包之tab栏切换(四)

分布式任务队列Celery

诡异！React stopPropagation失灵

罗辑思维在全链路压测方面的实践和工作笔记

如何使用Mybatis第三方插件--PageHelper实现分页操作

设计模式走一遍---观察者模式

使用Maven插件构建SpringBoot项目,生成Docker镜像push到DockerHub上

一天一个设计模式之JS实现——适配器模式

06-01 点餐小程序前台界面搭建

raise 与 raise ... from 的区别

油烟净化器电源安全，保障健康餐饮生活

#常见电池型号介绍常见电池尺寸是多少【详解】

（003）SlickEdit Unity的补全

（26）4.7 字符函数和字符串函数

（MATLAB）第五章-矩阵运算

(NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!

（rabbitmq的高级特性）消息可靠性

(Spark3.2.0)Spark SQL 初探：使用大数据分析2000万KF数据

（SpringBoot）第七章：SpringBoot日志文件

(TipsTricks)用客户端模板精简JavaScript代码

（TOJ2804）Even? Odd?

（二）hibernate配置管理

（分布式缓存）Redis持久化

（已解决）报错：Could not load the Qt platform plugin “xcb“

(转)重识new

（转载）虚幻引擎3--【UnrealScript教程】章节一：20.location和rotation

.apk 成为历史！

.NET 8.0 中有哪些新的变化？

.NET/C# 使用 ConditionalWeakTable 附加字段（CLR 版本的附加属性，也可用用来当作弱引用字典 WeakDictionary）

相关文章：