当前位置: 首页 > news >正文

用python去爬取小说网址的小说保存到本地全过程

我是买了一本书自己看书去学python的,然后学到了一个章节就是讲的用python去某网络小说网址爬取小说保存到本地,结果我看的这本书比较古老,它举例的这个被爬取的网站已经不存在了,所以,我另外找了一个网站,比着摸索着打代码,中间出现过好多不理解的地方,还有好多地方走了弯路,在此重新整理一下这个代码,尽量说详细一些,给后来的学习者们提供一点灵感吧。

一、要实现的效果

就是我们现在在某网络小说网站看到了一篇长篇小说——《渣男文里的攻略女》,它好多个章节,我想要把这部小说里所有的章节内容保存到本地电脑,每个章节保存成一个txt文件。

网页分析,这个小说页包含一个总的目录页,还有各个章节的具体内容页。

二、爬取思路分析

 1、涉及的知识点如下。

  (1 )使用 requests获取网页源代码。
  2)使用正则表达式获取内容。
  3)文件操作,在本地新建文件夹,新建txt文件,写入内容。
上面三个知识点不熟悉的先百度一下吧。

2、代码设计思路

  1. 导入用到的模块,
  2. 从网站的目录页的源代码里通过正则表达式爬取所有章节的链接保存到列表
  3. 从具体的章节内容页爬取章节名和每一章节的具体内容
  4. 在本地新建一个文件夹,用章节名命名txt文件,写入爬取到的具体内容

3、写代码

1、第一段代码,先把用到的库导入进来,用到以下四个库,其中requests是需要另外安装的,其它三个是python自带的。

import re
import requests
impor

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【接口自动化_09课_大量响应报文处理及加解密、签名处理】
  • Kafka系列之:Kafka存储数据相关重要参数理解
  • Nginx 不转发请求 IP
  • tinymce富文本支持word内容同时粘贴文字图片上传 vue2
  • Framework源码面试之Handler面试集合
  • Laravel+swoole 实现websocket长链接
  • Netty Websocket
  • 【数据结构进阶】二叉搜索树
  • DC-1靶场打靶第一次!!!!冲冲冲!
  • 算法日记day 16(二叉树的广度优先遍历|反转、对称二叉树)
  • Android APP 基于RecyclerView框架工程(知识体系积累)
  • 在虚拟机 CentOS7 环境下安装 MySQL5.7 数据库
  • 深入理解Linux网络(三):TCP对象创建
  • [HTML]一文掌握
  • MySQL中EXPLAIN关键字详解
  • 网络传输文件的问题
  • 【159天】尚学堂高琪Java300集视频精华笔记(128)
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • docker-consul
  • Java基本数据类型之Number
  • text-decoration与color属性
  • Vue 2.3、2.4 知识点小结
  • Vue.js-Day01
  • win10下安装mysql5.7
  • 从 Android Sample ApiDemos 中学习 android.animation API 的用法
  • 给自己的博客网站加上酷炫的初音未来音乐游戏?
  • 关于springcloud Gateway中的限流
  • 使用API自动生成工具优化前端工作流
  • 手写一个CommonJS打包工具(一)
  • 文本多行溢出显示...之最后一行不到行尾的解决
  • 用element的upload组件实现多图片上传和压缩
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • ​secrets --- 生成管理密码的安全随机数​
  • $.proxy和$.extend
  • (3)选择元素——(17)练习(Exercises)
  • (31)对象的克隆
  • (LeetCode 49)Anagrams
  • (Matlab)基于蝙蝠算法实现电力系统经济调度
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (Redis使用系列) Springboot 使用redis实现接口幂等性拦截 十一
  • (差分)胡桃爱原石
  • (七)微服务分布式云架构spring cloud - common-service 项目构建过程
  • (四)模仿学习-完成后台管理页面查询
  • (转)memcache、redis缓存
  • (转)PlayerPrefs在Windows下存到哪里去了?
  • (最优化理论与方法)第二章最优化所需基础知识-第三节:重要凸集举例
  • ***详解账号泄露:全球约1亿用户已泄露
  • .MyFile@waifu.club.wis.mkp勒索病毒数据怎么处理|数据解密恢复
  • .net core docker部署教程和细节问题
  • .net core使用RPC方式进行高效的HTTP服务访问
  • .net framwork4.6操作MySQL报错Character set ‘utf8mb3‘ is not supported 解决方法
  • .NET MVC 验证码
  • .Net OpenCVSharp生成灰度图和二值图
  • .net SqlSugarHelper
  • .NET 依赖注入和配置系统