当前位置: 首页 > news >正文

2015.12.30 日学习总结

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

---------2015.12.30----------------

学习心得:学习极客学院的python教程下的定向数据爬虫

学习成果:通过数据爬虫扒下了喜欢漫画网站的漫画(文章最后是代码)很有成就感~~~~

         安装好第三方库文件  Requests

学习笔记:

安装python 第三方库 撞墙时

选择下载网站(几乎所有的第三库文件)

http://www.lfd.uci.edu/~gohlke/pythonlibs/

whl文件 改后缀名为.zip 解压后 将解压后的最短文件明拷贝到 python安装位置的Lib文件夹里

 


重点是要记住三个关键字

Search  findall  Sub

正则表达式的用法 常用的就是这几个

----[1]-----

# for each in pics_url: #用循环重复一起做就会换行

#     print(each) #单独做不换行

----[2]-----

# # text = re.findall('">(.*?)</a></li>', html, re.S) #加上换行符号re.S 要慎用

----[3]-----

# # links = re.findall('href="(.*?)"', html, re.S)

# # #print(links) #单独打印报错

# # SyntaxError: Non-ASCII character '\xe7' in file D:/python_test/hello_word on line 50, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

# # 解决 办法 #-*-coding:utf8-*-声明

--------------------

但编程的时候 遇到以下几个问题 后面学习的话 我将带着问题去学习 当然如果有朋友可以帮忙解答,那就更好啦

--<1>---

# # title = re.search('<title>(.*?)</title>', html, re.S).group(1)

#为什么要加group不加就是内存地址?

--<2>---

# text = re.findall('<ul>(.*?)</ul>', html, re.S)[0] #为什么一定要加[0]?

--<3>---

# print('下载漫画中:',each) #'中文显示为\xe4\xb8\x8b\xe8\xbd\xbd\xe6\xbc\xab\xe7\x94\xbb\xe4\xb8\xad\xef\xbc\x9a??? 开始还提取了片头照片

 

附上我的把漫画的教程

# -*-coding:utf8-*-  import re  import requests

g = open('shuhui.txt','r')
htmls = g.read()
g.close()
pics_url = re.findall('<img src="(.*?)" alt="', htmls)

i = 1 for each in pics_url: print('now is downloading', each)
    pics = requests.get(each)
    fb = open('pics\\' + str(i) + '.jpg', 'wb')
    fb.write(pics.content)
    fb.close()
    i += 1

转载于:https://my.oschina.net/u/2599860/blog/595365

相关文章:

  • 谈模块独立拆分上线一些经验
  • SpringMVC multipart文件上传
  • apache开源项目--ibatis
  • 快播活该被抓,跟公诉人是谁无关
  • 一则简单演示样例看Oracle的“无私”健壮性
  • 忘记Mysql的root密码怎么办?
  • Linux vim 命令
  • [转载]基于TFS实践敏捷-工作项跟踪
  • ODBC CRecordSet访问
  • mysql 常用函数以及常见查询语句
  • 在.Net MVC结构API接口中判断http头信息实现公共的权限验证过滤器示例
  • JAVA生成二维码(zxing)
  • 【源代码】LinkedHashMap源代码剖析
  • Codeforces Gym 100015C City Driving 离线LCA
  • C#中timer类的用法
  • @angular/forms 源码解析之双向绑定
  • 2017 前端面试准备 - 收藏集 - 掘金
  • Android系统模拟器绘制实现概述
  • Javascript弹出层-初探
  • Node 版本管理
  • Sublime text 3 3103 注册码
  • uni-app项目数字滚动
  • WePY 在小程序性能调优上做出的探究
  • WordPress 获取当前文章下的所有附件/获取指定ID文章的附件(图片、文件、视频)...
  • 高性能JavaScript阅读简记(三)
  • 猴子数据域名防封接口降低小说被封的风险
  • 配置 PM2 实现代码自动发布
  • 前端性能优化——回流与重绘
  • 学习笔记DL002:AI、机器学习、表示学习、深度学习,第一次大衰退
  • 追踪解析 FutureTask 源码
  • 《天龙八部3D》Unity技术方案揭秘
  • 阿里云服务器购买完整流程
  • 交换综合实验一
  • ​油烟净化器电源安全,保障健康餐饮生活
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • $NOIp2018$劝退记
  • (03)光刻——半导体电路的绘制
  • (1)(1.13) SiK无线电高级配置(五)
  • (10)ATF MMU转换表
  • (4)通过调用hadoop的java api实现本地文件上传到hadoop文件系统上
  • (二)正点原子I.MX6ULL u-boot移植
  • (附源码)springboot学生选课系统 毕业设计 612555
  • (六)软件测试分工
  • (十)T检验-第一部分
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • .form文件_一篇文章学会文件上传
  • .gitignore文件—git忽略文件
  • .net web项目 调用webService
  • .net 前台table如何加一列下拉框_如何用Word编辑参考文献
  • .NET 应用启用与禁用自动生成绑定重定向 (bindingRedirect),解决不同版本 dll 的依赖问题
  • .NET开发不可不知、不可不用的辅助类(三)(报表导出---终结版)
  • .NET中的十进制浮点类型,徐汇区网站设计
  • /bin/bash^M: bad interpreter: No such file or directory
  • []C/C++读取串口接收到的数据程序