当前位置: 首页 > news >正文

1.爬虫基础——了解html什么是爬虫

众所周知:我们上网浏览的网页,他们的本质是一个又一个html页面。那什么是html呢?可以这么理解,编写JAVA有JAVA的语言逻辑,编写Python有Python的语言逻辑,编写网页就需要遵从html的语言逻辑,而编写好了的html就可以显示出来我们所看到的网页了。

如下示例:

图1
图2

正如我们在上面所看到的,当我们查看https://www.baidu.com/这个网址的时候,浏览器返回一个网页,我们可以检查这个网页的html源码。(我们看到的图1就是由图2的html源码构成)换句话说,只要我们获取了任意网页的html源码,那么就能够显示出这样的页面,而网页的页面里面的所有信息均包含在html源码里面。那如何证实这一点呢?

我们可以看到:在百度页面里面是有新闻、hao123、地图、视频、贴吧、学术等等内容的,这个我们是可以在html源码里面找到的,这就证实了网页是由html源码进行编写的。

现在我们达成第一点共识:网页由html源码构成,并且html源码包含了网页页面的所有内容。

在达成第一点共识之后,爬虫的问题就变得比较简单了,我们用一句比较简单的话来阐述爬虫:在html页面上按照一定规则取出我们想要的数据

如何理解呢?比如说百度页面,我们可以看到新闻、hao123、地图、视频、贴吧、学术等等内容,如果我们想要仅仅把这些文字给提取出来,其他的内容都不要,这个想法也就符合了我们所说的爬虫,接下来我们只需要利用我们的一些技术方法(规则)爬取就行了,这个就是爬虫了,但是这个爬取下来的含金量很低而已,不过不要灰心,有1才有2。

再举一个例子:比如豆瓣的影评数据,这个就比较有价值了。我们进入豆瓣的这个影评:https://movie.douban.com/review/9593388/

我们同样可以发现在这个页面内嵌套了所有的影评数据,当然还有一些其他数据,(实际上还有电影名、评论人、电影星级等等信息)在这里我们并没有展示。对于这样一个页面,我们就可以利用一定的规则来提取该页面的任意信息,OK,这就是爬虫了。

最后,留下一个思考题:我花费这么大力气去html页面提取信息干什么?我还不如直接打开原始页面进行复制粘贴呢,这不是一样的吗?


扫描二维码即可参与该课程,解锁更多爬虫知识:

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 2.爬虫基础——为什么学习爬虫?
  • IE 无法播放flash的解决方法
  • Anaconda安装库方式总结
  • Php部分常见问题总结
  • 谈一下Python虚拟环境
  • php中几个字符处理函数的说明
  • Python爬虫实例--新浪热搜榜[xpath语法]
  • 诛仙二
  • Python爬虫实例--新浪热搜榜[正则表达式]
  • 豆瓣电影影评爬取---最受欢迎的影评[xpath语法]
  • hadoop安全模式无法关闭问题
  • 迷茫也得行动了
  • 3.爬虫基础——网络请求
  • 使用Rman的Plus archvielog选项简化数据库备份操作
  • 4.爬虫基础——你真的了解url(网址)吗?
  • “寒冬”下的金三银四跳槽季来了,帮你客观分析一下局面
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • es的写入过程
  • leetcode386. Lexicographical Numbers
  • LintCode 31. partitionArray 数组划分
  • PyCharm搭建GO开发环境(GO语言学习第1课)
  • XML已死 ?
  • 前端学习笔记之观察者模式
  • 使用 5W1H 写出高可读的 Git Commit Message
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 网络应用优化——时延与带宽
  • 运行时添加log4j2的appender
  • 自动记录MySQL慢查询快照脚本
  • No resource identifier found for attribute,RxJava之zip操作符
  • ​2020 年大前端技术趋势解读
  • #Datawhale AI夏令营第4期#AIGC文生图方向复盘
  • #include到底该写在哪
  • #基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • (1)(1.11) SiK Radio v2(一)
  • (备份) esp32 GPIO
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (九十四)函数和二维数组
  • (免费领源码)Python#MySQL图书馆管理系统071718-计算机毕业设计项目选题推荐
  • (十八)SpringBoot之发送QQ邮件
  • .NET C#版本和.NET版本以及VS版本的对应关系
  • .net core MVC 通过 Filters 过滤器拦截请求及响应内容
  • .Net Core 笔试1
  • .net 获取url的方法
  • .vimrc php,修改home目录下的.vimrc文件,vim配置php高亮显示
  • ??javascript里的变量问题
  • @property括号内属性讲解
  • @staticmethod和@classmethod的作用与区别
  • [ C++ ] 类和对象( 下 )
  • [ 常用工具篇 ] AntSword 蚁剑安装及使用详解
  • [AutoSar NVM] 存储架构
  • [boost]使用boost::function和boost::bind产生的down机一例
  • [C++]C++基础知识概述
  • [CAN] 创建解析CAN报文DBC文件教程
  • [CSS3备忘] transform animation 等