1.爬虫数据提取——方法总结
爬虫数据提取——方法总结
在获取了我们想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一般来说有三种方式,分别是Xpath语法,正则表达式和bs4库,只要掌握了这三种方法,可以说html页面上没有什么数据是我们获取不到的。
我们来对这三种方式做一个简单的总结:
解析方式 | 解析速度 | 难度 |
Xpath | 快 | 中等 |
bs4 | 慢 | 容易 |
re(正则表达式) | 最快 | 困难 |
实际上,这三种方式都可以从html页面上获取我们想要的数据,但是由于其基于的原理不太一样,所以他们在解析HTML页面的时候速度页不太一样,一般来说,解析越快的,用起来肯定越难,解析越慢的,用起来肯定更简单一些,这个呢也是很多其它语言等的规律,得到了一方面的性能,就要损失一些东西,所谓“鱼与熊掌不可兼得”。
个人偏向于使用Xpath语法,其次是正则表达式,bs4用的不是很多。因为对于大多数网站来说,使用Xpath语法已然足够,除非当Xpath不好提取的时候,选择使用正则表达式进行提取,当然,在一个数据提取中,我们可以使用混合方式进行数据提取,比如,既使用Xpath语法也使用正则表达式,也可以三者皆用,这个取决于个人的偏好及HTML页面提取的难易程度。
扫描二维码即可参与该课程,解锁更多爬虫知识: