当前位置：首页 > news >正文

浅学爬虫-处理复杂网页

news 来源：原创 2024/9/20 2:51:17

在处理实际项目时，网页通常比示例页面复杂得多。我们需要应对分页、动态加载和模拟用户行为等问题。以下是一些常见的场景及其解决方案。

处理分页

许多网站将内容分成多个页面，称为分页。要抓取这些数据，需要编写一个能够遍历所有分页的爬虫。

示例：抓取一个分页网站

假设我们要抓取一个分页网站，每页包含10条数据，分页链接的URL格式如下：

第一页: http://example.com/page/1
第二页: http://example.com/page/2
第三页: http://example.com/page/3

步骤1：编写分页爬虫代码

import requests
from bs4 import BeautifulSoup# 基础URL
base_url = "http://example.com/page/"# 最大页码
max_page = 5for page in range(1, max_page + 1):url = f"{base_url}{page}"response = requests.get(url)if response.status_code == 200:soup = BeautifulSoup(response.content, 'html.parser')# 假设每条数据在class为'item'的div中items = soup.find_all('div', class_='item')for item in items:title = item.find('h2').textdescription = item.find('p').textprint(f"标题: {title}")print(f"描述: {description}")else:print(f"请求失败，状态码: {response.status_code}")

代码解释:

基础URL: 设置分页网站的基础URL。
遍历页面: 使用for循环遍历所有分页，生成每个分页的URL。
发送请求并解析页面: 使用requests发送请求，使用BeautifulSoup解析页面。
提取数据: 假设每条数据在class为'item'的div中，提取数据并打印。

处理AJAX请求

一些网站通过AJAX（异步JavaScript和XML）加载数据，导致页面初始加载时看不到所有内容。要抓取这些数据，我们需要分析AJAX请求并直接请求相应的API。

示例：处理AJAX请求

假设我们要抓取一个通过AJAX请求加载的数据，AJAX请求的URL如下：

http://example.com/api/data?page=1
http://example.com/api/data?page=2

步骤1：编写处理AJAX请求的爬虫代码

import requests
import json# 基础URL
api_url = "http://example.com/api/data"# 最大页码
max_page = 5for page in range(1, max_page + 1):params = {'page': page}response = requests.get(api_url, params=params)if response.status_code == 200:data = response.json()for item in data['items']:title = item['title']description = item['description']print(f"标题: {title}")print(f"描述: {description}")else:print(f"请求失败，状态码: {response.status_code}")

代码解释:

API URL: 设置AJAX请求的基础URL。
遍历页面: 使用for循环遍历所有分页，生成每个分页的请求参数。
发送请求并解析响应: 使用requests发送请求，解析JSON响应。
提取数据: 从响应数据中提取所需的信息并打印。

模拟用户行为

有些网站通过JavaScript动态生成内容，无法通过直接请求获取数据。这时我们可以使用Selenium模拟用户行为，抓取动态内容。

示例：使用Selenium模拟用户行为

步骤1：安装Selenium和浏览器驱动

pip install selenium

步骤2：编写Selenium爬虫代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time# 设置浏览器驱动
driver = webdriver.Chrome()# 目标URL
url = "http://example.com"# 打开网页
driver.get(url)# 等待页面加载
time.sleep(5)# 查找元素并提取数据
items = driver.find_elements(By.CLASS_NAME, 'item')for item in items:title = item.find_element(By.TAG_NAME, 'h2').textdescription = item.find_element(By.TAG_NAME, 'p').textprint(f"标题: {title}")print(f"描述: {description}")# 关闭浏览器
driver.quit()

代码解释: