当前位置: 首页 > news >正文

python爬虫521

爬虫521

    • 记录

记录

最近想学爬虫,尝试爬取自己账号下的文章标题做个词云
csdn有反爬机制 原理我就不说啦 大家都写了
看到大家结果是加cookie
但是我加了还是521报错
尝试再加了referer 就成功了(╹▽╹)

import matplotlib
import requests
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba# 定义URL和请求头
url = 'https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=40&businessType=blog&orderby=&noMore=false&year=&month=&username=PUTAOAO'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36',
'Cookie':'cookie',
'Referer':'https://blog.csdn.net/PUTAOAO?type=blog'}# 发送GET请求
response = requests.get(url, headers=headers)# 检查响应状态码
if response.status_code == 200:# 转换响应内容为JSON格式re=response.json()# 获取评论列表ll = re['data']['list']print(ll)# 初始化内容列表content = []# 遍历评论列表,提取内容并添加到内容列表for l in ll:content.append(l['title'])# 合并所有评论内容为一个字符串full_content = ' '.join(content)print(full_content)# 生成词云wc = WordCloud(font_path='C:\Windows\Fonts\STXINGKA.TTF',width=800, height=600, mode="RGBA", background_color='white').generate(full_content)# 显示词云plt.imshow(wc, interpolation='bilinear')plt.axis('off')plt.show()
else:print(f"请求失败,状态码:{response.status_code}")

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C++调用C#方法(附踩坑点)
  • 初识redis:Set类型
  • element-ui下拉框的使用
  • 网络协议概述,ip协议,TCP协议,udp协议,二者区别,python中用socket类实现网络通信程序的编写(服务器套接字实现TCP编程,UDP编程)
  • GBase 8s数据库学习积累(2)
  • Android Audio
  • 餐厅点餐系统
  • python中在字符串前所加的字母r““、f““、b““、u““的含义
  • 2024年游泳耳机哪个牌子好?四大热门游泳耳机多维测评盘点!
  • kotlin adapter赋值失效
  • 【QT文件操作】---xml文件读取
  • Flat Ads:全球金融应用现状与发展趋势深度解析
  • [创业之路-138] :产品需求、产品研发、产品生产、库存管理、品控、售后全流程 - 时序图
  • linux下的oracle启动命令
  • 今年奥运会的场馆设计,竟然藏着这样的黑科技!
  • 《Java8实战》-第四章读书笔记(引入流Stream)
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • 0x05 Python数据分析,Anaconda八斩刀
  • Android交互
  • Angular4 模板式表单用法以及验证
  • ES6核心特性
  • iOS编译提示和导航提示
  • Java编程基础24——递归练习
  • JS题目及答案整理
  • node.js
  • PAT A1017 优先队列
  • Promise面试题,控制异步流程
  • Python 基础起步 (十) 什么叫函数?
  • spring学习第二天
  • Synchronized 关键字使用、底层原理、JDK1.6 之后的底层优化以及 和ReenTrantLock 的对比...
  • TypeScript实现数据结构(一)栈,队列,链表
  • ubuntu 下nginx安装 并支持https协议
  • 代理模式
  • 基于Dubbo+ZooKeeper的分布式服务的实现
  • 如何设计一个微型分布式架构?
  • 小李飞刀:SQL题目刷起来!
  • 主流的CSS水平和垂直居中技术大全
  • 阿里云API、SDK和CLI应用实践方案
  • 通过调用文摘列表API获取文摘
  • ‌‌雅诗兰黛、‌‌兰蔻等美妆大品牌的营销策略是什么?
  • #使用清华镜像源 安装/更新 指定版本tensorflow
  • (1)常见O(n^2)排序算法解析
  • (12)Hive调优——count distinct去重优化
  • (3)nginx 配置(nginx.conf)
  • (35)远程识别(又称无人机识别)(二)
  • (安卓)跳转应用市场APP详情页的方式
  • (二)斐波那契Fabonacci函数
  • (心得)获取一个数二进制序列中所有的偶数位和奇数位, 分别输出二进制序列。
  • (转)Java socket中关闭IO流后,发生什么事?(以关闭输出流为例) .
  • (转)创业家杂志:UCWEB天使第一步
  • (轉貼) 2008 Altera 亞洲創新大賽 台灣學生成果傲視全球 [照片花絮] (SOC) (News)
  • .net core 的缓存方案
  • .net core 使用js,.net core 使用javascript,在.net core项目中怎么使用javascript
  • .Net 垃圾回收机制原理(二)
  • .NET/C# 如何获取当前进程的 CPU 和内存占用?如何获取全局 CPU 和内存占用?