当前位置: 首页 > news >正文

python-爬虫实例(1):获取京东商品评论

目录

前言

        道路千万条,安全第一条

        爬虫不谨慎,亲人两行泪

获取京东商品评论信息

一、实例示范

二、爬虫四步走

1.UA伪装 

 2.获取Url

3.发送请求

4.获取响应数据进行解析并保存

 总结


前言

        道路千万条,安全第一条

        爬虫不谨慎,亲人两行泪

 

获取京东商品评论信息

        进行爬取操作之前先来讲个json大字符串的概念

        虽然叫它大字符串,但它的本质是一个字典,字典里嵌套了其他的数据类型。

        以下是一个简单的json类型示例:

{"name": "John Doe","age": 30,"city": "New York","isStudent": false,"courses": ["Math", "Science", "History"]
}

        这时候想要取"Math"这个字符串就需要先取json里的"courses"键的值,再从这个列表里取出来"Math"。

 

一、实例示范

        代码:

# jd评论信息
# 获取json数据
# UA 浏览器身份标识
# Cookie 用户身份标识
import requests
import jsonif __name__ == '__main__':head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0","Cookie": "__jdv=76161171|direct|-|none|-|1721304228745; areaId=14; PCSYCityID=CN_340000_340100_0; shshshfpa=9d6bb9f5-2df3-f0ae-84d7-9feb10409507-1721304230; shshshfpx=9d6bb9f5-2df3-f0ae-84d7-9feb10409507-1721304230; TrackID=1SJUe62_7OhOVdSNSNv6lwEH0sw12qyvR6hDeXSwe4OhNq5cPWZYpVlkMNucopWsu9l4a0oc-QPQhUD-BbyWgKCikwyHwiFL9QUCXSp9UnXgrytWf_8ZiqczStzHjFr1A; thor=0A5DE5C934900F151550690E68060DD6BEA12900C6BC00C995B1B61C8F9064CE30722A092BCFC7F7873EA432399BA54B0DF30610257CF29A8CE328D655A0030564CA4070E9126D05708BE4374B1CD5E6E40647F2621EC119FD452E89B3DB501BC6BCD02FB491FDFD0663802C735C8E8B1298A50463A731F69DCD105FD6B33179C8AC2A1A78FD18D8D56CB9217B04738F; pinId=DVnUbUvl6BlafyIN32ve9Q; pin=18715561029_p; unick=%E6%88%91%E4%B9%9F%E6%83%B3%E5%BD%93T0; ceshi3.com=201; _tp=boW%2Bsld6syhCSOJuTx4dYQ%3D%3D; _pst=18715561029_p; jsavif=1; 3AB9D23F7A4B3C9B=G3FMFVHJRKO4WY2EEEJ3J3FHKJF3JSXE63GVJHBN6JLN4OFZ7BV6NMFF63SJ7DTPILE4E3W25GJTFMSEKGSRGW6MPI; token=690ddf6b97c63e862c77d945cc6a1029,3,956280; __tk=fxbANskE2sM4zxgPqvyxzRbCfxT3zzbQfvH4gakExBr3gzbPfzrwN0bCfxx3NRbPfxbRrwTz,3,956280; __jda=181111935.1721304228744546785809.1721304229.1721304229.1721304229.1; __jdc=181111935; ipLoc-djd=14-1116-3431-57939; 3AB9D23F7A4B3CSS=jdd03G3FMFVHJRKO4WY2EEEJ3J3FHKJF3JSXE63GVJHBN6JLN4OFZ7BV6NMFF63SJ7DTPILE4E3W25GJTFMSEKGSRGW6MPIAAAAMQYXDC36QAAAAACRMAR6DBKZXZVUX; __jdb=181111935.12.1721304228744546785809|1.1721304229; flash=2_SRV9wrohYNkwkrnrUUWyOh6Q94WEbnJYPVF5HukZ4VtMMxsChmr8umAs5etO9Xx-mtPF6876tvH0TQyiCSpajuBolLqR47qW-utU1gbdlarx9OGSmDfk5gxVJZDn-49J05Om2EaAMSQCksRp1z4SA3Aiy0KCY6AYwm7HcJGp_CV*; shshshfpb=BApXccfrPxvVAnRfl37QeGjYe9pyrhiTdBmNxRR9o9xJ1MhE_hIC2"}url = "https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1721305271570&body=%7B%22productId%22%3A100068388451%2C%22score%22%3A0%2C%22sortType%22%3A5%2C%22page%22%3A0%2C%22pageSize%22%3A10%2C%22isShadowSku%22%3A0%2C%22fold%22%3A1%2C%22bbtf%22%3A%22%22%2C%22shield%22%3A%22%22%7D&h5st=20240718202111580%3Big6g5g5i55myz9n0%3Bfb5df%3Btk03wceac1d1e18nF1RxAuQkMBnxcaSi9YAM6QhwyaPQHXALcgMlONnknzgltofi9MT9EWeyA_OyYvSly1UAbMBxmM92%3Bb7a5f127e6358a6267abdd04b03a4189%3B4.7%3B1721305271580%3BTKmWTgopg3DOi83l2nbmQrRfhXRbpXfzQrLnqQ9ZeBVcG45Mydm0vj5DgYBKYM5hZc1KUDtyZ77AcASL_Kw1uCrZwdTs6gnSTv6n-sZ3E90bR6m3RpKcYhB6R4lvuoWoaHhqwUYjLwYQzZQqJUQtPGvV9Fb6k9mMjWyQxbrsP_LzW7maBLk25RDEfJjqTyghIhyuXtkd5U3g1f4WRquhq87-IlcT_0qtwCRLTvmL0A8ZwtRockghB5MFwoHdkfzXritjd0tmlMkHxujIYGYA7f6Ld_aimyKu_NdwWMWSgIo4oCbHshgy-r2UvXyZ5y6SUHdcC-Ds8ALaDcDlbSxCu5xddGz2E4fV-HgaEgFE4K6RZxp3uyusd6pZ-N3xwAnfxe6gccMvmO383p1nrhZ7ebB-zadhIREWTeGamldfk3aKPsGSkRY-t1RAX9AKJH0e3ZOPNWzvreiO1lP-YKP2GegBuGBIhe71aRDUfqUVmTeVhO3X9ZOMUqVhUXgACI3Cb32eQwwUHNK5z27MMbEOjXG5ATJzL6JiPbE9j1zIClUT0kDcYppyM7AXF5Q9gMfSAtB3ggE7nDk8PeheJO0dl8zjLad9Prk3hGJ0DQIeqffFGvzEemLTD52YgeDqWQHLXbk3%3B0fbcf08e3977ece11f50cb4184254712&x-api-eid-token=jdd03G3FMFVHJRKO4WY2EEEJ3J3FHKJF3JSXE63GVJHBN6JLN4OFZ7BV6NMFF63SJ7DTPILE4E3W25GJTFMSEKGSRGW6MPIAAAAMQYXDC36QAAAAACRMAR6DBKZXZVUX&loginType=3&uuid=181111935.1721304228744546785809.1721304229.1721304229.1721304229.1"response = requests.get(url, headers=head)ls = response.json()for i in ls["comments"]:print(i["content"])pass

        输出

这个苹果手机非常的好用,512的内存也非常的合适,颜值是非常的高,质感也非常得好,拍照效果也非常得好运行,速度也很好,很值得购买哦。
IPhone15Promax
外形外观:外观设计典雅大气,边框工艺精湛,尽显高端质感
屏幕音效:边视网膜XDR显示屏,色彩鲜活,细节毕现,视觉盛宴一触即发,
音效震撼,立体声效营造沉浸体验
拍照效果:拍照效果再升级,夜景模式清晰明亮,人像模式自然动人,记录生活美好瞬间
运行速度:A系列芯片加持,运行速度飞快,流畅无阻挡,
待机时间:电池续航强劲,满足全天候使用需求
更有创新灵动岛设计,解锁更多交互可能,尽显科技魅力
设计感太强了,让人眼前一亮,用起来也很顺手。
虽然手机价格略高,但是质量绝对没得说,用了很多年都没出现问题,真的很耐用。"
手机的系统稳定性非常高,不会出现卡顿和死机的情况,真的很靠谱。"
手机的音质和屏幕显示效果真的没得挑剔,听歌、看电影都超级爽!"
手机使用起来方便,系统流畅,页面简洁,工作生活学习的好帮手。外观好看,三星屏,德赛电池,整体机子还是很优秀。
不错的购物体验,没有翻车,京东自营店的东西就是要比其他的可靠,我看评论,很多都翻车,买之前,我还挺惊心胆颤,收到手机后,一点点打开,检查,完美,不得不说苹果的包装设计以及系统,用起来是真的舒服,推荐大家购买,不说了,我先去体验了
哈哈哈哈哈哈哈,真不错啊真不错哈哈哈
店家发货非常快,服务态度很好,应该是正品,一次很愉快的购物已经用过一段时间了,效果不错😍,客服服务有耐心,解答详细,赞一个东西很满意哦,美观时尚大气,客服超级有耐心,服务细致贴心,大品牌就是不一样
苹果15promax真的超棒,屏幕清晰,运行流畅,拍照效果也一级棒!卖家服务热情周到,发货速度也很快,非常满意!
材质结实,手感好,很得劲,物流也快,性价比很高,值得购买产品包装精致美观大气,目前用着非常不错,真实评价,希望可以帮到集美们
安全下车,手机是原封,256g刚刚好,续航还是promax给力,出去外面一整天不用担心电量。Pro和pro max区别是长焦看个人取舍哪个使用场景多。
一直在京东上购买手机,正好618活动,直接就在京东上下单,苹果手机没得说,就是手机信号有的时候确实是个问题,走高架的时候,手机没有信号,拨打不出去电话……
屏幕音效:屏幕比我用饿13感觉更加细腻,更清楚了!
拍照效果:手机拍照还原度高,清楚!

 

二、爬虫四步走

1.UA伪装 

        获取京东的商品评论信息需要在网页登录京东账号,因为不登录的话需要验证码,这是一种反爬取机制。

具体操作

  • 到京东商品界面,此处示例是iphone15pmax
  • 按f12打开检查界面,点击1,再点击2进行清空请求
  • 然后按 ctrl+r 刷新请求 
  • 点击3【商品评论】
  •  最后点击4 到该界面

  • 翻找appid开头的请求,点击响应查看是否有评论,直到看到content评论
  • 这些评论也就是买家发的评论

  • 这时即可使用标头去寻找User-Agent
  • 但是因为京东需要用户登录信息,所以我们还需要获取用户的Cookie

 

 2.获取Url

 

3.发送请求

还是熟悉的requests.get()请求 

response = requests.get(url, headers=head)

 

4.获取响应数据进行解析并保存

        这样获取的响应数据是json类型的,所以我们需要用.json()的方法将该响应解析为Python对象

进行取评论之前可以print(ls)观察一下长什么样子,思考一下如何取出里面"content"的内容。

    ls = response.json()  # 将响应数据转换成json大字符串储存在ls里面for i in ls["comments"]:   # 遍历json大字符串里"comments"键的值print(i["content"])    # 获取评论数据

 

 总结

        有时爬取数据需要 UA 浏览器身份标识 和 Cookie 用户身份标识。还要注意获取的响应类型是text还是json类型。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • linux-conda环境安装配置教程
  • Angular哪些方法适合写在constructor中?
  • 总结一些vue3小知识3
  • Spring IoC控制反转思想 DI依赖注入(五大注解+一个方法注解)
  • 人工智能与机器学习原理精解【3】
  • 关卡1-2:Python关卡
  • Python练手小项目
  • 概率论三大分布
  • R的数据集读取和利用,如何高效地直接复制黏贴数据到R
  • 简单修改,让UE4/5着色器编译速度变快
  • AvaloniaUI的学习
  • v-has 全局按钮权限设置(Vue2)
  • Nestjs使用Redis的最佳实践
  • sed利用脚本处理文件
  • IEC104转MQTT网关快速实现了IEC104到MQTT的转换和数据交互
  • [译] 理解数组在 PHP 内部的实现(给PHP开发者的PHP源码-第四部分)
  • 07.Android之多媒体问题
  • gops —— Go 程序诊断分析工具
  • node-glob通配符
  • python 装饰器(一)
  • Redis 懒删除(lazy free)简史
  • vue-loader 源码解析系列之 selector
  • 免费小说阅读小程序
  • 十年未变!安全,谁之责?(下)
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 我是如何设计 Upload 上传组件的
  • 在Docker Swarm上部署Apache Storm:第1部分
  • 哈罗单车融资几十亿元,蚂蚁金服与春华资本加持 ...
  • ​DB-Engines 12月数据库排名: PostgreSQL有望获得「2020年度数据库」荣誉?
  • ​Spring Boot 分片上传文件
  • ​猴子吃桃问题:每天都吃了前一天剩下的一半多一个。
  • #QT(串口助手-界面)
  • #图像处理
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • #我与Java虚拟机的故事#连载19:等我技术变强了,我会去看你的 ​
  • (175)FPGA门控时钟技术
  • (C#)if (this == null)?你在逗我,this 怎么可能为 null!用 IL 编译和反编译看穿一切
  • (delphi11最新学习资料) Object Pascal 学习笔记---第14章泛型第2节(泛型类的类构造函数)
  • (Matlab)使用竞争神经网络实现数据聚类
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (待修改)PyG安装步骤
  • (动手学习深度学习)第13章 计算机视觉---微调
  • (二)c52学习之旅-简单了解单片机
  • (二)hibernate配置管理
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (南京观海微电子)——I3C协议介绍
  • (三)elasticsearch 源码之启动流程分析
  • (数据大屏)(Hadoop)基于SSM框架的学院校友管理系统的设计与实现+文档
  • (五十)第 7 章 图(有向图的十字链表存储)
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • (源码分析)springsecurity认证授权
  • * 论文笔记 【Wide Deep Learning for Recommender Systems】
  • **PHP二维数组遍历时同时赋值
  • *上位机的定义
  • .NET C# 使用GDAL读取FileGDB要素类