当前位置: 首页 > news >正文

影刀RPA实战:网页爬虫之药品数据

1 实战目标

这次给大家带来的实战示例是采集中国医药信息平台上的药品数据,主要获取药品名称,介绍,药品类型,处方类型,医保类型,参考价格,药品成分,性状,适应病症,用法用量等。我们依然使用excel将这些需要的数据字段展示出来

需要准备的影刀知识:

  • 网页元素操作
  • 流程判断与循环
  • excel操作
  • 列表及文本字符串处理

2 影刀机器人采集药品数据

2.1 打开药品数据网

2.2 循环每一页药品数据

2.2.1 进入列表页面

2.2.2 获取分页数据

获取总页码,便于我们使用循环,依次采集每个页面的药品数据

开始循环分页采集,演示中,我们只采集第一页

2.2.3 获取药品数据列表

使用循环相似元素,将本页面的药品数据放入到一个列表中

2.2.4 下一页数据

通过以上的操作步骤,我们可以获取到每一页的药品数据,然后,我们依次点击,进入详情页来正式采集药品数据

3.3药品详情页采集药品数据

药品数据都是在详情页面中获取的,前边我们已经做好了准备工作,现在我们正式开始,详情页大体可以看成2个部分,我们通过观察可以发现,这个2个部分都很有规律,可以使用循环相似元素指令获取,不用通过获取元素信息指令单个采集。

3.3.1  进入详情页

我们先设置一个列表变量,存放采集的数据,每次采集完成后,将其写入excel

3.3.2  药品采集

采集药品名称与介绍

采集类型与参考价

这里有个判断,主要是过滤我们不需要采集的信息

其他说明采集

通过以上的采集,我们把想要的数据都写入到一个列表中,准备写入。

3.4 保存数据到excel

新建excel文件,设置好字段

数据写入excel中,自动保存

最终展示:

3 数据采集后思考

数据采集后的数据处理是一个关键步骤,它直接影响到数据分析的质量和最终结果的准确性。以下是一些数据处理的思考和最佳实践:

3.1 数据清洗

  • 处理缺失值:通过删除、填充或插值等方法处理缺失数据。
  • 去除重复:识别并删除重复记录,确保数据的唯一性。
  • 纠正错误:修正明显的错误或不一致的数据,如错误的格式、拼写错误等。

3.2 数据转换

  • 格式统一:将数据转换成统一的格式,便于分析和处理。
  • 归一化:对数据进行标准化或归一化处理,使其整洁,统一。

3.3 数据存储

  • 选择合适的存储格式和数据库,如关系型数据库、NoSQL数据库或数据仓库。
  • 同时需要考虑数据检索是否方便

3.4 持续维护

  •  随着时间的推移和数据的更新,定期维护和更新数据处理流程。

3.5 遵守法规

  • 确保数据处理过程遵守相关的数据保护法规和行业标准。

通过这些步骤,可以确保数据采集后的数据处理既高效又准确,为数据分析和决策提供坚实的基础。

4 最后

最后,国庆马上到了,祝大家开开心心,快快乐乐!

感谢大家,请大家多多支持!

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • DNS解析常见问题:什么是DNS泛解析?如何设置泛解析?
  • LabVIEW软件维护的内容是什么呢?
  • 1.5 计算机网络的性能指标
  • Docker自定义构建镜像dockerfile和使用数据卷
  • lettuce引起的Redis command timeout异常
  • Linux入门2
  • 设计支持 50 万 QPS 的站内未读消息系统
  • 【ShuQiHere】 探索数据挖掘的世界:从概念到应用
  • 安全测试|如何使用burpsuite+xray实现联动测试
  • windows远程控制[机房电脑-本机] 解决黑屏问题
  • Java项目实战II基于Java+Spring Boot+MySQL的读书笔记共享平台(开发文档+数据库+源码)
  • c++中类模板的使用
  • 借条空白处签字,“见证人”还是“共同借款人”?
  • Frontiers出版社系列SCISSCI合集
  • 数据分析学习之学习路线
  • 【个人向】《HTTP图解》阅后小结
  • 03Go 类型总结
  • C++入门教程(10):for 语句
  • echarts花样作死的坑
  • Flannel解读
  • js数组之filter
  • Rancher如何对接Ceph-RBD块存储
  • Redash本地开发环境搭建
  • STAR法则
  • tensorflow学习笔记3——MNIST应用篇
  • Terraform入门 - 3. 变更基础设施
  • Wamp集成环境 添加PHP的新版本
  • windows-nginx-https-本地配置
  • 第三十一到第三十三天:我是精明的小卖家(一)
  • 多线程 start 和 run 方法到底有什么区别?
  • 发布国内首个无服务器容器服务,运维效率从未如此高效
  • 前端面试题总结
  • 微信开放平台全网发布【失败】的几点排查方法
  • [Shell 脚本] 备份网站文件至OSS服务(纯shell脚本无sdk) ...
  • 选择阿里云数据库HBase版十大理由
  • ​​​​​​​ubuntu16.04 fastreid训练过程
  • #162 (Div. 2)
  • #QT(TCP网络编程-服务端)
  • (3)Dubbo启动时qos-server can not bind localhost22222错误解决
  • (ctrl.obj) : error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MDd_DynamicDebug”不匹配值“
  • (SERIES12)DM性能优化
  • (动态规划)5. 最长回文子串 java解决
  • (附源码)spring boot火车票售卖系统 毕业设计 211004
  • (附源码)小程序 交通违法举报系统 毕业设计 242045
  • (过滤器)Filter和(监听器)listener
  • (七)Activiti-modeler中文支持
  • (十六)Flask之蓝图
  • (十六)串口UART
  • (转)关于多人操作数据的处理策略
  • .bashrc在哪里,alias妙用
  • .md即markdown文件的基本常用编写语法
  • .NET Compact Framework 3.5 支持 WCF 的子集
  • .net core 依赖注入的基本用发
  • .Net Core与存储过程(一)
  • .NET Micro Framework初体验