当前位置: 首页 > news >正文

程序员搞副业一些会用到的工具

微信号采集(爬虫)技术的选型 那么,我们应该使用什么技术来从庞大的网页内容中自动筛选和提取微信号呢?答案就是:数据采集技术,也就是爬虫技术。

然而,数据采集技术种类繁多,我们具体应该采用哪一个呢? 针对我们的需求,我对常见的爬虫技术进行了调研、实践和对比,汇总如下:

从新人上手、采集范围、灵活应变程度、免费程度、采集速度这五个方面划分,重要系数是越重要的我会给分给的高一点。

我们需求是从网页中采集微信号,站在需求角度,老板思维,对技术的选择考虑是我们要选择简单的技术,能快速的完成我们需求,这是我们重中之重,所以新手上手的重要系数权重我给的权重很高。

我们需求也没有特别高的采集要求(只是把微信号从正文内容和评价内容中过滤出来)

免费程度要求也不高,如果付费能直接解决我需求,那更加省时省心。

采集速度要求也不高,不管多慢,在技术层面,都比人工效率最起码高个几十倍,足以满足需求。

当代技术思维,对技术的选择标准是(迷思) 一定要选择最流行的技术,只有最流行的技术才能显出自己的前瞻性! 处理能力当然越强越好! 操作当然是越简便越好!

付费是不可能的,我宁愿通宵达旦地寻找免费资源,也不愿意为高级功能支付一分钱! 执行效率,单一进程已经满足不了我追求效率的心愿,多任务处理才是我的选择! 所以一开始我就把Java和Oracle数据库排除了,Java学习曲线太陡峭,门槛太高,对新手友好度几乎为零。

虽然相对于Java而言,Oracle数据库用户友好得多,但比起MySQL、PostgreSQL这些更现代的数据库来说,Oracle数据库的操作复杂多了。

仿写的内容不符合指令,需要重新仿写。 而Web Scraper对于我们这些懂技术的人来说,配置和使用还算得上简单,但对于技术小白来说,学习起来还是有一定难度的,因此并不是特别推荐。

火车头对于老一辈的站长来说,几乎是人尽皆知,几乎每个资深站长都曾用火车头来采集数据,更新自己的网站内容。

从火车头软件那复古的配置界面风格就能看出,这款产品已经有一定的历史了。尤其是官网的视频教程,竟然还是2018年的版本,真不知道这款产品多久没更新了。

而相较于火车头,八爪鱼的软件界面配置显得更为简洁。

八爪鱼的智能采集功能使得数据采集变得异常简单,只需点击鼠标即可自动完成爬虫配置。 其内置的众多模板也许正好满足你的需求,直接套用即可解决问题,甚至无需智能识别。

因此,八爪鱼毫无疑问成为了技术选择的首选!你会发现,最合适的技术往往也是最简单的技术! 另外,虽然RPA也能进行爬虫数据采集,在采集范围、灵活应变、免费程度和采集速度方面表现不俗,但RPA的学习门槛相对较高。

RPA能够模拟人工自动化处理更多场景的任务,因此如果仅用于数据采集,似乎有点大材小用。 此外,提到八爪鱼,许多人也听说过另一款数据采集产品:后裔采集器。

我专门测试调研过后裔采集器,个人认为其智能模式比八爪鱼更加简单易用(尽管它没有模板库,这是一个不小的缺点)。

然而,这款产品内置的IE浏览器在采集知识星球时会出现报错(知识星球不支持低版本的IE浏览器,而八爪鱼内置的是Chrome浏览器,完全没有这个问题)。其他平台没有测试,暂时没有其他问题。

相关文章:

  • SpringBoot+Vue图书管理系统(前后端分离)
  • 配网终端通讯管理板,稳控装置通讯管理卡,铁路信号通讯管理卡
  • loading组件封装原理
  • 关于xilinx srio ip复位问题
  • 【复现】含能量路由器的交直流混合配电网潮流计算
  • Ubuntu22.04下源码编译安装pythonocc-7.8
  • 五分钟上手IoT小程序
  • Java基础 - 日期时间(Calendar)
  • Docker面试整理-什么是Docker Compose?
  • JimuReport 积木报表 v1.7.52 版本发布,免费的低代码报表
  • 2024050702-重学 Java 设计模式《实战状态模式》
  • PowerDesigner遍历导出所有表结构到Excel
  • Linux shell编程基础
  • 2024-06-08 Unity 编辑器开发之编辑器拓展9 —— EditorUtility
  • Linux Swap Cache
  • 「译」Node.js Streams 基础
  • Android系统模拟器绘制实现概述
  • gcc介绍及安装
  • Mybatis初体验
  • vue学习系列(二)vue-cli
  • 对超线程几个不同角度的解释
  • 关于使用markdown的方法(引自CSDN教程)
  • 浏览器缓存机制分析
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 推荐一款sublime text 3 支持JSX和es201x 代码格式化的插件
  • 我感觉这是史上最牛的防sql注入方法类
  • AI又要和人类“对打”,Deepmind宣布《星战Ⅱ》即将开始 ...
  • Prometheus VS InfluxDB
  • 阿里云API、SDK和CLI应用实践方案
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • #### go map 底层结构 ####
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (14)目标检测_SSD训练代码基于pytorch搭建代码
  • (8)STL算法之替换
  • (C语言)编写程序将一个4×4的数组进行顺时针旋转90度后输出。
  • (PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测
  • (二)WCF的Binding模型
  • (附源码)spring boot北京冬奥会志愿者报名系统 毕业设计 150947
  • (附源码)ssm基于jsp的在线点餐系统 毕业设计 111016
  • (附源码)ssm跨平台教学系统 毕业设计 280843
  • (十六)串口UART
  • (顺序)容器的好伴侣 --- 容器适配器
  • (原创) cocos2dx使用Curl连接网络(客户端)
  • (原創) 如何優化ThinkPad X61開機速度? (NB) (ThinkPad) (X61) (OS) (Windows)
  • (转)mysql使用Navicat 导出和导入数据库
  • ./configure,make,make install的作用(转)
  • .bat批处理(一):@echo off
  • .net 8 发布了,试下微软最近强推的MAUI
  • .NET IoC 容器(三)Autofac
  • .NET 常见的偏门问题
  • .NET(C#、VB)APP开发——Smobiler平台控件介绍:Bluetooth组件
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑
  • .xml 下拉列表_RecyclerView嵌套recyclerview实现二级下拉列表,包含自定义IOS对话框...
  • ??javascript里的变量问题
  • @CacheInvalidate(name = “xxx“, key = “#results.![a+b]“,multi = true)是什么意思