当前位置: 首页 > news >正文

一款爆红的开源爬虫工具箱

来自:开源最前线(ID:OpenSourceTop)

国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!

有多火呢?开源没几天就登上GitHub周榜第四,标星1.3K,累计分支 172 个(GitHub地址:https://github.com/kangvcar/InfoSpider)

在这样一个信息爆炸的时代,每个人都有很多个账号,账号一多就会出现这么一个情况:个人数据分散在各种各样的公司之间,就会形成数据孤岛,多维数据无法融合,这个项目可以帮你将多维数据进行融合并对个人数据进行分析,这样你就可以更直观、深入了解自己的信息。

InfoSpider 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。 

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

根据创建者介绍,InfoSpider 具有以下特性:

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。

  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。

  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下。

  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。

  • 数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。

  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。

  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。

InfoSpider使用起来也非常简单,你只需要安装python3和Chrome浏览器,运行 python3 main.py,在打开的窗口点击数据源按钮, 根据提示选择数据保存路径,接着输入账号密码,就会自动爬取数据,根据下载的目录就可以查看爬下来的数据。

是不是很简单呢,如果你对InfoSpider也感兴趣,赶紧试一下。

精彩回顾

♡ 程序员究竟能干多少年?

♡ 互联网公司各岗位真实工作内容起底

♡ 一次尴尬的采访和程序员的传奇脑洞!

♡ 天一冷,程序员都穿上格子衫

♡ 史上最真实的行业鄙视链曝光

♡ IT公司老板落水,各部门员工怎么救

♡ 宿命之战:程序员VS产品经理

♡ 作为一个前端,可以如何机智地弄坏一台电脑?

♡ 程序员跟产品经理打起来了,这是一个需求引发的血案...

♡ 后端说,你个前端不会用 headers吧,我怒了!

♡ 有个厉害的程序员女朋友是什么体验?

♡ 多年来,程序员经常加班的真相终于揭开了…

相关文章:

  • 我删除了一段看起来没用的代码…
  • 这是我见过最简单粗暴的辞职书了
  • 你需要知道的网页渲染性能优化方法(上)
  • 38岁程序员面试,被一个小20多岁的HR问得发火了,网友:回答的没毛病
  • 955 不加班的公司名单:955.WLB
  • 求求你们了,别再写满屏的 if else 了!
  • CSS 故障艺术
  • 2020 年 11月 程序员工资统计,平均 14327 元
  • 哈哈哈,这个教人写出烂代码的项目在 GitHub 上火了...
  • 各个大厂的 404 页面!最后一个笑shi我了...
  • 95后程序员连续15天加班到凌晨2点在餐厅泪崩!看到955不加班的公司名单,酸哭了...
  • 面试官:聊聊对Vue.js框架的理解
  • TCP vs UDP
  • 搞网络最强的其实不是互联网公司,而是印度的电工!
  • 微信新表情,程序员的正确使用指南
  • [原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化
  • 【407天】跃迁之路——程序员高效学习方法论探索系列(实验阶段164-2018.03.19)...
  • 03Go 类型总结
  • canvas 五子棋游戏
  • LeetCode刷题——29. Divide Two Integers(Part 1靠自己)
  • Less 日常用法
  • Map集合、散列表、红黑树介绍
  • WordPress 获取当前文章下的所有附件/获取指定ID文章的附件(图片、文件、视频)...
  • 跨域
  • 前端知识点整理(待续)
  • 如何在GitHub上创建个人博客
  • 深入浅出Node.js
  • 实习面试笔记
  • 使用API自动生成工具优化前端工作流
  • 我是如何设计 Upload 上传组件的
  • 我与Jetbrains的这些年
  • 消息队列系列二(IOT中消息队列的应用)
  • 7行Python代码的人脸识别
  • PostgreSQL之连接数修改
  • raise 与 raise ... from 的区别
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • (31)对象的克隆
  • (Git) gitignore基础使用
  • (附源码)ssm失物招领系统 毕业设计 182317
  • (黑马C++)L06 重载与继承
  • (力扣)循环队列的实现与详解(C语言)
  • (数位dp) 算法竞赛入门到进阶 书本题集
  • (转)EXC_BREAKPOINT僵尸错误
  • *** 2003
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • .NET 4.0网络开发入门之旅-- 我在“网” 中央(下)
  • .net操作Excel出错解决
  • .NET设计模式(8):适配器模式(Adapter Pattern)
  • @data注解_SpringBoot 使用WebSocket打造在线聊天室(基于注解)
  • [ CTF ] WriteUp- 2022年第三届“网鼎杯”网络安全大赛(朱雀组)
  • [04] Android逐帧动画(一)
  • [20171113]修改表结构删除列相关问题4.txt
  • [Angular] 笔记 6:ngStyle
  • [C]编译和预处理详解