当前位置: 首页 > news >正文

互联网数据管理平台

互联网数据管理平台

  1. 平台综述
  2. 数据采集
  3. 数据存储
  4. 数据特征化
  5. 数据展示

文章目录

  • 互联网数据管理平台
  • 前言
  • 一、综述
  • 二、四大模块
    • 1、数据采集
    • 2、数据存储
    • 3、数据特征化
    • 4、数据展示
  • 总结


前言

该平台主要用于数据采集,保存,并便于搜索,展示的数据平台。


一、综述

整个平台使用k8s部署,scrapy做数据采集,mysql做存储,es做搜索,apscheduler做调度,grafana做监控。文章以平台构建流程为主线,依次记录各部分的实现过程。

二、四大模块

1、数据采集

数据采用的爬虫的形式爬取互联网的数据或者链接
爬虫主要使用scrapy使用,为了提高爬取效率,适当构建IP资源池,开启多并发来爬取目标网站。
爬取的内容以图片和文字为主,涉及的主题包含美食,旅游,技术文档,多为文章,评论等内容。
文本需要根据主题归类,并提取摘要。
图片需要根据主题归类,并去除水印。

2、数据存储

数据存储使用mysql和elasticsearch。
根据数据来源不同进行分表处理,对于数据量较大的渠道进行必要的数据清洗。

3、数据特征化

对数据进行情感分类,文本摘要,关键字提取,观点识别等标签化处理。

4、数据展示

对最终爬取到的结构的标签进行适当的展示,区分实时与定时报表,形式为top排行榜。


总结

路漫漫其修远兮,吾将上下而求索。

相关文章:

  • 本科行政管理毕业论文什么题目好写点?
  • kmp の 笔记
  • 最新网站证书提示风险的原因和几个解决方法
  • lambda表达式(C++11)
  • java计算机毕业设计图书共享系统源代码+数据库+系统+lw文档
  • 用Python生成Hilbert矩阵
  • 云计算与云原生
  • JBoss安装并部署war包
  • VGG论文
  • Tableau1——条形图和直方图
  • 微信小程序新手向——界面布局
  • [ vulhub漏洞复现篇 ] Django SQL注入漏洞复现 CVE-2021-35042
  • 宠物狗网页制作作业 保护动物网页设计模板 简单学生网页设计 静态HTML CSS网站制作成品
  • java毕业设计——基于java+Applet+access的综合测评系统设计与实现(毕业论文+程序源码)——综合测评系统
  • 索引的数据结构(2)
  • [ 一起学React系列 -- 8 ] React中的文件上传
  • 「译」Node.js Streams 基础
  • CentOS7 安装JDK
  • hadoop集群管理系统搭建规划说明
  • Java比较器对数组,集合排序
  • Mac转Windows的拯救指南
  • RedisSerializer之JdkSerializationRedisSerializer分析
  • vue-loader 源码解析系列之 selector
  • 分布式任务队列Celery
  • 前端性能优化——回流与重绘
  • 使用agvtool更改app version/build
  • 使用putty远程连接linux
  • 温故知新之javascript面向对象
  • kubernetes资源对象--ingress
  • Nginx实现动静分离
  • ​ ​Redis(五)主从复制:主从模式介绍、配置、拓扑(一主一从结构、一主多从结构、树形主从结构)、原理(复制过程、​​​​​​​数据同步psync)、总结
  • #if 1...#endif
  • #Z0458. 树的中心2
  • %3cscript放入php,跟bWAPP学WEB安全(PHP代码)--XSS跨站脚本攻击
  • (C语言)共用体union的用法举例
  • (PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测
  • (附源码)python房屋租赁管理系统 毕业设计 745613
  • (心得)获取一个数二进制序列中所有的偶数位和奇数位, 分别输出二进制序列。
  • (一)基于IDEA的JAVA基础1
  • (原創) 如何使用ISO C++讀寫BMP圖檔? (C/C++) (Image Processing)
  • (转)MVC3 类型“System.Web.Mvc.ModelClientValidationRule”同时存在
  • (转)原始图像数据和PDF中的图像数据
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • .net web项目 调用webService
  • .NET 除了用 Task 之外,如何自己写一个可以 await 的对象?
  • .NET 中小心嵌套等待的 Task,它可能会耗尽你线程池的现有资源,出现类似死锁的情况
  • .net解析传过来的xml_DOM4J解析XML文件
  • .net经典笔试题
  • .NET与java的MVC模式(2):struts2核心工作流程与原理
  • /usr/bin/python: can't decompress data; zlib not available 的异常处理
  • @DateTimeFormat 和 @JsonFormat 注解详解
  • [20180129]bash显示path环境变量.txt
  • [Android Studio] 开发Java 程序
  • [C#小技巧]如何捕捉上升沿和下降沿
  • [CUDA 学习笔记] CUDA kernel 的 grid_size 和 block_size 选择