当前位置: 首页 > news >正文

计算机毕设 基于大数据的服务器数据分析与可视化系统 -python 可视化 大数据

文章目录

  • 0 前言
  • 1 课题背景
  • 2 实现效果
  • 3 数据收集分析过程
    • **总体框架图**
    • **kafka 创建日志主题**
    • **flume 收集日志写到 kafka**
    • **python 读取 kafka 实时处理**
    • **数据分析可视化**
  • 4 Flask框架
  • 5 最后

0 前言

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是

🚩 基于大数据的服务器数据分析与可视化系统

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:3分
  • 工作量:5分
  • 创新点:3分
  • 界面美化:5分

1 课题背景

基于python的nginx大数据日志分析可视化,通过流、批两种方式,分析 nginx 日志,将分析结果通过 flask + echarts 进行可视化展示

2 实现效果

24 小时访问趋势

在这里插入图片描述
每日访问情况
在这里插入图片描述

客户端设备占比
在这里插入图片描述

用户分布

在这里插入图片描述

爬虫词云

在这里插入图片描述

3 数据收集分析过程

总体框架图

在这里插入图片描述

kafka 创建日志主题

# 创建主题
kafka-topics --bootstrap-server gfdatanode01:9092 --create --replication-factor 3 --partitions 1 --topic nginxlog

flume 收集日志写到 kafka

创建 flume 到 kafka 的配置文件 flume_kafka.conf,配置如下

a1.sources = s1
a1.channels = c1
a1.sinks = k1     a1.sources.s1.type=exec
a1.sources.s1.command=tail -f /var/log/nginx/access.log
a1.sources.s1.channels=c1 #设置Kafka接收器
a1.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink
#设置Kafka地址
a1.sinks.k1.brokerList=172.16.122.23:9092
#设置发送到Kafka上的主题
a1.sinks.k1.topic=nginxlog
#设置序列化方式
a1.sinks.k1.serializer.class=kafka.serializer.StringEncoder
a1.sinks.k1.channel=c1     a1.channels.c1.type=memory
a1.channels.c1.capacity=10000
a1.channels.c1.transactionCapacity=100  

启动 flume

flume-ng agent -n a1 -f flume_kafka.conf

python 读取 kafka 实时处理

通过 python 实时处理 nginx 的每一条日志数据,然后写到 mysql 。

from kafka import KafkaConsumerservers = ['172.16.122.23:9092', ]
consumer = KafkaConsumer(bootstrap_servers=servers,auto_offset_reset='latest',  # 重置偏移量 earliest移到最早的可用消息,latest最新的消息,默认为latest
)
consumer.subscribe(topics=['nginxlog'])
for msg in consumer:info = re.findall('(.*?) - (.*?) \[(.*?)\] "(.*?)" (\\d+) (\\d+) "(.*?)" "(.*?)" .*', msg.value.decode())log = NginxLog(*info[0])log.save()

数据分析可视化

-- 用户分布
select province, count(distinct remote_addr) from fact_nginx_log where device <> 'Spider' group by province;-- 不同时段访问情况
select case when device='Spider' then 'Spider' else 'Normal' end, hour(time_local), count(1) 
from fact_nginx_log 
group by case when device='Spider' then 'Spider' else 'Normal' end, hour(time_local);-- 最近7天访问情况
select case when device='Spider' then 'Spider' else 'Normal' end, DATE_FORMAT(time_local, '%Y%m%d'), count(1) 
from fact_nginx_log 
where time_local > date_add(CURRENT_DATE, interval - 7 day)
group by case when device='Spider' then 'Spider' else 'Normal' end, DATE_FORMAT(time_local, '%Y%m%d');-- 用户端前10的设备
select device, count(1)
from fact_nginx_log
where device not in ('Other', 'Spider') -- 过滤掉干扰数据
group by device
order by 2 desc
limit 10-- 搜索引擎爬虫情况
select browser, count(1) from fact_nginx_log where device = 'Spider' group by browser;

最后,通过 pandas 读取 mysql,经 ironman 进行可视化展示。

4 Flask框架

简介

Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比,Flask的灵活性、轻便性和安全性更高,而且容易上手,它可以与MVC模式很好地结合进行开发。Flask也有强大的定制性,开发者可以依据实际需要增加相应的功能,在实现丰富的功能和扩展的同时能够保证核心功能的简单。Flask丰富的插件库能够让用户实现网站定制的个性化,从而开发出功能强大的网站。

本项目在Flask开发后端时,前端请求会遇到跨域的问题,解决该问题有修改数据类型为jsonp,采用GET方法,或者在Flask端加上响应头等方式,在此使用安装Flask-CORS库的方式解决跨域问题。此外需要安装请求库axios。

Flask框架图

在这里插入图片描述
相关代码

import os
import syssys.path.append(os.path.dirname(os.path.abspath(__file__)) + '/../')from flask import Flask, render_template
from ironman.data import SourceData
from ironman.data_db import SourceDataapp = Flask(__name__)source = SourceData()@app.route('/')
def index():return render_template('index.html')@app.route('/line')
def line():data = source.linexAxis = data.pop('legend')return render_template('line.html', title='24小时访问趋势', data=data, legend=list(data.keys()), xAxis=xAxis)@app.route('/bar')
def bar():data = source.barxAxis = data.pop('legend')return render_template('bar.html', title='每日访问情况', data=data, legend=list(data.keys()), xAxis=xAxis)@app.route('/pie')
def pie():data = source.piereturn render_template('pie.html', title='客户端设备占比', data=data, legend=[i.get('name') for i in data])@app.route('/china')
def china():data = source.chinareturn render_template('china.html', title='用户分布', data=data)@app.route('/wordcloud')
def wordcloud():data = source.wordcloudreturn render_template('wordcloud.html', title='爬虫词云', data=data)if __name__ == "__main__":app.run(host='127.0.0.1', debug=True)

5 最后

相关文章:

  • 【数据结构】树与二叉树(四):满二叉树、完全二叉树及其性质
  • YOLOv5算法改进(22)— 更换主干网络MobileNetv3 + 添加CA注意力机制
  • KiKi知道了什么是质数,他现在想知道所有三位整数中,有多少个质数
  • viple进阶2:打印九九乘法表
  • SLAM从入门到精通(被忽视的基础图像处理)
  • STM32笔记—DMA
  • 2023年十大地推拉新接单平台和网推接单平台,都是一手单
  • mac电脑系统清理软件CleanMyMac X2024破解版下载
  • MySQL的备份恢复
  • Flink SQL DataGen Connector 示例
  • Git使用规范指南
  • 在 ASP.NET C# 中用Aspose.PDF将 PDF 页面转换为 JPG 图像
  • 浅谈电力物联网时代物联网技术在电力系统中的应用
  • 8年资深测试总结,接口自动化框架的设计与实现,一文打通...
  • Go:如何在GoLand中引用github.com中的第三方包
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • 30天自制操作系统-2
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • Angular 响应式表单之下拉框
  • Facebook AccountKit 接入的坑点
  • Java 9 被无情抛弃,Java 8 直接升级到 Java 10!!
  • JavaScript类型识别
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • Python 反序列化安全问题(二)
  • Python语法速览与机器学习开发环境搭建
  • Vue.js 移动端适配之 vw 解决方案
  • 创建一个Struts2项目maven 方式
  • 分享一份非常强势的Android面试题
  • 机器学习学习笔记一
  • 基于 Babel 的 npm 包最小化设置
  • 你不可错过的前端面试题(一)
  • 悄悄地说一个bug
  • 深入浅出webpack学习(1)--核心概念
  • 体验javascript之美-第五课 匿名函数自执行和闭包是一回事儿吗?
  • 微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
  • 微信小程序:实现悬浮返回和分享按钮
  • 阿里云IoT边缘计算助力企业零改造实现远程运维 ...
  • ​​快速排序(四)——挖坑法,前后指针法与非递归
  • ​configparser --- 配置文件解析器​
  • #《AI中文版》V3 第 1 章 概述
  • #LLM入门|Prompt#2.3_对查询任务进行分类|意图分析_Classification
  • ${ }的特别功能
  • (6)添加vue-cookie
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (附源码)ssm旅游企业财务管理系统 毕业设计 102100
  • (译) 理解 Elixir 中的宏 Macro, 第四部分:深入化
  • (译)2019年前端性能优化清单 — 下篇
  • (幽默漫画)有个程序员老公,是怎样的体验?
  • ***微信公众号支付+微信H5支付+微信扫码支付+小程序支付+APP微信支付解决方案总结...
  • .net core 依赖注入的基本用发
  • .NET DevOps 接入指南 | 1. GitLab 安装
  • .net Signalr 使用笔记
  • .NET 发展历程
  • .NET 反射 Reflect
  • .net 逐行读取大文本文件_如何使用 Java 灵活读取 Excel 内容 ?