当前位置：首页 > news >正文

利用pig分析cdn访问日志内指定时间段的url访问次数

news 来源：原创 2024/5/20 13:19:22

需求说明：

由于cdn收费是按照最高带宽收费的，但是公司平台平均使用cdn带宽为100M多，但是有几个时间点的带宽，突然涨到300M，但是不到5分钟就回落下来了，但就是为5分钟的高出的带宽，公司就要多付费用，不划算，所以要配合研发分析峰值左右前后5分钟的url访问次数，定位问题！

cdn流量图如下：

目标：通过分析cdn日志中10点整到10点50之间的url访问次数，来判定故障源！

具体实现方式：

#以","为分割符，加载日志文件大排变量a

grunt> a = load '/user/hadoop/input/16456_2014102710_enclf.log'

>> using PigStorage(' ')

>> AS (a1,a2,a3,time,a5,a6,url,a8);

#过滤一行日志，只要time，和url列

grunt> b = foreach a generate time, url;

#只要时间是：10:40到10:50之间的行

grunt> b1 = filter b by time matches '.*2014:10:(40|41|42|43|44|45|46|47|48|49|50).*';

ps:下面的用的正则表达式(任选一个)：

grunt> b1 = filter b by time matches '\\[27/Oct/2014:(10:4[1-9]):.*';

#过滤出url

grunt> b2 = foreach b1 generate url;

grunt> c = group b2 by url;

#计算出相同url的访问次数；

grunt> d = foreach c generate group,COUNT($1);

#按照url访问次数从大到小排序

grunt> e = order d by $1 desc;

#显示变量e（结果）

grunt> dump e

#存储结果到hdfs相关目录中：

store e into '/user/hadoop/output/1027_1045.log';

ps:1027_1045.log 是一个目录，不是文件；

#把hdfs文件copy到本地目录中

copyToLocal 16456_2014102710_order.log /home/hadoop/.

#本地查看分析结果

[hadoop@node1 ~]$ cd 1027_1045.log

[hadoop@node1 1027_1045.log]$ cat part-r-00000 |more

转载于:https://blog.51cto.com/shineforever/1571124

6本Python好书上新，来撩~

cursor:hand与cursor:pointer的区别介绍

【AC自动机】AC自动机

Java 生成 exe 文件

大数据分析工具如何摆脱样子工程？

学习Android怎么在未来站稳脚跟

预测《权游》角色生死，AI算法魔力何在？

R语言学习笔记：因子

转:开源3D引擎介绍

1. 容器化部署一套云服务第一讲 Jenkins（Docker + Jenkins + Yii2 + 云服务器)）

Go Object Oriented Design

Spring Boot 2.2 第二个里程碑 M2 发布

获取GET/POST提交的数据，并处理中文问题

各种日期格式获取

SipHash 算法流程

自己简单写的事件订阅机制

flutter的key在widget list的作用以及必要性

Git同步原始仓库到Fork仓库中

JAVA并发编程--1.基础概念

linux安装openssl、swoole等扩展的具体步骤

Mysql优化

STAR法则

tensorflow学习笔记3——MNIST应用篇

vagrant 添加本地 box 安装 laravel homestead

Vue 动态创建 component

vue2.0开发聊天程序(四) 完整体验一次Vue开发（下）

前端技术周刊 2019-01-14：客户端存储

前端每日实战 2018 年 7 月份项目汇总（共 29 个项目）

微服务框架lagom

鱼骨图 - 如何绘制？

宾利慕尚创始人典藏版国内首秀，2025年前实现全系车型电动化 | 2019上海车展 ...

力扣解法汇总946-验证栈序列

!$boo在php中什么意思,php前戏

#Java第九次作业--输入输出流和文件操作

#QT（一种朴素的计算器实现方法）

#Z0458. 树的中心2

(done) ROC曲线和 AUC值分别是什么？

（Mac上）使用Python进行matplotlib 画图时，中文显示不出来

(pojstep1.1.2)2654(直叙式模拟)

（四）汇编语言——简单程序

(转载)Linux 多线程条件变量同步

***php进行支付宝开发中return_url和notify_url的区别分析

.Net Core/.Net6/.Net8 ，启动配置/Program.cs 配置

.NET/C# 使窗口永不获得焦点

.Net下使用 Geb.Video.FFMPEG 操作视频文件

@ConditionalOnProperty注解使用说明

@Query中countQuery的介绍

@transaction 提交事务_【读源码】剖析TCCTransaction事务提交实现细节

[ vulhub漏洞复现篇 ] AppWeb认证绕过漏洞（CVE-2018-8715）

[ vulhub漏洞复现篇 ] Celery ＜4.0 Redis未授权访问+Pickle反序列化利用

[BUG] Authentication Error

[bzoj1912]异象石(set)

[C# 基础知识系列]专题十六：Linq介绍

[C#][opencvsharp]opencvsharp sift和surf特征点匹配

相关文章：