当前位置: 首页 > news >正文

ip地址开发场景问题

        这种问题一般是出现在我们的项目日志中,可能想去收集某一个时间段内,或者说时某一个时间点的ip地址,或者说是想从大量数据中,选出ip地址出现次数最多的ip。大概是分为这几个问题。

1.亿万级数据中如何快速取出某一天的ip地址。

        这里面提到了如何快速取出某一天的ip地址,那么这里面我们是不去考虑缓存redis,或者说是数据库性能包括读写分离,主从集群这样的设计的。那么如何能够在这个基础之上,去进行优化。

        因此我们需要从数据结构的角度去入手,快速定位的结构,肯定首先想到的就是hashmap,那么这个节点的key和value怎么设计?这里就可以将key设定为某一天,然后节点就是一个链表,让他这样定位进行存储就可以了。

2.亿万级数据中如何快速取出某一个时间段的ip地址。

        当遇到这个问题的时候,因为是范围查询,我的第一个想法就是b+树,但是这个b+树无论是在代码里实现起来还是说维护起来都是成本很高,并且很占内存。因此我第二个想法是跳表skiplist,但是对于说是利用原生态的代码进行实现,还是也有一定的成本。所以我们把思路回到第一个问题,能否直接将map节点的key改成一个范围值,对应的范围全部映射到这个节点里面,这样还能提高查询效率,不免为一个很好的角度。

3.亿万级数据中,内存有限的情况下,如何快速统计出ip出现次数最多的ip地址。

        当遇到这个问题的时候,我的第一反应是这类似于topk问题。首先明确的一点,想要快速统计,那么就是外边redis这样的缓存。那么这里是直接利用操作系统的内存,应该如何设计?可能第一个想法就是处理top几?一般就是采用堆的流式计算,外加多线程去提高效率。但是有个前提就是,内存是不够的,无法一次性去放入很多数据。因此我们需要采用外部设备,例如硬盘来相互配合。所以,我们不得不将这整体的数据先放到硬盘里面,再将硬盘里的数据读入到缓存里面进行计算。

        好了大概思路有了,那么问题来了?我们把数据分散存储在硬盘中,bane输入内存的数据是什么呢,输入之后又是如何进行计算的,输出的数据是什么,输出的数据如何进行存储,最后的数据又如何进行汇总统计,其实这都是问题。

        如果说,我们的数据可以在内存里面全部存放,那ok,直接流式计算,输入数据,如果最小堆没有满,如果堆里没有该数据,则放入,如果堆满了,就将该数据的计数加1,如果当前元素计数大于堆顶元素,则堆顶元素移除,当前元素放进去。

        好了,那么现在我们硬盘里的数据已经分好了,输入内存进行计算,输出的数据是排好序的,我们再对排好序的前几行数据进行汇总,再次形成多个排好序的文件,重复输入内存计算的操作,那么最后得出来的那个文件是不是就是出现次数最多的呢?

        其实答案不是的,因为我们忘记考虑了一点,就是假如A地址有100个,B地址有20个,如果分为10个文件,其中A被平均的分配到10个文件里面,但是B却集中在了其中的一个里面,结果就会出现,其中1个A文件的ip地址在计算次数的过程中会被过滤,那么如果出现类似B的C,D等地址,最终的统计结果将会导致不正确。所以,我们在对文件进行初次分片的时候,就应该将相同的ip地址放到一起,那么如何做到呢?第一个想法就是对ip地址进行模运算就可以了,这样就可以做到相同的ip地址放到一个文件里,最后再进行堆的计算就可以了。

        

相关文章:

  • 若依分离版 —引入echart连接Springboot后端
  • 南京观海微电子---Vitis HLS的工作机制——Vitis HLS教程
  • 51单片机学习9 串口通讯
  • 为wordpress特定分类目录下的内容添加自定义字段
  • 2021年XX省赛职业院校技能大赛”高职组 计算机网络应用赛项 网络构建模块竞赛真题
  • vscode使用Runner插件将.exe文件统一放到一个目录下
  • git基础-tagging
  • 【服务器】常见服务器高危端口
  • 爬取搜狗翻译项目实例
  • 网络协议栈--传输层--UDP/TCP协议
  • 简单的查看iPhone储存空间的几种方法,总有一种是你想要的
  • nginx mirror 流量镜像
  • [flask]http请求//获取请求头信息+客户端信息
  • 【C++】手撕哈希表的闭散列和开散列
  • Day08 Java复习8 Spring MVC概念
  • 【node学习】协程
  • 【跃迁之路】【444天】程序员高效学习方法论探索系列(实验阶段201-2018.04.25)...
  • go语言学习初探(一)
  • iBatis和MyBatis在使用ResultMap对应关系时的区别
  • JavaScript DOM 10 - 滚动
  • Javascript Math对象和Date对象常用方法详解
  • js算法-归并排序(merge_sort)
  • October CMS - 快速入门 9 Images And Galleries
  • PHP变量
  • Traffic-Sign Detection and Classification in the Wild 论文笔记
  • 前端面试题总结
  • 强力优化Rancher k8s中国区的使用体验
  • 巧用 TypeScript (一)
  • 入门到放弃node系列之Hello Word篇
  • 推荐一款sublime text 3 支持JSX和es201x 代码格式化的插件
  • 微信小程序开发问题汇总
  • 一个SAP顾问在美国的这些年
  • 因为阿里,他们成了“杭漂”
  • LevelDB 入门 —— 全面了解 LevelDB 的功能特性
  • LIGO、Virgo第三轮探测告捷,同时探测到一对黑洞合并产生的引力波事件 ...
  • ​TypeScript都不会用,也敢说会前端?
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • #考研#计算机文化知识1(局域网及网络互联)
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (3)选择元素——(17)练习(Exercises)
  • (Matlab)基于蝙蝠算法实现电力系统经济调度
  • (windows2012共享文件夹和防火墙设置
  • (附源码)小程序 交通违法举报系统 毕业设计 242045
  • (切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包
  • .【机器学习】隐马尔可夫模型(Hidden Markov Model,HMM)
  • .net core MVC 通过 Filters 过滤器拦截请求及响应内容
  • .NET 反射的使用
  • .NET 将混合了多个不同平台(Windows Mac Linux)的文件 目录的路径格式化成同一个平台下的路径
  • .net和php怎么连接,php和apache之间如何连接
  • @取消转义
  • @在php中起什么作用?
  • [ Algorithm ] N次方算法 N Square 动态规划解决
  • [ vulhub漏洞复现篇 ] JBOSS AS 5.x/6.x反序列化远程代码执行漏洞CVE-2017-12149
  • [ 第一章] JavaScript 简史
  • []FET-430SIM508 研究日志 11.3.31