当前位置: 首页 > news >正文

算法:TopK问题

题目

有10亿个数字,需要找出其中的前k大个数字。

为了方便讲解,这里令k为5。

思路分析(以找前k大个数字为例)

很容易想到,进行排序,然后取前k个数字即可。
但是,难点在于,10亿个数字,假设每个数字都是int,就需要40亿个字节,接近40G的内存,这是很恐怖的数据,肯定不可能直接进行排序。

那我们怎么办呢?

我们可以建一个k个元素的堆
找前k大的数字建小堆,找前k小的数字建大堆
接着,将剩下N - k个数字与堆顶元素比较
如果比堆顶元素大,就进入堆,向下调整,维护好堆
遍历完所有的数字即可
最终堆里面的元素就是前k大个数字

思路虽然不好想,但是理解起来还是比较简单的,
难点在于,为什么找前k个大数字要建小堆呢?

OK,我们先假设,建大堆。
当中途找到了最大的数字,这个数字就会一直再堆顶,如果后面还有其他前k大的数字,但小于最大的数字,就会被挡住,无法进入堆。

所以找前k大个数字要建小堆,找前k小个数字要建大堆,是相同的道理。

时间复杂度分析

如果采用排序来寻找前K大个数字,时间复杂度是O(N * logN)
但是采用建堆的思路,时间复杂度是O(K + (N - K) *logK)
因为N是远大于K的,所以,时间复杂度为O(N),优于排序算法。
而且空间复杂度也非常小。

整体思路上完全优于排序算法。

代码

10亿个数据太难造了,这里就简单使用10万个数据模拟一下吧
用随机数模拟出10万个数据,接着进行打桩,在这10万个数据中造出一些特殊数据,这里为1000001,1000002,1000003,1000004,1000005

void CreateNDate()
{// 造数据int n = 100000;srand(time(0));const char* file = "data.txt";FILE* fin = fopen(file, "w");if (fin == NULL){perror("fopen error");return;}for (size_t i = 0; i < n; ++i){int x = rand() % 1000000;if (i == 333)x = 1000001;if (i == 444)x = 1000002;if (i == 555)x = 1000003;if (i == 666)x = 1000004;if (i == 777)x = 1000005;fprintf(fin, "%d\n", x);}fclose(fin);
}void TopK(int k)
{const char* file = "data.txt";FILE* fout = fopen(file, "r");if (fout == NULL){perror("fopen error");return;}int* heap = new int[k];for (int i = 0; i < k; i++){fscanf(fout, "%d", &heap[i]);}for (int i = (k - 1 - 1) / 2; i >= 0; --i){AdjustDown(heap, k, i);}int x = 0;while (fscanf(fout, "%d", &x) != EOF){if (x > heap[0]){heap[0] = x;AdjustDown(heap, k, 0);}}for (int i = 0; i < k; ++i){cout << heap[i] << " ";}cout << endl;
}int main()
{CreateNData();TopK(5);return 0;
}

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • “药乡”怀化,按下产业向海“加速键”
  • 95-java synchronized和reentrantlock区别
  • 前后端分离项目--下载功能
  • 基于高通主板的ARM架构服务器
  • 【自然语言处理】实验三:新冠病毒的FAQ问答系统
  • Golang | Leetcode Golang题解之第406题根据身高重建队列
  • linux服务器配置及服务器资源命令使用查看
  • 【鸿蒙应用】总结一下ArkUI
  • 力扣题解2848
  • 【C语言】分支和循环(下)
  • C语言指针和数组梳理
  • opencv之图像轮廓(三)--凸包
  • Unity SRP 可编程渲染管线的基本用法
  • Python——俄罗斯方块
  • 『功能项目』切换职业面板【48】
  • Android 控件背景颜色处理
  • Angular 2 DI - IoC DI - 1
  • classpath对获取配置文件的影响
  • Javascript弹出层-初探
  • OSS Web直传 (文件图片)
  • python_bomb----数据类型总结
  • React系列之 Redux 架构模式
  • STAR法则
  • Terraform入门 - 3. 变更基础设施
  • Vim Clutch | 面向脚踏板编程……
  • windows下如何用phpstorm同步测试服务器
  • Yeoman_Bower_Grunt
  • 搭建gitbook 和 访问权限认证
  • 对超线程几个不同角度的解释
  • 聊聊flink的TableFactory
  • 适配mpvue平台的的微信小程序日历组件mpvue-calendar
  • 携程小程序初体验
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • 白色的风信子
  • ​HTTP与HTTPS:网络通信的安全卫士
  • ​LeetCode解法汇总1276. 不浪费原料的汉堡制作方案
  • #NOIP 2014#Day.2 T3 解方程
  • (2)STL算法之元素计数
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (js)循环条件满足时终止循环
  • (MATLAB)第五章-矩阵运算
  • (超简单)使用vuepress搭建自己的博客并部署到github pages上
  • (附源码)计算机毕业设计高校学生选课系统
  • (蓝桥杯每日一题)love
  • (六)什么是Vite——热更新时vite、webpack做了什么
  • (论文阅读30/100)Convolutional Pose Machines
  • (论文阅读40-45)图像描述1
  • (三十五)大数据实战——Superset可视化平台搭建
  • (转) 深度模型优化性能 调参
  • (转)原始图像数据和PDF中的图像数据
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • .bat批处理(五):遍历指定目录下资源文件并更新
  • .NET C# 使用 iText 生成PDF
  • .NET/C# 中设置当发生某个特定异常时进入断点(不借助 Visual Studio 的纯代码实现)
  • .NET周刊【7月第4期 2024-07-28】