当前位置: 首页 > news >正文

java面试-场景题

一、集合

1. java中如何给一个超大的一个亿左右的list数据去重?

我当时的回答是使用HashSet或Stream流的distinct语法。但是面试官好像更注重内存的消耗问题。

  • 使用HashSet:
    HashSet 是一个不允许有重复元素的集合。你可以将List中的元素添加到HashSet中,然后再将HashSet转换回List(如果你需要的话)。但请注意,这种方法只适用于可以安全地在HashSet中存储的元素(即实现了正确的hashCode()和equals()方法的对象)。
List<YourType> originalList = ... // 你的原始列表
Set<YourType> set = new HashSet<>(originalList);
List<YourType> uniqueList = new ArrayList<>(set);

但是,如果List中的元素非常大(例如,每个元素都是一个复杂的对象),那么将整个List添加到HashSet中可能会消耗大量内存。

  • 流式处理(Stream API):
    如果你使用的是Java 8或更高版本,你可以使用Stream API进行去重。但是,流式处理可能不适用于非常大的数据集,因为它需要在内存中构建中间结果。
List<YourType> uniqueList = originalList.stream().distinct().collect(Collectors.toList());

与HashSet方法类似,这种方法也依赖于元素的hashCode()和equals()方法的正确实现。

  • bigSet:参考:https://blog.csdn.net/qq_44591181/article/details/138843109
    个人柑橘bigSet更适合存数字的去重
import java.util.ArrayList;
import java.util.BitSet;
import java.util.HashMap;
import java.util.List;
import java.util.Map;class MyObject {private int id; // 假设对象有一个唯一的ID属性// 构造函数、getter、setter等...
}public class ListDeduplicationWithBitmapForObjects {// 假设我们有一个函数可以将对象映射到唯一的整数IDpublic static int getIdFromObject(MyObject obj) {return obj.getId(); // 示例:直接返回对象的ID属性}public static List<MyObject> deduplicateListWithBitmap(List<MyObject> list) {// 假设我们知道可能的最大ID是maxValue(实际情况中需要根据数据确定)int maxValue = ...; // 例如,如果你的ID范围是0到100000000,则maxValue = 100000000// 创建一个BitSet,大小为maxValue+1BitSet bitSet = new BitSet(maxValue + 1);// 遍历原始List,并将对象的ID设置为true在BitSet中for (MyObject obj : list) {int id = getIdFromObject(obj);if (id >= 0 && id <= maxValue) { // 确保ID在有效范围内bitSet.set(id);}}// 创建一个新的List来存储去重后的对象(如果需要的话)List<MyObject> deduplicatedList = new ArrayList<>();// 如果你需要保留去重后的对象列表,你可能需要额外的数据结构来存储对象与ID的映射// 这里只是一个简单的示例,我们假设你可以从ID直接获取到对象(这通常不现实)// 遍历BitSet(如果需要的话,可以将ID转换回对象并添加到deduplicatedList中)// 但在这个简单的示例中,我们仅打印去重后的IDfor (int i = bitSet.nextSetBit(0); i >= 0; i = bitSet.nextSetBit(i + 1)) {// MyObject obj = getObjectFromId(i); // 假设你有这样的函数可以从ID获取对象System.out.println(i); // 或者打印出对象的ID// deduplicatedList.add(obj); // 如果需要的话,将对象添加到列表中}// 注意:这个示例没有返回去重后的对象列表,因为它取决于你如何存储和检索对象// 根据你的具体需求,你可能需要实现getObjectFromId函数或其他逻辑来恢复对象return null; // 或者返回一个空的deduplicatedList,取决于你的需求}public static void main(String[] args) {// 示例:创建一个包含重复对象的ListList<MyObject> list = new ArrayList<>();// ... 添加对象到list中 ...// 去重(并可能打印结果,取决于你的实现)deduplicateListWithBitmap(list);}
}

内存占用比较:
在内存消耗有限制的场景中,使用BitSet来去重确实可以比使用HashSet更加节省内存,特别是在处理大量整数或可以映射到整数的对象时。但是,节省的内存量取决于具体的数据集和整数ID的分布情况。

以下是使用BitSet与HashSet去重时内存消耗的对比:

BitSet:

BitSet使用位(bit)来表示每个可能的元素是否出现过。因此,如果你知道可能的ID范围是0到maxValue,那么BitSet将使用(maxValue + 1) / 8个字节(因为一个字节有8位)。
BitSet不会为那些未使用的ID分配内存,因此它的内存使用是固定的,并且基于ID范围的上限。
HashSet:

HashSet使用哈希表来存储对象,每个对象都映射到一个哈希桶(bucket)。哈希表的大小通常是基于负载因子(load factor)和预期的元素数量来动态调整的。
对于整数,如果直接使用HashSet,那么每个Integer对象本身就需要一定的内存(大约16到24字节,取决于JVM和JVM设置)。此外,哈希表本身也需要额外的内存来存储桶数组和链表或红黑树(用于解决哈希冲突)。
对于对象,HashSet会存储对象的引用,所以实际的内存消耗还取决于对象的大小。
内存占用的减少量:

如果你的ID范围是连续的,并且你知道这个范围,那么BitSet的内存消耗将是固定的,并且通常远低于HashSet。
假设maxValue是100,000,000,BitSet将需要大约12.5MB((100,000,000 + 1) / 8 / 1024 / 1024)。而使用HashSet存储这么多Integer对象将需要显著更多的内存。
如果对象本身很大,那么HashSet的内存消耗将更高。
注意事项:

BitSet只适用于可以映射到整数ID的对象,并且这些ID的范围是已知的且相对较小的。
BitSet不支持直接存储对象,因此如果你需要保留去重后的对象列表,你需要额外的数据结构(如HashMap)来存储对象与ID之间的映射。
HashSet提供了更通用的去重功能,可以处理任何类型的对象,而不仅仅是整数或可以映射到整数的对象。
在选择使用哪种方法时,请考虑你的具体需求,包括内存限制、数据类型、对象大小以及是否需要保留去重后的对象列表等因素。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 嵌入式C/C++、FreeRTOS、STM32F407VGT6和TCP:智能家居安防系统的全流程介绍(代码示例)
  • Pycharm 和虚拟环境的那些事?
  • 【SASS/SCSS(三)】样式的复用与动态计算(@mixin和@function)
  • Qt编程技巧总结篇(6)-QCustomPlot绘图篇(一)
  • 客户在哪儿AI与其他服务于B端的科技产品有何不同
  • 华为ensp中ISIS原理与配置(超详细)
  • centos系统mysql数据库压缩备份与恢复
  • 宝塔国际版Docker Manager 3.4获取镜像列表报错解决办法
  • 百度,有道,谷歌翻译API
  • CRM客户管理系统是什么?如何利用CRM盘活老客户?
  • ASPICE在汽车软件开发中的作用
  • 使用水星Mecury人形机器人搭建VR遥操作控制平台!
  • 模方怎么把模型设置为初始的蓝色半透明模式?
  • Three 三维矩阵(Matrix3)、四维矩阵(Matrix4)
  • 【网络安全的神秘世界】 文件上传及验证绕过
  • 【node学习】协程
  • 2018一半小结一波
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • CSS 提示工具(Tooltip)
  • Javascripit类型转换比较那点事儿,双等号(==)
  • MySQL常见的两种存储引擎:MyISAM与InnoDB的爱恨情仇
  • October CMS - 快速入门 9 Images And Galleries
  • python学习笔记-类对象的信息
  • use Google search engine
  • 阿里云Kubernetes容器服务上体验Knative
  • 道格拉斯-普克 抽稀算法 附javascript实现
  • 悄悄地说一个bug
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 深入 Nginx 之配置篇
  • 使用Maven插件构建SpringBoot项目,生成Docker镜像push到DockerHub上
  • 远离DoS攻击 Windows Server 2016发布DNS政策
  • 【运维趟坑回忆录 开篇】初入初创, 一脸懵
  • ​云纳万物 · 数皆有言|2021 七牛云战略发布会启幕,邀您赴约
  • # linux 中使用 visudo 命令,怎么保存退出?
  • #HarmonyOS:Web组件的使用
  • #laravel部署安装报错loadFactoriesFrom是undefined method #
  • #设计模式#4.6 Flyweight(享元) 对象结构型模式
  • (11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
  • (7)svelte 教程: Props(属性)
  • (C语言)fread与fwrite详解
  • (Redis使用系列) SpringBoot 中对应2.0.x版本的Redis配置 一
  • (翻译)Entity Framework技巧系列之七 - Tip 26 – 28
  • (附源码)ssm旅游企业财务管理系统 毕业设计 102100
  • (三)Kafka 监控之 Streams 监控(Streams Monitoring)和其他
  • (十一)手动添加用户和文件的特殊权限
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (译) 理解 Elixir 中的宏 Macro, 第四部分:深入化
  • (转)大型网站架构演变和知识体系
  • . ./ bash dash source 这五种执行shell脚本方式 区别
  • .gitignore文件设置了忽略但不生效
  • .md即markdown文件的基本常用编写语法
  • .NET 除了用 Task 之外,如何自己写一个可以 await 的对象?
  • .NET 中使用 Mutex 进行跨越进程边界的同步
  • .NET/C# 阻止屏幕关闭,阻止系统进入睡眠状态
  • .net企业级架构实战之7——Spring.net整合Asp.net mvc