bitmap算法:如何在20亿个非负整数中如何判断一个数是否存在?
bigegpt 2024-10-12 06:11 8 浏览
我们先来看个简单的问题。
假如给你20亿个非负数的int型整数,然后再给你一个非负数的int型整数 t ,让你判断t是否存在于这20亿数中,你会怎么做呢?
有人可能会用一个int数组,然后把20亿个数给存进去,然后再循环遍历一下就可以了。
想一下,这样的话,时间复杂度是O(n),所需要的内存空间
4byte * 20亿,一共需要80亿个字节,
大概需要8GB的内存空间,显然有些计算机的内存一次是加载不了这么这么多的数据的。
初步优化
按照上面的做法,时间复杂度是O(n),内存是8GB,实际上我们是可以把时间复杂度降低到O(1)的。
例如我们可以这样来存数据,把一个int非负整数n作为数组下标,如果n存在,则对应的值为1,如果不存在,对应的值为0。例如数组arr[n] = 1,表示n存在,arr[n] = 0表示n不存在。
那么,我们就可以把20亿个数作为下标来存,之后直接判断arr[t]的值,如果arr[t] = 1,则代表存在,如果arr[t] = 0,则代表不存在。这样,我们就可以把时间复杂度降低到O(1)。不过空间复杂度我们并没有降低。还稍微大了点。
由于int非负整数一共有 2^31 个,所以数组的大小需要 2^32 这么大。
这里可能有人说也可以用HashSet来存啊,时间复杂度也是近似O(1)。不过这里需要说明的是,HashSet里面存的必须是对象,也就是说需要把int包装成Integer,显然一个对象的话是更花销内存的,需要对象头啊什么的…..
再次优化
大家想一个问题,对于一个数,实际上我们只需要两种状态,就是这个数存在和不存在这两种可能。上面我们用1代表存在,用0代表不存在。
也就是说,我们是可以不用int型的数组来存储的,一个int型占用4个字节,即32个二进制位,一共可以表示40亿多个状态。用int型的来存两个状态,多浪费。
所以我们可以考虑用boolean型的来存的,boolean貌似就占用一个字节(java中的boolena貌似是占用一个字节)。而一个boolean有true和false两种状态,所以也是成立的。这样子的话占用的内存就是2GB的内存了。
这样,就可以降低到之前的四分之1内存了。
最终优化:bitmap
大家再想一个问题,虽然boolean是表示两种状态,但是boolean实际上占用了8bit啊,按道理8bit是可以表示128种状态的。而被我们拿来表示两个状态,是否也有点浪费了呢?
我们都知道,一个二进制位,有0和1两种状态,所以说,其实我们是可以用一个二进制位来代表一个int型的数是否存在的。例如对于1,3,5,7这四个数,如果存在的话,则可以这样表示:
1代表这个数存在,0代表不存在。例如表中01010101代表1,3,5,7存在,0,2,4,6不存在。
那如果8,10,14也存在怎么存呢?如图,8,10,14我们可以存在第二个字节里
以此类推。这样子,我们又可以把内存降低到之前的8分之一了。
这种采用一个二进制位来存储数据的方法,我们也叫做bitmap算法。
可能有人会问,假如我要添加一个数n,我知道它要存在第n个位那里,把第n个二进制改为1,可是我要怎么操作呢?
这个对于bitmap算法是如何存储的,如何进行增删操作的,我会在之后的文章里讲,这篇就大概介绍下bitmap算法。
Java中有自带的bitmap实现,今天我们就用Java中自带的bitmap来做道题练练手。我们换道类似题目吧,不知道你一眼是否就能想到用bitmap算法来做。
题目描述:
现在有五十亿个int类型的正整数,要从中找出重复的数并返回。
判断50亿个数有哪些是重复和刚才上面那个判断是否存在,其实是一样的。我们采用bitmap算法来做。不过这里50亿个数,别人肯定是以文件流的形式给你的。这样我们为了方便,我们就假设这些数是以存在int型数组的形式给我们的。
代码如下:
public class Test { //为了方便,假设数据是以数组的形式给我们的 public static Set<Integer> test(int[] arr) { int j = 0; //用来把重复的数返回,存在Set里,这样避免返回重复的数。 Set<Integer> output = new HashSet<>(); BitSet bitSet = new BitSet(Integer.MAX_VALUE); int i = 0; while (i < arr.length) { int value = arr[i]; //判断该数是否存在bitSet里 if (bitSet.get(value)) { output.add(value); } else { bitSet.set(value, true); } i++; } return output; } //测试 public static void main(String[] args) { int[] t = {1,2,3,4,5,6,7,8,3,4}; Set<Integer> t2 = test(t); System.out.println(t2); } }
打印结果:
[3, 4]
当然,bitmap算法的应用不仅仅是节省内存,它还有很多其他的优点。之后有机会就拿一些其他的应用来写篇文章。
本次讲解到此结束。如果喜欢,可以分享给更多的小伙伴哦。
bitmap的存储会在之后的文章讲哦
完
相关推荐
- Go语言泛型-泛型约束与实践(go1.7泛型)
-
来源:械说在Go语言中,Go泛型-泛型约束与实践部分主要探讨如何定义和使用泛型约束(Constraints),以及如何在实际开发中利用泛型进行更灵活的编程。以下是详细内容:一、什么是泛型约束?**泛型...
- golang总结(golang实战教程)
-
基础部分Go语言有哪些优势?1简单易学:语法简洁,减少了代码的冗余。高效并发:内置强大的goroutine和channel,使并发编程更加高效且易于管理。内存管理:拥有自动垃圾回收机制,减少内...
- Go 官宣:新版 Protobuf API(go pro版本)
-
原文作者:JoeTsai,DamienNeil和HerbieOng原文链接:https://blog.golang.org/a-new-go-api-for-protocol-buffer...
- Golang开发的一些注意事项(一)(golang入门项目)
-
1.channel关闭后读的问题当channel关闭之后再去读取它,虽然不会引发panic,但会直接得到零值,而且ok的值为false。packagemainimport"...
- golang 托盘菜单应用及打开系统默认浏览器
-
之前看到一个应用,用go语言编写,说是某某程序的windows图形化客户端,体验一下发现只是一个托盘,然后托盘菜单的控制面板功能直接打开本地浏览器访问程序启动的webserver网页完成gui相关功...
- golang标准库每日一库之 io/ioutil
-
一、核心函数概览函数作用描述替代方案(Go1.16+)ioutil.ReadFile(filename)一次性读取整个文件内容(返回[]byte)os.ReadFileioutil.WriteFi...
- 文件类型更改器——GoLang 中的 CLI 工具
-
我是如何为一项琐碎的工作任务创建一个简单的工具的,你也可以上周我开始玩GoLang,它是一种由Google制作的类C编译语言,非常轻量和快速,事实上它经常在Techempower的基准测...
- Go (Golang) 中的 Channels 简介(golang channel长度和容量)
-
这篇文章重点介绍Channels(通道)在Go中的工作方式,以及如何在代码中使用它们。在Go中,Channels是一种编程结构,它允许我们在代码的不同部分之间移动数据,通常来自不同的goro...
- Golang引入泛型:Go将Interface「」替换为“Any”
-
现在Go将拥有泛型:Go将Interface{}替换为“Any”,这是一个类型别名:typeany=interface{}这会引入了泛型作好准备,实际上,带有泛型的Go1.18Beta...
- 一文带你看懂Golang最新特性(golang2.0特性)
-
作者:腾讯PCG代码委员会经过十余年的迭代,Go语言逐渐成为云计算时代主流的编程语言。下到云计算基础设施,上到微服务,越来越多的流行产品使用Go语言编写。可见其影响力已经非常强大。一、Go语言发展历史...
- Go 每日一库之 java 转 go 遇到 Apollo?让 agollo 来平滑迁移
-
以下文章来源于GoOfficialBlog,作者GoOfficialBlogIntroductionagollo是Apollo的Golang客户端Apollo(阿波罗)是携程框架部门研...
- Golang使用grpc详解(golang gcc)
-
gRPC是Google开源的一种高性能、跨语言的远程过程调用(RPC)框架,它使用ProtocolBuffers作为序列化工具,支持多种编程语言,如C++,Java,Python,Go等。gR...
- Etcd服务注册与发现封装实现--golang
-
服务注册register.gopackageregisterimport("fmt""time"etcd3"github.com/cor...
- Golang:将日志以Json格式输出到Kafka
-
在上一篇文章中我实现了一个支持Debug、Info、Error等多个级别的日志库,并将日志写到了磁盘文件中,代码比较简单,适合练手。有兴趣的可以通过这个链接前往:https://github.com/...
- 如何从 PHP 过渡到 Golang?(php转golang)
-
我是PHP开发者,转Go两个月了吧,记录一下使用Golang怎么一步步开发新项目。本着有坑填坑,有错改错的宗旨,从零开始,开始学习。因为我司没有专门的Golang大牛,所以我也只能一步步自己去...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- linux安装minio (74)
- ubuntuunzip (67)
- vscode使用技巧 (83)
- secure-file-priv (67)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)