数据压缩算法选择
整个数据压缩方法包括列式压缩、数据Int化、前缀提取、混合编码和边界值处理方案。具体来说:
一、列式
列式压缩可以把具有相同特征的数据聚在一起,选择最优的数据压缩和处理方式。
二、数据Int化
数据使用Int类型的格式,可以最大化压缩数据的字节数。
三、前缀提取
将gps数据和传感器数据中有大量相同数据前缀,比如gps经纬度数据前4位基本不变,可以大幅度压缩数据大小。
四、混合编码
根据数据不同的特性,如波动性变化小,采用差值编码;大量数据连续,采用RLE编码;大量数据重复,采用字典编码;数据的最大值不大,采用BitPacked编码。
五、边界值处理
对gps和sensor数据,数字都是在一定范围内波动,在采用差值编码后,存在极值像0转变,需要特殊处理。
字典编码
字典编码本质上就是利用我们从头开始,然后将在字典中出现过的字符串使用一个索引值代替,以此来达到压缩目的。