作者 企翔网络 来源 企翔网络 浏览 发布时间 19/05/29
目前有很多种倒排列表压缩算法可供选样,但是评判算法的优劣需要定量指标。般来说,评价例排列表压缩算法会考虑3方面的指标1压缩率、压缩速度和解压速度。
所谓压缩率,是数据压缩前大小和压缩后大小的比例关系,很明显,庄缩率越高越节省磁盘空间,同时也节省了倒排列表从磁盘读入到内存的I/O 时间。
压缩速度是指用缩定的数据所花费的时间,相刘而言,这个指标不如其他两个标重要,因为压缩往社是在建立索引过程中进行的,而建立索引是个后台运行过程, 需要即时响应用户查询,即使速度慢些也没有太大关系。另外,建立索引的次数相对也不算多,所以从儿个方面考虑,压缩速度不是个重要指标。
解压速度在3个指标中是重要的,其含义是将压缩数据再次恢复为原始数据所用的时间。因为搜索引擎在响应用户查询时,从磁盘读入的是压缩后的数据,需要实时解压数据以快速响应用户,所以解压速度自接关系到系统的用户体验,其重要性不言而喻。