广告位联系
返回顶部
分享到

哈夫曼编码原理及其在HTTP2中的使用介绍

Golang 来源:稀土掘金 作者:jiaxwu 发布时间:2022-09-03 07:55:45 人浏览
摘要

背景 说到哈夫曼树大家应该都不陌生,它是一颗根据叶子节点权重进行构造的树,它能够使得树的带权路径长度最短。 而哈夫曼编码就是基于哈夫曼树,这是一个经典的压缩算法,可

背景

说到哈夫曼树大家应该都不陌生,它是一颗根据叶子节点权重进行构造的树,它能够使得树的带权路径长度最短。

而哈夫曼编码就是基于哈夫曼树,这是一个经典的压缩算法,可以根据权重给某个值分配一个01串,用这个较短的01串表达这个较长的值,权重越高的值的01串会越短,从而提高压缩率;

同时哈夫曼编码也是前缀不重复的,也就是不会有某个编码是另外一个编码的前缀,这样我们就能够把编码后的字符连续的存放,不需要其他额外的信息也能解码。

比如对于字符(a,b,c)对应的编码是:

字符 编码
h 110
e 111
l 10
o 0

可以看到上面的编码都不是其他编码的前缀,我们考虑对hello这个单词进行编码:11011110100,则解码过程就是从左读取,如果发现表里有对应的编码,则找到对应的字符,然后继续下一个字符解码:

当前编码值 字符
1  
11  
110 h
1  
11  
111 e
1  
10 l
1  
10 l
0 o

算法原理

定义

  1. 路径长度:从根节点到叶子节点的长度,也就是编码长度。
  2. 节点权重:一般使用字符出现的概率。
  3. 带权路径长度:路径长度*节点权重。
  4. 树的带权路径长度:整棵树每个叶子节点的带权路径长度之和。
  5. 节点编码:往左节点走为0,往右节点走为1,到节点经过的路径就是节点的编码。

树构建过程

  1. 从树的集合S中,找到权重最小的两棵树A和B(只有单个节点也是一棵树);
  2. 产生一个新节点C;
  3. 把A和B的权重加起来作为新节点C的权重,把A和B作为节点C的左右子节点;
  4. 节点C加入集合S;
  5. 重复上面过程直到集合只有一棵树。

比如对于hello这个单词,我们可以知道每个字符出现的次数:

字符 出现次数
h 1
e 1
l 2
o 1

把这个出现次数作为每个字符的权重:

未构造.png

①选节点h和e(因为权重最小),生成新节点(绿色节点),新节点权重为h+e:

构造1.png

②选节点o和绿色节点(因为权重最小),生成新节点(蓝色节点),新节点权重为o+绿色节点:

构造2.png

③选节点l和蓝色节点(因为权重最小),生成新节点(红色节点),新节点权重为l+蓝色节点:

构造3.png

编码

根据上面的树,按照往左走0,往右1,可以得到每个字符的编码:

字符 编码
h 110
e 111
l 0
o 10

根据上表则hello的编码为:1101110010,按照二进制为10位,也就是只需要两个字节就可以存储。比直接用hello的ASCII编码需要5个字节少3个字节。

HTTP2的应用

了解HTTP2的同学肯定知道HTTP2是一个二进制协议,为了减小传输体积使用了头部压缩算法HPACK,算法有三个组成部分:静态表编码、动态表编码和哈夫曼编码。

为了使用哈夫曼编码,HPACK统计了大量HTTP头部,根据字符出现频率将ASCII编码为哈夫曼编码:

字符 编码 二进制长度
'0' 00000 5
'1' 00001 5
'2' 00010 5
'3' 011001 6
'A' 100001 6
'B' 1011101 7
'C' 1011110 7
'D' 1011111 7

通过减小出现频率高的字符的编码长度,从而减小整个HTTP头部的大小,提高传输效率,


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。

您可能感兴趣的文章 :

原文链接 : https://juejin.cn/post/7138792545567866916
相关文章
  • 基于GORM实现CreateOrUpdate的方法
    CreateOrUpdate 是业务开发中很常见的场景,我们支持用户对某个业务实体进行创建/配置。希望实现的 repository 接口要达到以下两个要求: 如果
  • Golang中的内存逃逸的介绍
    什么是内存逃逸分析 内存逃逸分析是go的编译器在编译期间,根据变量的类型和作用域,确定变量是堆上还是栈上 简单说就是编译器在编译
  • Golang自旋锁的介绍
    自旋锁 获取锁的线程一直处于活跃状态,但是并没有执行任何有效的任务,使用这种锁会造成busy-waiting。 它是为实现保护共享资源而提出的
  • Go语言读写锁RWMutex的源码

    Go语言读写锁RWMutex的源码
    在前面两篇文章中初见 Go Mutex、Go Mutex 源码详解,我们学习了Go语言中的Mutex,它是一把互斥锁,每次只允许一个goroutine进入临界区,可以保
  • Go项目实现优雅关机与平滑重启功能
    什么是优雅关机? 优雅关机就是服务端关机命令发出后不是立即关机,而是等待当前还在处理的请求全部处理完毕后再退出程序,是一种对
  • Go语言操作Excel利器之excelize类库的介绍
    在开发中一些需求需要通过程序操作excel文档,例如导出excel、导入excel、向excel文档中插入图片、表格和图表等信息,使用Excelize就可以方便
  • 利用Go语言快速实现一个极简任务调度系统

    利用Go语言快速实现一个极简任务调度系统
    任务调度(Task Scheduling)是很多软件系统中的重要组成部分,字面上的意思是按照一定要求分配运行一些通常时间较长的脚本或程序。在爬
  • GoLang中的iface 和 eface 的区别介绍

    GoLang中的iface 和 eface 的区别介绍
    GoLang之iface 和 eface 的区别是什么? iface和eface都是 Go 中描述接口的底层结构体,区别在于iface描述的接口包含方法,而eface则是不包含任何方
  • Golang接口使用的教程
    go语言并没有面向对象的相关概念,go语言提到的接口和java、c++等语言提到的接口不同,它不会显示的说明实现了接口,没有继承、子类、
  • go colly 爬虫实现示例介绍
    贡献某CC,go源码爬虫一个,基于colly,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计