引言 关于 Hystrix 的问题汇总后两点: Hystrix主要功能覆盖考察。 Hystrix工作中使用经验考察。 Hystrix语义为豪猪,它后背带刺儿且具有自我保护的能力,这是不是就很好理解它的功能了。
引言关于 Hystrix 的问题汇总后两点:
Hystrix语义为“豪猪”,它后背带刺儿且具有自我保护的能力,这是不是就很好理解它的功能了。虽然我没有直接使用过Hystrix,但是类似的同样功能的框架功能和原理都大同小异,所以我决定针对 Hystrix 单独拆分开讲解。 同时我觉得Hystrix中有很多设计思想非常优秀,非常值得我们学习,学习这些设计思想,你可以从更高维度去思考如何让系统更加稳定。 1、面试官:能简单介绍下Hystrix有哪些功能吗?问题分析:了解Hystrix的功能,同时也能从Hystrix优秀的设计理念中得到架构设计方面的启发。 答:我在项目里使用到,系统在 Hystrix 的保护下,可以长期处于高可用的状态,常用的功能有以下几点: 1.1、fail-fast(快速失败)Hystrix设计中提供了 fail-fast(快速失败)和快速恢复机制。 Tip:不知道之前你是否了解过fail-fast机制,或者面试Java基础的时候,HashMap 中的 Iterator 迭代器,Iterator的设计就是 fail-fast 的,**快速失败(fail—fast)**是Java集合中的一种机制, 在用迭代器遍历一个集合对象时,如果遍历过程中对集合对象的内容进行了修改(增加、删除、修改),则会抛出Concurrent Modification Exception。 我第一次学习 HashMap 并不是很懂 fail-fast,觉得快速失败只是应用在Java集合类中,防止Java非线程安全集合的并发操作,学习使用 Hystrix 后,原来快速失败机制还可以应用在系统架构设计中,对无法及时处理的请求快速失败(fail-fast),降低系统负载,而不是排队。 1.2、Fallback优雅降级机制Fallback 字面意思是遇到Fall就启动back,了解到Fallback的机制后,我马上在项目中用起来。 看真实例子:
代码解释:
就是在ES查询故障失败后,系统自动降级调getOrderByParamFromMysql方法,走mysql查询,正常情况下,getOrderByParamFromMysql是不会被调用的,除非Fall。 1.3、线程/信号量隔离机制线程隔离:请求会根据自己的key获取对应线程池中的线程执行,动态设置线程池参数,这样自然地将不同的请求隔离开来,支持异步来提高接口性能。不同请求直接不影响,例如service1请求缓慢,但是service2和service3还是可以正常工作,缺点就是线程切换影响性能。 信号量隔离:一个请求中访问了service1、service2、service3,其中service1请求超时,将导致整个信号量一直不释放,其他请求一直无法接受。 对于延迟小的请求(例如访问缓存或者本地访问数据库)来说,线程池带来的开销是非常高的,你可以考虑采用其他方法,例如非阻塞信号量(不支持超时)来实现依赖服务的隔离。但绝大多数情况下,Netflix 更偏向于使用线程池来隔离依赖服务,因为其带来的额外开销可以接受,并且能支持包括超时在内的所有功能。 2、面试官:刚刚说到线程隔离,那实际使用中是否打开超时线程中断开关?问题分析:考察实际使用经验,根据线程本身的特点,线程超时,如果不及时中断,会浪费线程资源。 答:一般情况下我们会打开超时中断开关,目的是及时释放线程资源。 通过hystrix.command.default.execution.isolation.thread.interruptOnTimeout = true 设置。 但是如果是写数据库命令,或者记录关键日志命令的情况下,需要命令执行完毕情况,可关闭超时中断。 (面试官点头满意,相信我确实有Hystrix的维护经验) 3、面试官:那你是如何估计线程池大小的?答:要正确设置线程池的大小,需要分析所部署系统的CPU个数、内存大小、任务类型(计算密集、IO密集等),对于计算密集型任务,线程池大小和CPU个数相近通常能实现最优利用率,对于IO密集型任务,线程池的最优大小的计算公式:线程池大小=CPU个数* (1 + 任务等待时间/ 任务处理时间)。 深入分析Hystrix历史Hystrix源自Netflix API团队于2011年开始的项目。2012年,Hystrix不断发展和成熟,Netflix内部的许多团队都采用了它。如今,每天在Netflix上通过Hystrix执行数百亿个线程隔离和数千亿个信号量隔离的调用。这极大地提高了正常运行时间和弹性。 在高并发访问下,系统所依赖的服务的稳定性对系统的影响非常大,依赖有很多不可控的因素,比如网络连接变慢,资源突然繁忙,暂时不可用,服务脱机等。我们要构建稳定、可靠的分布式系统,就必须要有这样一套容错方法。 Hystrix的主要功能特性熔断器机制:熔断器可以理解成保险丝,项目里使用Hystrix Command,当 Hystrix Command请求后,如果服务失败数量超过一定比例(比如默认50%),断路器自动熔断,该服务将进入熔断状态,后续请求都会进入fallback。 降级机制:通过fallbackMethod注解,当请求后端服务出现异常的时候, 为了避免影响到其他业务逻辑,可以使用fallback方法指定的方法快速返回,或启用“备胎方案”。 环境隔离:包括线程隔离和信号量隔离。 cache:Hystrix支持将一个请求结果缓存起来,下一个具有相同key的请求将直接从缓存中取出结果,减少请求开销。 Hystrix Demo通过一个demo快速理解Hystrix fallback 的使用
代码解释: 程序正常时,查询订单服务是走queryOrderFromRedis方法的逻辑,当queryOrderFromRedis方法抛出异常,根据设定的异常比例,或者指定哪个异常,达到阈值触法fallback开关,程序切换到queryOrderBack,设置程序走ES查询逻辑 或者 直接提示用户“请稍后再试”,根据业务自行设置。 哪些情况下会触发fallback?
FAILURE:任意RuntimeException异常都可以激活fallback。 THREAD_POOL_REJECTED:并发执行的任务数超过线程池和队列之和时,也就是Hystrix的线程隔离机制。 SEMAPHORE_REJECTED:类似 THREAD_POOL_REJECTED ,当服务的并发数大于信号量阈值时将进入fallback。比如配置程序执行并发数不能大于3,由于信号量隔离下无论调用哪种命令执行方法,Hystrix都不会创建新线程执行run()/construct(),所以调用程序需要自己创建多个线程来模拟并发调用execute(),最后看到一旦并发线程>3,后续请求都进入fallback。 SHORT_CIRCUITED:在一定时间内,用户请求超过一定的比例失败时,如超时,异常,线程并发达到限定最大值等,断路器都会打开;短路器打开后所有请求直接走fallback,可以通过。circuitBreakerErrorThresholdPercentage方法设置百分比,默认是50。 TIMEOUT:即超时请求。 附录:Hystrix策略配置
其他常用限流降级组件 Sentinel:阿里巴巴集团内部基础技术模块,覆盖了所有的核心场景。Sentinel 也因此积累了大量的流量归整场景以及生产实践。2018 年,Sentinel 开源,并持续演进。 Resilience4j:也是一个轻量级的容错组件,其灵感来自于 Hystrix,但主要为 Java 8 和函数式编程所设计。轻量级体现在其只用 Vavr库(前身是 Javaslang),没有任何外部依赖。而 Hystrix 依赖了 Archaius ,Archaius 本身又依赖很多第三方包,例如 Guava、Apache Commons Configuration 等。 Sentinel 与 Hystrix resilience4j 对比
至于如何选择,个人觉得,只要满足需求掌握使用理念,选技术文档最多最全的一种即可,你最熟悉的就是最适合你的。 总结Hystrix 框架提供了高可用相关的各种各样的功能,有了 Hystrix 的保护,整个系统可以长期处于高可用的状态。 这一小节的内容不仅仅是学会 Hystrix 这门工具的使用,更重要的是理解降级的设计理念,即便 Hystrix 官方已经停止维护更新,但不可否定 Hystrix 是一个优秀的生产力工具。 |
2021-06-05
2021-05-27
2021-05-26
2021-06-05
2021-05-16