这篇文章总结一下应用保护的手段。如今说到应用保护,更多的会想到阿里的sentinel,手段丰富,应用简单。sentinel的限流、降级、熔断,可以自己去试一下,sentinel主要通过配置实现功能,不难。sentinel的简介放在最后。
但其实还是有一些别的方式进行应用保护的,这里简单总结下。
应用保护的原因,是系统压力太大,负载过高,导致数据库慢查询,应用保护的核心思想是,优先保证核心业务,优先保证大部分用户。
一,降级
所谓降级
,就是由于负载过高,给调用者一个降级的响应。主要思想就是减少不必要的操作,保证核心业务可用。
降级逻辑:
1,系统提供后门接口。
2,独立降级系统。
自动开关降级:
需要提前写好前面的降级逻辑。
1,超时请求超过阈值
2,异常请求超过阈值
3,流量超过阈值
触发自动降级开关后,执行降级逻辑。具体来说,可以有下面几种例子。
举例,停止读数据库,准确结果转为近似结果,返回静态结果(猜你喜欢由用户个性化推荐改为统一推荐);同步转异步(写多读少);功能裁剪(推荐干掉);禁止写(高峰期减少不必要的写);分用户降级;工作量证明 POW(验证码,数学题,拼图题等,滑块)。
二,熔断
与降级
是自身服务出现问题返回降级结果不同,熔断
是两个服务之间的调用出现问题导致的。
当下游服务出现问题时(慢响应甚至超时/异常),有可能拖慢自身服务的响应速度,或者自身服务的异常,也就是导致所谓的服务雪崩
。因此需要对下游服务进行熔断打开熔断开关,期间不会访问下游服务,谓之“服务隔离
”。过一段时间开关进入半开状态,放少量请求给下游服务,如果不满足熔断条件,就关闭熔断开关,如果依然满足熔断条件,就继续熔断,这就是所谓的快速失败
。如此半开-快速失败,循环直到下游服务恢复为止。
三,限流
顾名思义,是请求太多限制请求数。限流分为两种,基于时间的限流和基于资源的限流。
1,基于时间的限流
(1),基于请求总数的限制,如直播间超过100人,就不让进了。
(2),基于单位时间内请求数的限制。
基于时间的限流的实现,可以使用固定时间窗口、滑动时间窗口、漏桶算法、令牌桶算法。
其中,
固定时间窗口的请求突刺问题最大;
滑动时间窗口相比固定时间窗口,请求突刺问题要小一些,但是仍然存在;
漏桶算法是固定时间内放进来的请求个数存在上限。这种算法不存在请求突刺问题,但是需要配合队列存放请求,存放的请求个数超出队列长度,会出现服务器拒绝响应的问题。
令牌桶算法是令牌桶固定时间内会发放指定个数的令牌,放进来请求需要消耗令牌,如果令牌消耗完了就无法访问服务器,需要等待令牌桶发放新的令牌。这种算法可以让请求突刺变得平滑一些,但是仍然需要系统容忍一定程度的请求突刺。
限流阈值的确定可以提前进行压测,但是压测不一定能完全反应线上的环境,可能需要先定一个阈值,然后长期观察和调优。降级/熔断/限流的开关阈值都是这样的。
基于时间的限流的调优思路,包括各级缓存,MQ的解耦,通过长连接给用户响应等。
2,基于资源的限流
对资源的限制,如连接池、线程池,以及队列等。
(1),池化技术:连接数,线程池。
(2),队列大小:请求队列。10个。
这种限流的难点是确定资源的大小。如确定线程池中线程数,可以先通过公式计算出理论线程数的大小,然后通过压测+hippo4j
[3]工具,可视化的观察基于理论线程数调优的表现,确定线程数。
因为线上的环境比较复杂,IO密集型、CPU密集型甚至混合型,书中的公式不一定完全适合线上环境,因此需要进行压测,结合可视化工具进行观察,以及线上的观察和调优。
下面是用于线程数计算的公式,与计算使用线程并行后得到的加速比的阿姆达尔定理,
公式1,《Java并发编程实战》
为保持处理器达到期望的使用率,最优的池的大小等于: Nthreads = Ncpu x Ucpu x (1 + W/C)[1] 其中, Ncpu = CPU的数量 Ucpu = 目标CPU的使用率, 0 <= Ucpu <= 1 W/C = 等待时间与计算时间的比率
公式2,《Java 虚拟机并发编程》
线程数 = Ncpu /(1 - 阻塞系数)[1] 公式1与公式2计算得出, 阻塞系数 = W / (W + C), 即阻塞系数 = 阻塞时间 /(阻塞时间 + 计算时间)
定理1,阿姆达尔定理
Amdahl定律,定律定义了串行系统并行化后的加速比计算公式[1],
加速比 = 优化前系统耗时 / 优化后系统耗时
加速比越大,表明系统并行化的优化效果越好。Addahl定律还给出了系统并行度、CPU数目和加速比的关系,加速比为Speedup,系统串行化比率(指串行执行代码所占比率)为F,CPU数目为N:
Speedup <= 1 / (F + (1-F)/N)
四,隔离
隔离不是只有在熔断时对下游服务器进行隔离,广义上的隔离方式如下:
1,数据隔离:数据重要性排序,也就要垂直分库、垂直分表。
2,机器隔离:给重要的用户单独配置服务器。用户的标识去路由。
3,线程池隔离:每个需要线程池的业务单独分配线程池。hystrix。
4,信号量隔离:给某个业务或请求单独分配一个计数器。hystrix。
5,集群隔离:对服务进行分组(在注册中心做这个事),如秒杀服务,单独分出一组服务给核心业务
6,机房隔离:不同的服务不要放在同一个机房。
7,读写隔离:搭建数据库的主从与读写分离,用户的create update delete \ select 请求也要进行相应的分离。
8,动静隔离:识别动静态数据,进行分流与隔离。nginx,apache。
9,爬虫隔离:使用openrestry的user-agent, 对超出访问阈值的ip进行隔离
五,sentinel
在应用中引入sentinel的依赖,在接口上标注@SentinelResource
注解,表示这个接口是一个sentinel资源,这样在搭建好的sentinel-dashboard
中可以看到这个资源。
SentinelResource注解中,比较重要的几个属性,value
为资源名称,fallback
是降级
的兜底方法,blockHandler
是限流
的兜底方法[2]。
下面是dashboard截图。
sentinel流控规则
sentinel熔断规则
sentinel热点规则
sentinel授权规则
参考文章:
[1],Java并发(八)计算线程池最佳线程数
[2],微服务系列:Sentinel 之 @SentinelResource 注解配置
[3],一个基于Java线程池管理的开源框架Hippo4j实践