健康检查

描述

本文主要介绍了 Apache APISIX 的健康检查功能。健康检查功能可以在上游节点发生故障或者迁移时,将请求代理到健康的节点上,最大程度避免服务不可用的问题。APISIX 的健康检查功能使用 lua-resty-healthcheck 实现,并分为主动检查和被动检查。

主动健康检查

主动健康检查主要是指 APISIX 通过预设的探针类型,主动探测上游节点的存活性。目前 APISIX 支持 HTTPHTTPSTCP 三种探针类型。

当发向健康节点 A 的 N 个连续探针都失败时(取决于如何配置),则该节点将被标记为不健康,不健康的节点将会被 APISIX 的负载均衡器忽略,无法收到请求;若某个不健康的节点,连续 M 个探针都成功,则该节点将被重新标记为健康,进而可以被代理。

被动健康检查

被动健康检查是指,通过判断从 APISIX 转发到上游节点的请求响应状态,来判断对应的上游节点是否健康。相对于主动健康检查,被动健康检查的方式无需发起额外的探针,但是也无法提前感知节点状态,可能会有一定量的失败请求。

若发向健康节点 A 的 N 个连续请求都被判定为失败(取决于如何配置),则该节点将被标记为不健康。

健康检查 - 图1注意

由于不健康的节点无法收到请求,仅使用被动健康检查策略无法重新将节点标记为健康,因此通常需要结合主动健康检查策略。

健康检查 - 图2提示
  • 只有在 upstream 被请求时才会开始健康检查,如果 upstream 被配置但没有被请求,不会触发启动健康检查。
  • 如果没有健康的节点,那么请求会继续发送给上游。
  • 如果 upstream 中只有一个节点时不会触发启动健康检查,该唯一节点无论是否健康,请求都将转发给上游。

属性

名称配置类型类型有效值默认值描述
upstream.checks.active.type主动检查stringhttp https tcphttp主动检查的类型。
upstream.checks.active.timeout主动检查integer1主动检查的超时时间(单位为秒)。
upstream.checks.active.concurrency主动检查integer10主动检查时同时检查的目标数。
upstream.checks.active.http_path主动检查string/主动检查的 HTTP 请求路径。
upstream.checks.active.host主动检查string${upstream.node.host}主动检查的 HTTP 请求主机名。
upstream.checks.active.port主动检查integer165535${upstream.node.port}主动检查的 HTTP 请求主机端口。
upstream.checks.active.https_verify_certificate主动检查booleantrue主动检查使用 HTTPS 类型检查时,是否检查远程主机的 SSL 证书。
upstream.checks.active.req_headers主动检查array[]主动检查使用 HTTP 或 HTTPS 类型检查时,设置额外的请求头信息。
upstream.checks.active.healthy.interval主动检查(健康节点)integer>= 11主动检查(健康节点)检查的间隔时间(单位为秒)
upstream.checks.active.healthy.http_statuses主动检查(健康节点)array200599[200, 302]主动检查(健康节点)HTTP 或 HTTPS 类型检查时,健康节点的 HTTP 状态码。
upstream.checks.active.healthy.successes主动检查(健康节点)integer12542主动检查(健康节点)确定节点健康的次数。
upstream.checks.active.unhealthy.interval主动检查(非健康节点)integer>= 11主动检查(非健康节点)检查的间隔时间(单位为秒)
upstream.checks.active.unhealthy.http_statuses主动检查(非健康节点)array200599[429, 404, 500, 501, 502, 503, 504, 505]主动检查(非健康节点)HTTP 或 HTTPS 类型检查时,非健康节点的 HTTP 状态码。
upstream.checks.active.unhealthy.http_failures主动检查(非健康节点)integer12545主动检查(非健康节点)HTTP 或 HTTPS 类型检查时,确定节点非健康的次数。
upstream.checks.active.unhealthy.tcp_failures主动检查(非健康节点)integer12542主动检查(非健康节点)TCP 类型检查时,确定节点非健康的次数。
upstream.checks.active.unhealthy.timeouts主动检查(非健康节点)integer12543主动检查(非健康节点)确定节点非健康的超时次数。
upstream.checks.passive.type被动检查stringhttp https tcphttp被动检查的类型。
upstream.checks.passive.healthy.http_statuses被动检查(健康节点)array200599[200, 201, 202, 203, 204, 205, 206, 207, 208, 226, 300, 301, 302, 303, 304, 305, 306, 307, 308]被动检查(健康节点)HTTP 或 HTTPS 类型检查时,健康节点的 HTTP 状态码。
upstream.checks.passive.healthy.successes被动检查(健康节点)integer02545被动检查(健康节点)确定节点健康的次数。
upstream.checks.passive.unhealthy.http_statuses被动检查(非健康节点)array200599[429, 500, 503]被动检查(非健康节点)HTTP 或 HTTPS 类型检查时,非健康节点的 HTTP 状态码。
upstream.checks.passive.unhealthy.tcp_failures被动检查(非健康节点)integer02542被动检查(非健康节点)TCP 类型检查时,确定节点非健康的次数。
upstream.checks.passive.unhealthy.timeouts被动检查(非健康节点)integer02547被动检查(非健康节点)确定节点非健康的超时次数。
upstream.checks.passive.unhealthy.http_failures被动检查(非健康节点)integer02545被动检查(非健康节点)HTTP 或 HTTPS 类型检查时,确定节点非健康的次数。

配置示例

你可以通过 Admin API 在路由中启用健康检查功能:

  1. curl http://127.0.0.1:9180/apisix/admin/routes/1 -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -X PUT -d '
  2. {
  3. "uri": "/index.html",
  4. "plugins": {
  5. "limit-count": {
  6. "count": 2,
  7. "time_window": 60,
  8. "rejected_code": 503,
  9. "key": "remote_addr"
  10. }
  11. },
  12. "upstream": {
  13. "nodes": {
  14. "127.0.0.1:1980": 1,
  15. "127.0.0.1:1970": 1
  16. },
  17. "type": "roundrobin",
  18. "retries": 2,
  19. "checks": {
  20. "active": {
  21. "timeout": 5,
  22. "http_path": "/status",
  23. "host": "foo.com",
  24. "healthy": {
  25. "interval": 2,
  26. "successes": 1
  27. },
  28. "unhealthy": {
  29. "interval": 1,
  30. "http_failures": 2
  31. },
  32. "req_headers": ["User-Agent: curl/7.29.0"]
  33. },
  34. "passive": {
  35. "healthy": {
  36. "http_statuses": [200, 201],
  37. "successes": 3
  38. },
  39. "unhealthy": {
  40. "http_statuses": [500],
  41. "http_failures": 3,
  42. "tcp_failures": 3
  43. }
  44. }
  45. }
  46. }
  47. }'

启用成功后,如果 APISIX 探测到不健康的节点,将会在错误日志中输出如下日志:

  1. enabled healthcheck passive while logging request
  2. failed to receive status line from 'nil (127.0.0.1:1980)': closed
  3. unhealthy TCP increment (1/2) for '(127.0.0.1:1980)'
  4. failed to receive status line from 'nil (127.0.0.1:1980)': closed
  5. unhealthy TCP increment (2/2) for '(127.0.0.1:1980'
健康检查 - 图3提示

需要将错误日志的级别调整为 info 才可以观测到上述日志信息

你可以通过控制接口 中的 GET /v1/healthcheck 接口获取健康检查信息。如下所示:

  1. curl http://127.0.0.1:9090/v1/healthcheck/upstreams/healthycheck -s | jq .

健康检查信息

APISIX 提供了丰富的健康检查信息,其中 status 以及 counter 的返回对于健康检查是至关重要的。在 APISIX 中,节点有四个状态:healthyunhealthymostly_unhealthymostly_healthymostly_healthy 状态表示当前节点状态是健康的,但在健康检查期间,节点健康检测并不是一直是成功的。mostly_unhealthy 状态表示当前节点状态是不健康的,但在健康检查期间,节点健康检测并不是一直是失败的。节点的状态转换取决于本次健康检查的成功或失败,以及 counter 中记录的 tcp_failurehttp_failuresuccesstimeout_failure 四个数据。

获取健康检查信息,通过以下 curl 命令可以获取健康检查信息:

  1. curl -i http://127.0.0.1:9090/v1/healthcheck

响应示例:

  1. [
  2. {
  3. "nodes": {},
  4. "name": "/apisix/routes/1",
  5. "type": "http"
  6. },
  7. {
  8. "nodes": [
  9. {
  10. "port": 1970,
  11. "hostname": "127.0.0.1",
  12. "status": "healthy",
  13. "ip": "127.0.0.1",
  14. "counter": {
  15. "tcp_failure": 0,
  16. "http_failure": 0,
  17. "success": 0,
  18. "timeout_failure": 0
  19. }
  20. },
  21. {
  22. "port": 1980,
  23. "hostname": "127.0.0.1",
  24. "status": "healthy",
  25. "ip": "127.0.0.1",
  26. "counter": {
  27. "tcp_failure": 0,
  28. "http_failure": 0,
  29. "success": 0,
  30. "timeout_failure": 0
  31. }
  32. }
  33. ],
  34. "name": "/apisix/routes/example-hc-route",
  35. "type": "http"
  36. }
  37. ]

状态转换图

image

请注意,所有节点在没有初始探测的情况下都以healthy状态启动,计数器仅在状态更改时重置和更新。因此,当节点处于healthy状态且所有后续检查都成功时,success计数器不会更新,保持为零。

counter 信息

若健康检查失败,counter 中的 success 计数将被置零。若健康检查成功,则会将 tcp_failurehttp_failuretimeout_failure 数据置零。

名称描述作用
success健康检查成功的次数当 success 大于 healthy.successes 配置值时,节点会变为 healthy 状态
tcp_failureTCP 类型健康检查失败次数当 tcp_failure 大于 unhealthy.tcp_failures 配置值时,节点会变为 unhealthy 状态
http_failureHTTP 类型的健康检查失败次数当 http_failure 大于 unhealthy.http_failures 配置值时,节点会变为 unhealthy 状态
timeout_failure节点健康检查超时次数当 timeout_failure 大于 unhealthy.timeouts 配置值时,节点会变为 unhealthy 状态