当 Pod 崩溃后如何在报警信息中获取对应的日志信息?
bigegpt 2024-10-26 08:18 3 浏览
Robusta 是一个 Python 开发的用于 Kubernetes 故障排除的开源平台。它位于你的监控堆栈(Prometheus、Elasticsearch 等)之上,并告诉你警报发生的原因以及如何修复它们。
Robusta 包含三个主要部分,全部开源:
- 用于 Kubernetes 的自动化引擎
- 内置自动化以丰富和修复常见警报
- 其他一些手动故障排除工具
还有一些其他额外的可选组件:
- 包含 Robusta、Prometheus Operator 和默认 Kubernetes 警报的工具包
- 用于查看集群中所有警报、变更和事件的 Web UI。
Robusta 会自动执行部署应用程序后发生的所有事情。它有点像用于 DevOps 的 Zapier/IFTTT,强调的是预置的自动化,而不仅仅是“构建你自己的”。例如,当 Pod 崩溃的警报触发时,下面的自动化程序也会将日志发送到 Slack:
triggers:
- on_prometheus_alert:
alert_name: KubePodCrashLooping
actions:
- logs_enricher: {}
sinks:
- slack
每个自动化程序都包含3个部分:
- Triggers:何时运行(基于警报、日志、变更等)
- Actions:要做什么操作(超过50个内置操作)
- Sinks:将结果发送到何处(Slack等)
架构
Robusta 可以通过 Helm 进行安装和管理。
云原生生态圈专注云原生、运维、Go、Python技术分享。126篇原创内容
公众号
自动化引擎
Robusta 的主要组件是自动化引擎,它作为两个 Kubernetes Deployments 在集群内运行。
- robusta-forwarder:连接到 APIServer 并监控 Kubernetes 的变化,将它们转发给 robusta-runner。
- robusta-runner:执行 playbooks。
打包的 Prometheus 堆栈(可选)
Robusta 包括一个可选的嵌入式 Prometheus 堆栈,根据最佳实践预先配置了 Kubernetes 警报。如果已经在使用 kube-prometheus-stack,则可以将其指向 Robusta。
Web UI(可选)
有一个 Web UI,它提供一个单一的管理面板来监控跨多个集群的所有警报和 pod。
CLI(可选)
robusta 的命令行工具有两个主要用途:
- 通过自动生成 Helm values 使安装 Robusta 变得更容易
- 手动触发 Robusta 故障排除工作流程(例如从任何 Java pod 获取 heap dump)
它还具有开发 Robusta 本身有用的一些功能。
使用场景
Robusta 默认情况下会监控下面这些报警和错误,并会提供一些修复建议。
Prometheus Alerts
- CPUThrottlingHigh - 显示原因和解决方法
- HostOomKillDetected - 显示哪些 Pods 被 killed 掉了
- KubeNodeNotReady - 显示节点资源和受影响的 Pods
- HostHighCpuLoad - 显示CPU使用情况分析
- KubernetesDaemonsetMisscheduled - 标记已知错误并建议修复
- KubernetesDeploymentReplicasMismatch - 显示 deployment 的状态
- NodeFilesystemSpaceFillingUp - 显示磁盘使用情况
其他错误
这些是通过监听 APIServer 来识别的:
- CrashLoopBackOff
- ImagePullBackOff
- Node NotReady
此外,WARNING 级别及以上的所有 Kubernetes 事件(kubectl get events)都会发送到 Robusta UI。
变更追踪
默认情况下,对 Deployments、DaemonSets 和 StatefulSets 的所有变更都会发送到 Robusta UI,以便与 Prometheus 警报和其他错误相关联。默认情况下,这些更改不会发送到其他接收器(例如 Slack),因为它们是垃圾邮件。
云原生生态圈专注云原生、运维、Go、Python技术分享。126篇原创内容
公众号
安装
要在你的 K8s 集群中配置 Robusta,首先我们需要安装 Robusta,并连接至少一个目的地(“接收器”)和至少一个源(“触发器”)。
为了配置 robusta,我们需要安装 Robusta CLI 工具,直接使用下面的命令即可安装:
# 需要 Python3.7 或以上版本
pip install -U robusta-cli --no-cache
然后就可以生成 Robusta 配置文件,这会配置安装 Slack 或其他集成工具,也非常推荐开启 cloud UI 工具:
robusta gen-config
上面的命令默认情况下会让我们配置 Slack,所以需要提前做好配置,提供一个 channel 用于接收相关信息,最后会生成一个名为 generated_values.yaml 的 Helm values 文件,如果在你的 Slack 频道中收到了如下所示的信息则证明配置是正确的:
然后我们就可以使用 Helm 进行安装了,首先添加 Helm Chart Repo:
helm repo add robusta https://robusta-charts.storage.googleapis.com && helm repo update
然后可以使用下面的命令进行安装:
helm install robusta robusta/robusta -f ./generated_values.yaml \
--set clusterName=<YOUR_CLUSTER_NAME>
如果你使用的是 KinD 测试集群,则可以提供一个 isSmallCluster=tru 的参数,这样可以减少相关资源:
helm install robusta robusta/robusta -f ./generated_values.yaml \
--set clusterName=<YOUR_CLUSTER_NAME> \
--set isSmallCluster=true
比如我这里是 KinD 的测试集群,安装完成后会有如下所示的 Pod 列表:
$ kubectl get pods
NAME READY STATUS RESTARTS AGE
alertmanager-robusta-kube-prometheus-st-alertmanager-0 2/2 Running 3 (30m ago) 3h25m
prometheus-robusta-kube-prometheus-st-prometheus-0 2/2 Running 2 (34m ago) 4h21m
robusta-forwarder-579fb4b548-7xqq8 1/1 Running 1 (30m ago) 4h23m
robusta-grafana-797c64d5b4-2dbhl 3/3 Running 3 (30m ago) 4h23m
robusta-kube-prometheus-st-operator-7c5db9ccb9-gczlp 1/1 Running 1 (30m ago) 4h23m
robusta-kube-state-metrics-649fd7db9f-6sd8p 1/1 Running 1 (34m ago) 4h23m
robusta-prometheus-node-exporter-5426b 1/1 Running 1 (30m ago) 4h23m
robusta-prometheus-node-exporter-hx6r4 1/1 Running 1 (30m ago) 4h23m
robusta-prometheus-node-exporter-np4jj 1/1 Running 1 (30m ago) 4h23m
robusta-runner-9f4f56c8b-49s7p 1/1 Running 1 (30m ago) 3h48m
如果安装的时候启用了 Robusta 的 UI 功能,则可以在 Web UI 中看到当前集群的相关监控数据。
测试
默认情况下,Robusta 会在 Kubernetes pod 崩溃时发送通知,这里我们创建一个 crashing 的 pod 来进行测试,该测试应用的资源清单如下所示:
apiVersion: apps/v1
kind: Deployment
metadata:
name: crashpod
spec:
selector:
matchLabels:
app: crashpod
template:
metadata:
labels:
app: crashpod
spec:
containers:
- image: busybox
command: ["sh"]
args:
- "-c"
- "wget -O - https://gist.githubusercontent.com/odyssomay/1078370/raw/35c5981f8c139bc9dc02186f187ebee61f5b9eb9/gistfile1.txt 2>/dev/null; exit 125;"
imagePullPolicy: IfNotPresent
name: crashpod
restartPolicy: Always
直接应用该清单即可(或者执行 robusta demo 命令也可以),正常启动后很快该 pod 就会崩溃:
$ kubectl get pods -A
NAME READY STATUS RESTARTS AGE
crashpod-64d8fbfd-s2dvn 0/1 CrashLoopBackOff 1 7s
一旦 pod 达到两次重启后,Slack 频道就可以接收到有关崩溃 pod 的消息。
而且还可以看到完整的 pod 崩溃日志,这个对于监控报警是非常有意义的。同样如果开启了 Robusta UI,在 Web UI 页面中也可以看到类似的消息。
自动化基础
为了演示 Robusta 自动化是如何工作的,我们将配置一个在 Deployment 发生变化时发送 Slack 消息的自动化。
首先添加下面内容到 generated_values.yaml 文件中:
customPlaybooks:
- triggers:
- on_deployment_update: {}
actions:
- resource_babysitter:
omitted_fields: []
fields_to_monitor: ["spec.replicas"]
然后更新 Robusta:
helm upgrade robusta robusta/robusta --values=generated_values.yaml
更新后我们来更改一个 Deployment 的副本数:
kubectl scale --replicas NEW_REPLICAS_COUNT deployments/DEPLOYMENT_NAME
正常然后 Slack 的频道就会收到对应的一条如下所示消息通知了:
如果启用了 Robusta UI,所有的报警和变更也都会出现在 timeline 下面:
我们也可以点击查看变更的内容:
当然我们还可以利用 Robusta 来做很多事情,可以自己来实现 playbook 操作,关于 Robusta 的更多高级使用可以参考官方文档 https://docs.robusta.dev 了解更多信息。
来源:k8s技术圈
相关推荐
- Docker篇(二):Docker实战,命令解析
-
大家好,我是杰哥上周我们通过几个问题,让大家对于Docker有了一个全局的认识。然而,说跟练往往是两个概念。从学习的角度来说,理论知识的学习,往往只是第一步,只有经过实战,才能真正掌握一门技术所以,本...
- docker学习笔记——安装和基本操作
-
今天学习了docker的基本知识,记录一下docker的安装步骤和基本命令(以CentOS7.x为例)一、安装docker的步骤:1.yuminstall-yyum-utils2.yum-con...
- 不可错过的Docker完整笔记(dockerhib)
-
简介一、Docker简介Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,...
- 扔掉运营商的 IPTV 机顶盒,全屋全设备畅看 IPTV!
-
其实现在看电视节目的需求确实大大降低了,折腾也只是为了单纯的让它实现,享受这个过程带来的快乐而已,哈哈!预期构想家里所有设备直接接入网络随时接收并播放IPTV直播(电信点播的节目不是太多,但好在非常稳...
- 第五节 Docker 入门实践:从 Hello World 到容器操作
-
一、Docker容器基础运行(一)单次命令执行通过dockerrun命令可以直接在容器中执行指定命令,这是体验Docker最快捷的方式:#在ubuntu:15.10容器中执行ech...
- 替代Docker build的Buildah简单介绍
-
Buildah是用于通过较低级别的coreutils接口构建OCI兼容镜像的工具。与Podman相似,Buildah不依赖于Docker或CRI-O之类的守护程序,并且不需要root特权。Builda...
- Docker 命令大全(docker命令大全记录表)
-
容器生命周期管理run-创建并启动一个新的容器。start/stop/restart-这些命令主要用于启动、停止和重启容器。kill-立即终止一个或多个正在运行的容器rm-于删除一个或...
- docker常用指令及安装rabbitMQ(docker安装rabbitmq配置环境)
-
一、docker常用指令启动docker:systemctlstartdocker停止docker:systemctlstopdocker重启docker:systemctlrestart...
- 使用Docker快速部署Storm环境(docker部署confluence)
-
Storm的部署虽然不是特别麻烦,但是在生产环境中,为了提高部署效率,方便管理维护,使用Docker来统一管理部署是一个不错的选择。下面是我开源的一个新的项目,一个配置好了storm与mono环境的D...
- Docker Desktop安装使用指南:零基础教程
-
在之前的文章中,我多次提到使用Docker来安装各类软件,尤其是开源软件应用。鉴于不少读者对此有需求,我决定专门制作一期关于Docker安装与使用的详细教程。我主要以Macbook(Mac平台)为例进...
- Linux如何成功地离线安装docker(linux离线安装httpd)
-
系统环境:Redhat7.2和Centos7.4实测成功近期因项目需要用docker,所以记录一些相关知识,由于生产环境是不能直接连接互联网,尝试在linux中离线安装docker。步骤1.下载...
- Docker 类面试题(常见问题)(docker面试题目)
-
Docker常见问题汇总镜像相关1、如何批量清理临时镜像文件?可以使用sudodockerrmi$(sudodockerimages-q-fdanging=true)命令2、如何查看...
- 面试官:你知道Dubbo怎么优雅上下线的吗?你:优雅上下线是啥?
-
最近无论是校招还是社招,都进行的如火如荼,我也承担了很多的面试工作,在一次面试过程中,和候选人聊了一些关于Dubbo的知识。Dubbo是一个比较著名的RPC框架,很多人对于他的一些网络通信、通信协议、...
- 【Docker 新手入门指南】第五章:Hello Word
-
适合人群:完全零基础新手|学习目标:30分钟掌握Docker核心操作一、准备工作:先确认是否安装成功打开终端(Windows用户用PowerShell或GitBash),输入:docker--...
- 松勤软件测试:详解Docker,如何用portainer管理Docker容器
-
镜像管理搜索镜像dockersearch镜像名称拉取镜像dockerpullname[:tag]列出镜像dockerimages删除镜像dockerrmiimage名称或id删除...
- 一周热门
- 最近发表
-
- Docker篇(二):Docker实战,命令解析
- docker学习笔记——安装和基本操作
- 不可错过的Docker完整笔记(dockerhib)
- 扔掉运营商的 IPTV 机顶盒,全屋全设备畅看 IPTV!
- 第五节 Docker 入门实践:从 Hello World 到容器操作
- 替代Docker build的Buildah简单介绍
- Docker 命令大全(docker命令大全记录表)
- docker常用指令及安装rabbitMQ(docker安装rabbitmq配置环境)
- 使用Docker快速部署Storm环境(docker部署confluence)
- Docker Desktop安装使用指南:零基础教程
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)