Ceph运维手册(基于P版本)
bigegpt 2025-01-11 10:31 275 浏览
前言
Ceph运维手册
本文基于Ceph P版,适用于ceph-deploy部署非容器化部署场景。
完整版PDF下载链接请点击以下文字
修订记录
版本 | 时间 | 修订人 |
V1.0 | 2024年03月06号 | singless |
目录
一、 健康状态检查
1. 场景说明
2.检查步骤
二、 集群变更运维
1. 场景说明
2. 风险评估
3. 准备工作
4. 操作流程
三、 单台服务器下电变更
1. 场景说明
2. 风险评估
3. 准备工作
4.操作流程
四、 集群删除主机
1. 场景说明
2. 风险评估
3. 准备工作
4.操作流程
五、 集群扩容主机
1. 场景说明
2. 风险评估
3. 准备工作
4. 操作流程
六、 网卡更换变更运维
1. 场景说明
2. 风险评估
3. 准备工作
4.操作流程
七、 SSD缓存盘更换变更运维
1. 场景说明
2. 风险评估
3. 准备工作
4.操作流程
八、 OSD变更运维
1. 场景说明
2. 风险评估
3. 准备工作
4. 操作流程
九、 关闭SWAP分区
1. 场景说明
2. 风险评估
3. 准备工作
4. 操作流程
十、 故障的MON服务修复
1. 风险评估
2. 场景说明
3. 准备工作
4. 操作流程
十一、 OSD容量不足问题处理
1. 场景说明
2. 风险评估
3. 准备工作
4. 操作流程
十二、 时钟偏移问题
1. 场景说明
2. 风险评估
3. 准备工作
4. 操作流程
十三、 运维常用命令
1. 场景说明
2. 操作步骤
一、健康状态检查
1.场景说明
当遇到对分布式存储的运维时,变更前需先对Ceph存储进行健康检查。
2.检查步骤
2.1命令检查存储健康状态
# ceph -s
集群健康状态查询,health项如果显示HEALTH_OK,表示集群处于正常状态;
# ceph osd stat
检查OSD健康状态,正常情况下OSDS、UP、IN数量保持一致。
2.2系统下查看各服务状态
?查看mon状态(每个MON节点)
# systemctl status ceph-mon@主机名.service
正常为active(running)
?查看mgr服务
# systemctl status ceph-mgr@主机名.service
正常为active(running)
?查看ceph-radosgw服务
# systemctl status ceph-radosgw@主机名.service
正常为active(running)
?查看ceph-osd服务
# systemctl status ceph-osd@3 例如查看osd.3服务,以此类推查看其他osd。
正常为active(running)
?查看nginx服务
# systemctl status nginx.service
正常为active(running)
?查看其他服务进程,格式以此类推:
# systemctl status vault.service
# systemctl status vault-agent.service
# systemctl status confd.service
# systemctl status fix.service
# systemctl status filebeat.service
正常为active(running)
二、集群变更运维
1.场景说明
当遇到存储服务器关机维护、机房需要搬迁时。
2.风险评估
?服务器关机过程中为保障数据安全,不能直接对存储节点服务器电源进行强制拔线或者强制关机等高风险关机操作,否则可能会出现文件系统损坏等情况。
?整体环境上电恢复后,若出现节点间网络不通,硬件故障等,会导致存储状态异常。
3.准备工作
3.1通知业务部门
对Ceph存储系统关闭前,需要通知业务部门,提交工单走流程审批,规范进行。
3.2存储健康状态检查
参照本文档存储健康状态检查,确保当前环境状态健康正常。
4.操作流程
4.1关机操作流程
4.1.1节点关机顺序
先关闭应用节点机/算力机/业务系统。
再关闭Ceph存储服务,关闭顺序:mds / rgw --> mgr --> osd --> mon
最后关闭操作系统。
4.1.2关闭存储节点命令
设置ceph flags避免数据迁移
# ceph osd set noout
# ceph osd set norebalance
查看Ceph各个服务运行在哪几台存储机上:
# ceph node ls"
打开/etc/ceph/ceph.conf配置文件可以查看rgw服务运行在哪几台服务器上,找到具体的主机后,运行下面的命令进行关闭操作。
关闭rgw服务,例如rgw服务运行在storage-01、storage-02、storage-03,关闭命令如下:
# ssh storage-01 systemctl stop ceph-radosgw.target
# ssh storage-02 systemctl stop ceph-radosgw.target
# ssh storage-03 systemctl stop ceph-radosgw.target
关闭osd服务
# ssh storage-01 systemctl stop ceph-osd.target
# ssh storage-02 systemctl stop ceph-osd.target
# ssh storage-03 systemctl stop ceph-osd.target
关闭mgr服务
# ssh storage-01 systemctl stop ceph-mgr.target
# ssh storage-02 systemctl stop ceph-mgr.target
# ssh storage-03 systemctl stop ceph-mgr.target
关闭mon服务
# ssh storage-01 systemctl stop ceph-mon.target
# ssh storage-02 systemctl stop ceph-mon.target
# ssh storage-03 systemctl stop ceph-mon.target
关闭存储机系统
# ssh storage-02 shutdown -h now
# ssh storage-03 shutdown -h now
5.开机操作流程
5.1节点启动顺序
按电源,启动Ceph存储机,节点开机顺序 mon --> mgr --> osd --> rgw。
启动应用节点机/算力机。
6.存储健康状态检查
节点启动后,参考第一节<健康状态检查>检查集群状态是否已恢复健康。
三、单台服务器下电变更
1.场景说明
适用于当遇到分布式存储集群中服务器需要关机或者更换服务器硬件资源,如增加内存条,计划性下电等分布式存储的运维场景。
2.风险评估
?服务器关机过程中为保障数据安全,不可直接对其服务器电源进行强制拔线或者采取强制关机等高风险关机操作,否则可能会出现文件系统损坏等情况。
3.准备工作
3.1计划变更作业时间
在正式进行变更操作前应沟通确认好变更窗口期,变更窗口期范围需根据本次变更内容和业务情况进行沟通协商,尽量将变更窗口期设定为对业务影响最小的时间段;如遇服务器故障情况需进行变更,则需根据实际情况进行商讨。
3.2硬件资源准备
若服务器需要更换、增加内存条或网卡RAID卡等硬件资源,在运维变更前应准备好相应硬件资源。
3.3存储状态检查
参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前环境正常。
4.操作流程
4.1存储禁止数据平衡
# ceph osd set noout
# ceph osd set norebalance
4.2关闭服务器上ceph相关服务
# systemctl stop ceph-osd.target
# systemctl stop ceph-mgr.target
# systemctl stop ceph-mon.target
# systemctl stop ceph-radosgw.target
4.3服务器关机
ssh登录至待变更的服务器系统,安全关闭待变更的服务器,待服务器完全停止运行后,可进行下电和网卡更换操作。
#sync && sync && poweroff
4.4服务器开机
当服务器上电开机后对其网络进行检查,确保对应网络均正常通信;检查节点更换的硬件是否正常工作。检查开机后日志中是否有硬件报错。
# dmesg -T|grep -i error
4.5存储开启数据恢复
# ceph osd unset noout
# ceph osd unset norebalance
4.6存储状态检查
参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前存储环境已恢复正常。
四、集群删除主机
1.场景说明
在存储使用过程中,遇到服务器故障或服务器整体性能差时需要对其进行替换变更,对分布式存储的运维场景。
2.风险评估
?在变更操作前需对本次变更操作进行充分的风险评估,评估本次变更操作是否影响数据安全性;当运行在超融合场景下还需评估是否对业务系统产生不良影响;同时根据实际情况评估好风险规避措施。
?禁止在存储处于亚健康状态时对其进行变更操作,以防酿成重大故障。
?禁止先对分布式存储进行相关变更操作后使分布式存储集群处于一个亚健康状态下,等待相关新的设备资源加入。变更操作前需准备好新的硬件资源。
3.准备工作
3.1计划变更作业时间
在正式进行变更操作前应提前沟通确认好变更窗口期,变更窗口期范围需根据本次变更内容和业务情况进行沟通协商,尽量将变更窗口期设定为对业务影响最小的时间段;如遇服务器故障情况需进行变更,则需根据实际情况进行商讨。
3.2服务器准备
为确保本次变更能顺利进行,同时降低变更风险;如果需要替换服务器,现场应在正式变更操作前提前准备好相关新的服务器等设备资源,并安装好操作系统做好基础配置,在本节的操作执行完成后,按照第五节<集群扩容主机>的步骤将主机扩容至集群内。禁止先对分布式存储进行相关变更操作后使分布式存储集群处于一个亚健康状态下等待相关新的设备资源加入。
y注意:
新的服务器硬件配置需与集群中现有服务器配置保持一致,包括CPU、内存、磁盘和网卡硬件型号和数量。若存在硬件不一致则需根据实际情况进行商讨。
3.3存储状态检查
参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前环境正常。
4.操作流程
4.1设置“禁止数据恢复”
# ceph osd set noout
# ceph osd set norebalance
4.2集群中移除OSD数据盘
# ceph osd tree ##确认服务器上使用了哪些OSD
# ceph osd out 6
4.3设置允许数据恢复
# ceph osd set noout
# ceph osd set norebalance
等待数据均衡完成。
4.4集群中移除OSD
# systemctl stop ceph-osd@6.service
# ceph osd down osd.6
# ceph osd purge osd.6 --force
4.5从集群中移除节点
在ceph-deploy节点上执行
# ceph osd crush rm ceph-5
# ceph-deploy mon destroy ceph-5 ##可选,删除ceph-5上的mon服务
4.6待变更服务器关机
ssh登录至待变更的服务器系统,安全关闭服务器,待服务器完成停止运行后,可进行下电和下架变更操作。
# sync && sync && poweroff
4.7存储状态检查
参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前存储环境已恢复正常。
相关推荐
- 当Frida来“敲”门(frida是什么)
-
0x1渗透测试瓶颈目前,碰到越来越多的大客户都会将核心资产业务集中在统一的APP上,或者对自己比较重要的APP,如自己的主业务,办公APP进行加壳,流量加密,投入了很多精力在移动端的防护上。而现在挖...
- 服务端性能测试实战3-性能测试脚本开发
-
前言在前面的两篇文章中,我们分别介绍了性能测试的理论知识以及性能测试计划制定,本篇文章将重点介绍性能测试脚本开发。脚本开发将分为两个阶段:阶段一:了解各个接口的入参、出参,使用Python代码模拟前端...
- Springboot整合Apache Ftpserver拓展功能及业务讲解(三)
-
今日分享每天分享技术实战干货,技术在于积累和收藏,希望可以帮助到您,同时也希望获得您的支持和关注。架构开源地址:https://gitee.com/msxyspringboot整合Ftpserver参...
- Linux和Windows下:Python Crypto模块安装方式区别
-
一、Linux环境下:fromCrypto.SignatureimportPKCS1_v1_5如果导包报错:ImportError:Nomodulenamed'Crypt...
- Python 3 加密简介(python des加密解密)
-
Python3的标准库中是没多少用来解决加密的,不过却有用于处理哈希的库。在这里我们会对其进行一个简单的介绍,但重点会放在两个第三方的软件包:PyCrypto和cryptography上,我...
- 怎样从零开始编译一个魔兽世界开源服务端Windows
-
第二章:编译和安装我是艾西,上期我们讲述到编译一个魔兽世界开源服务端环境准备,那么今天跟大家聊聊怎么编译和安装我们直接进入正题(上一章没有看到的小伙伴可以点我主页查看)编译服务端:在D盘新建一个文件夹...
- 附1-Conda部署安装及基本使用(conda安装教程)
-
Windows环境安装安装介质下载下载地址:https://www.anaconda.com/products/individual安装Anaconda安装时,选择自定义安装,选择自定义安装路径:配置...
- 如何配置全世界最小的 MySQL 服务器
-
配置全世界最小的MySQL服务器——如何在一块IntelEdison为控制板上安装一个MySQL服务器。介绍在我最近的一篇博文中,物联网,消息以及MySQL,我展示了如果Partic...
- 如何使用Github Action来自动化编译PolarDB-PG数据库
-
随着PolarDB在国产数据库领域荣膺桂冠并持续获得广泛认可,越来越多的学生和技术爱好者开始关注并涉足这款由阿里巴巴集团倾力打造且性能卓越的关系型云原生数据库。有很多同学想要上手尝试,却卡在了编译数据...
- 面向NDK开发者的Android 7.0变更(ndk android.mk)
-
订阅Google官方微信公众号:谷歌开发者。与谷歌一起创造未来!受Android平台其他改进的影响,为了方便加载本机代码,AndroidM和N中的动态链接器对编写整洁且跨平台兼容的本机...
- 信创改造--人大金仓(Kingbase)数据库安装、备份恢复的问题纪要
-
问题一:在安装KingbaseES时,安装用户对于安装路径需有“读”、“写”、“执行”的权限。在Linux系统中,需要以非root用户执行安装程序,且该用户要有标准的home目录,您可...
- OpenSSH 安全漏洞,修补操作一手掌握
-
1.漏洞概述近日,国家信息安全漏洞库(CNNVD)收到关于OpenSSH安全漏洞(CNNVD-202407-017、CVE-2024-6387)情况的报送。攻击者可以利用该漏洞在无需认证的情况下,通...
- Linux:lsof命令详解(linux lsof命令详解)
-
介绍欢迎来到这篇博客。在这篇博客中,我们将学习Unix/Linux系统上的lsof命令行工具。命令行工具是您使用CLI(命令行界面)而不是GUI(图形用户界面)运行的程序或工具。lsoflsof代表&...
- 幻隐说固态第一期:固态硬盘接口类别
-
前排声明所有信息来源于网络收集,如有错误请评论区指出更正。废话不多说,目前固态硬盘接口按速度由慢到快分有这几类:SATA、mSATA、SATAExpress、PCI-E、m.2、u.2。下面我们来...
- 新品轰炸 影驰SSD多款产品登Computex
-
分享泡泡网SSD固态硬盘频道6月6日台北电脑展作为全球第二、亚洲最大的3C/IT产业链专业展,吸引了众多IT厂商和全球各地媒体的热烈关注,全球存储新势力—影驰,也积极参与其中,为广大玩家朋友带来了...
- 一周热门
- 最近发表
-
- 当Frida来“敲”门(frida是什么)
- 服务端性能测试实战3-性能测试脚本开发
- Springboot整合Apache Ftpserver拓展功能及业务讲解(三)
- Linux和Windows下:Python Crypto模块安装方式区别
- Python 3 加密简介(python des加密解密)
- 怎样从零开始编译一个魔兽世界开源服务端Windows
- 附1-Conda部署安装及基本使用(conda安装教程)
- 如何配置全世界最小的 MySQL 服务器
- 如何使用Github Action来自动化编译PolarDB-PG数据库
- 面向NDK开发者的Android 7.0变更(ndk android.mk)
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)