Etcd集群备份及容灾恢复
在部署etcd集群时,建议使用基数个etcd实例,这样至少可以保证集群有(N-1)/2
个实例是可以正常提供服务的。但是如果超过了(N-1)/2
个实例故障。就需要使用备份的etcd数据对集群进行容灾恢复。
在我们生产环境部署的etcd集群是5节点,3个节点是本地sata盘,2个节点是ceph盘。本想使用这种方式为数据做HA的。但是由于ceph磁盘的IO很高(至少10ms以上),经常导致集群不稳定(IO满导致机器假死,etcd实例还存活,但是网络不通)。所以后期直接全部切换到本地sata盘。
etcd 证书制作
由于v3版本的etcd证书是基于IP的,所以每次新增etcd节点都需要重新制作证书。
详情https://github.com/cloudflare/cfssl
备份etcd数据
只需要在单节点etcd上执行下面的命令就可以对etcd进行数据备份。我们是每两个小时备份一次数据,并上传到S3上,并保留最近两天的数据。
1 | # mkdir -p /var/lib/etcd_backup/ |
恢复etcd数据(集群不可用,灾难恢复)
下面介绍下当整个etcd集群不可用的情况下,如何快速的恢复一个etcd集群。
1.首先需要停止master节点的kube-apiserver服务:
1 | systemctl stop kube-apiserver |
确保kube-apiserver已经停止了,执行下列命令返回值为0
1 | # ps -ef|grep kube-api|grep -v grep |wc -l |
2.停掉集群中的所有etcd服务
1 | systemctl stop etcd |
确保etcd停止成功
1 | # ps -ef|grep etcd|grep -v etcd|wc -l |
3.移除所有etcd服务实例的数据目录
1 | # mv /var/lib/etcd/data.etcd /var/lib/etcd/data.etcd_bak |
分别在各个节点恢复数据,首先需要拷贝数据到每个etcd节点,假设备份数据存储在/var/lib/etcd_backup/backup_20180107172459.db
1 | scp /var/lib/etcd_backup/backup_20180107172459.db root@etcd01:/var/lib/etcd_backup/ |
在需要恢复的所有etcd实例上执行恢复命令:
1 | # ETCDCTL_API=3 etcdctl snapshot --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem restore <备份数据> --name=<ETCD_NAME> --data-dir=<元数据存储路径> --initial-cluster=<ETCD_CLUSTER> --initial-cluster-token=<ETCD_INITIAL_CLUSTER_TOKEN> |
4.同时启动etcd集群的所有etcd实例
1 | systemctl start etcd |
5.检查etcd集群member及健康状态
1 | # etcdctl --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem member list |
1 | # etcdctl --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem cluster-health |
5.启动master节点的所有kube-apiserver服务:
1 | systemctl start kube-apiserver |
摘除etcd节点
向我们遇到的问题,需要将ceph节点的机器换成本地sata盘的机器,就需要先将部署在ceph上的etcd实例从集群中先摘除掉,然后在增加新的etcd实例到集群中。
1.查看etcd集群member信息
1 | #etcdctl --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem member list |
2.根据member信息移除具体的etcd实例
1 | #etcdctl --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem member remove <member_id> |
3.停止etcd集群中被移除的etcd实例
1 | systemctl stop etcd |
4.查看etcd实例是否从集群中被移除
1 | #etcdctl --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem member list |
新增etcd节点
在已经存在的etcd节点上执行如下命令,增加新的etcd节点到集群中。
1 | # etcdctl --ca-file=/etc/etcd/ssl/ca.pem --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem member add <etcd_name> http://<etcd_node_address>:2380 |
注意:
- etcd_name: etcd.conf配置文件中ETCD_NAME内容
- etdc_node_address: etcd.conf配置文件中的ETCD_LISTEN_PEER_URLS内容
此时新的etcd节点已经被加到了现有的etcd集群。修改新增加的etcd节点的配置文件/etc/etcd/etcd.conf
, 将ETCD_INITIAL_CLUSTER修改成上面输出的内容,并增加相关的配置。
启动新的etcd节点:
1 | systemctl start etcd |
并对已经存在的etcd节点的配置项ETCD_INITIAL_CLUSTER增加<new_etcd_node_name>=http://<new_etcd_node_address>:2380参数。并“同时”重启所有的etcd。
更新etcd节点
1 | ETCDCTL_API=3 etcdctl member update <member-ID> http://<etcd_node_address_ip>:2380 |
参考
https://www.maideliang.com/index.php/archives/25/
https://alexstocks.github.io/html/etcd.html