故事从MongoDB领域:当降压的()是错误的

当降压的()是错误的我们可以看到,在Percona解决很多不同的问题。雷竞技下载官网这是最新的一个让我抓我的头最近一段时间。

的场景

我们有一个分片集群环境运行MongoDB 4.0,需要升级到MongoDB 4.2。简单的对吧?唯一特定的关于这个环境,MongoDB是运行在一个定制的码头工人在AWS环境。

我们开始用通常的方法禁用均衡器和升级配置服务器的副本集。在这种情况下,配置服务器的副本运行MongoDB 4.0组有三个成员。而不是升级,我们选择运行MongoDB 4.2添加三个新成员。现在我们一共有六个节点。下一步是降压的主要的一个新的4.2节点最后解除旧服务器。

测试迁移计划

我们开始计划non-prod环境中。起初,一切正常;我们得到了配置服务器的副本将六名成员和设置优先级,这样一个新的4.2服务器是唯一的候选人成为主要从当前退位后。所以我们继续跑rs.stepDown ()命令像往常一样,这是当事情开始出错。客户突然开始报告以下信息:

2022 - 07 - 15 - t14:49:59.629 + 0000 W网络[ReplicaSraybet雷竞技竞猜在线官网etMonitor-TaskExecutor]无法达成主要设置testrs-cfg

1	2022年 - - - - - - 07年 - - - - - - 15 t14 : 49 : 59.629 + 0000年 W 网络 ( ReplicaSetraybet雷竞技竞猜在线官网Monitor - - - - - - TaskExecutor ] 不能来达到主为集 testrs - - - - - - cfg

我的第一想法是在网络层一定是错的,但是检查所有主机之间的连接并没有发现问题。接下来,我们看着码头工人,但一切似乎都好了。

更深入的研究

我们连接本地服务器配置成为主要的,我们看到一个奇怪的情况。服务器无法完成升压过程成为主要的,而且中途它:

testrs-cfg: PRIMARY>db.isMaster(){“主机”:“host1:27019”、“host2:27019”,“被动”:[“host3:27019”、“host4:27019”,“host5:27019”、“host6:27019”),“setName”:“testrs-cfg”、“setVersion”: 77年,“ismaster”:假的,“二次”:真的,“主要”:“host6:27019”,“我”:“host6:27019”,…

testrs - - - - - - cfg : 主 & gt ; db .isMaster ( )

{

“主机” : (

“host1:27019” ,

“host2:27019”

] ,

“被动” : (

“host3:27019” ,

“host4:27019” ,

“host5:27019” ,

“host6:27019”

] ,

“setName” : “testrs-cfg” ,

“setVersion” : 77年 ,

“ismaster” : 假 ,

“二级” : 真正的 ,

“主” : “host6:27019” ,

“我” : “host6:27019” ,

…

看着最后四行我们可以看到host6应该是主要的但不是完全提升。我们也检查了db.currentOp ()它显示所有会话似乎在等待一些锁相关副本设置状态转换,和下面的操作似乎困的创建索引config.chunks集合:

{“类型”:“人事处”、“主机”:“host6:27019”、“desc”:“rsSync-0”、“活跃”:真的,“currentOpTime”:“2022 - 07 - 18 t12:07:22.381 + 0000”,“effectiveUsers”:[{“用户”:“__system”、“分贝”:“本地”}],“opid”: 2800年,“secs_running”: NumberLong (5),“microsecs_running”: NumberLong(5494726),“人事处”:“命令”,“ns”:“配置。美元cmd”、“命令”:{“方法createindex”:“块”,“索引”:[{“名称”:“ns_1_min_1”,“关键”:{“ns”: 1、“最小值”:1},“独特”:真正}],“$ db”:“配置”},“numYields”: 0,”waitingForLatch ":{“时间戳”:ISODate (“2022 - 07 - 18 t12:07:16.990z”),“captureName”:“ReplicationCoordinatorImpl:: _mutex”},“锁”:{“ReplicationStateTransition”:“W”},“waitingForLock”:假的,

20.

29日

30.

31日

{

“类型” : “人事处” ,

“主机” : “host6:27019” ,

“desc” : “rsSync-0” ,

“活跃” : 真正的 ,

“currentOpTime” : “2022 - 07 - 18 t12:07:22.381 + 0000” ,

“effectiveUsers” : (

{

“用户” : “__system” ,

“数据库” : “本地”

}

] ,

“opid” : 2800年 ,

“secs_running” : NumberLong ( 5 ) ,

“microsecs_running” : NumberLong ( 5494726 ) ,

“人事处” : “命令” ,

“ns” : “配置cmd美元”。 ,

“命令” : {

“方法createindex” : “块” ,

“索引” : (

{

“名称” : “ns_1_min_1” ,

“关键” : {

“ns” : 1 ,

“最小值” : 1

} ,

“独一无二” : 真正的

}

] ,

“$ db” : “配置”

} ,

“numYields” : 0 ,

“waitingForLatch” : {

“时间戳” : ISODate ( “2022 - 07 - 18 t12:07:16.990z” ) ,

“captureName” : “ReplicationCoordinatorImpl:: _mutex”

} ,

“锁” : {

“ReplicationStateTransition” : “W”

} ,

“waitingForLock” : 假 ,

奇怪的是这个集合包含只有几个文档,所以这个操作应该非常快(也索引已经存在)。

在这一点上,我们怀疑可能触及一些bug,开始看很多关于死锁问题的报道在降压的/加速的过程。不幸的是,我们空手上来了。

解决方案

接下来,我们检查了配置服务器副本集本身的配置,注意到一些不寻常的“设置”部分rs.conf ():

“设置”:{“chainingAllowed”:真的,“heartbeatIntervalMillis”: 2000年,“heartbeatTimeoutSecs”: 10“electionTimeoutMillis”: 10000年,“catchUpTimeoutMillis”: 1、“catchUpTakeoverDelayMillis”: 30000年,“getLastErrorModes”: {},“getLastErrorDefaults”: {“w”:“大多数”,“j”:真的,“wtimeout”: 0},“replicaSetId”: ObjectId (“62”cd9b0d1bb173ee7be7f2ef)}}

“设置” : {

“chainingAllowed” : 真正的 ,

“heartbeatIntervalMillis” : 2000年 ,

“heartbeatTimeoutSecs” : 10 ,

“electionTimeoutMillis” : 10000年 ,

“catchUpTimeoutMillis” : - - - - - - 1 ,

“catchUpTakeoverDelayMillis” : 30000年 ,

“getLastErrorModes” : {

} ,

“getLastErrorDefaults” : {

“w” : “大多数” ,

“j” : 真正的 ,

“wtimeout” : 0

} ,

“replicaSetId” : ObjectId ( “62 cd9b0d1bb173ee7be7f2ef” )

}

的getLastErrorDefaults运行时设置是省略了大部分时间rs.initialize (),因为写的问题是通常控制在每会话的基础上。在这种情况下,配置服务器副本被初始化getLastErrorDefaults的{w:多数,j:真}而不是默认的值w: {1}。

我们尝试重置副本配置设置为默认值如下:

cfg.settings cfg = rs.conf ()。getLastErrorDefaults={“w”:1,“wtimeout”:0} rs.reconfig(cfg)

cfg = rs . conf ( )

cfg .settings .getLastErrorDefaults = { “w” : 1 , “wtimeout” : 0 }

rs .reconfig ( cfg )

这样做之后,rs.stepDown ()完美地工作,我们可以有4.2基本到位。

结论

这个故事的寓意是,我们应该检查写担忧副本的默认值设置水平促进MongoDB 4.2主第一次。

非默认写问题之前没有选举的问题,所以一些改变在MongoDB 4.2引发这种行为。这个问题是特定于配置服务器,同样没有发生与普通碎片复制集。

有趣的是,从MongoDB 5.0我们不能再指定一个默认写关心使用settings.getLastErrorDefaults对一个副本集。

这也证明了值的测试设置,模拟真实的生产环境中,能够测试和捕捉这些问题在生产之前咬我们。

雷竞技下载官网
raybet雷竞技竞猜在线官网监测和
管理

MySQL 5.7
生命的结束

软件
下载

产品
文档

资源中心

金融
服务

雷竞技下载官网Percona博客

雷竞技下载官网Percona社区中心

雷竞技下载官网Percona活动中心

关于Perc雷竞技下载官网ona

雷竞技下载官网Percona新闻

我们的客户

我们的合作伙伴

职业生涯

联系我们

故事从MongoDB领域:当降压的()是错误的

的场景

测试迁移计划

更深入的研究

解决方案

结论

相关的

相关的博客文章

推荐的文章

MySQL 5.7到8.0的升级——就地或逻辑升级?

如何监控你的Mraybet雷竞技竞猜在线官网ySQL数据库恢复进展吗

如何改变一个VARCHAR列在MySQL:说明和解决方案

最受欢迎文章

上部署Django Kubernetes PostgreSQL P雷竞技下载官网ercona运营商

雷竞技下载官网Percona XtraBackup现在支持我实例配置文件

自动化Kubernetes MongoDB的物理备份

雷竞技下载官网raybet雷竞技竞猜在线官网监测和管理

MySQL 5.7生命的结束

软件下载

产品文档

资源中心

金融服务

雷竞技下载官网Percona博客

雷竞技下载官网Percona社区中心

雷竞技下载官网Percona活动中心

关于Perc雷竞技下载官网ona

雷竞技下载官网Percona新闻

我们的客户

我们的合作伙伴

职业生涯

联系我们

故事从MongoDB领域:当降压的()是错误的

的场景

测试迁移计划

更深入的研究

解决方案

结论

相关的

分享这篇文章!

想要每周更新清单的最新博客文章?

相关的博客文章

推荐的文章

MySQL 5.7到8.0的升级——就地或逻辑升级?

如何监控你的Mraybet雷竞技竞猜在线官网ySQL数据库恢复进展吗

如何改变一个VARCHAR列在MySQL:说明和解决方案

最受欢迎文章

上部署Django Kubernetes PostgreSQL P雷竞技下载官网ercona运营商

雷竞技下载官网Percona XtraBackup现在支持我实例配置文件

自动化Kubernetes MongoDB的物理备份

雷竞技下载官网
raybet雷竞技竞猜在线官网监测和
管理

MySQL 5.7
生命的结束

软件
下载

产品
文档

金融
服务