<div dir="ltr">Hello all,<div><br></div><div>Requisite preamble: This is debian 10.7 with lustre 2.13.0 (compiled by yours truly).<br><br>We've been observing some odd behavior recently with o2ib NIDs. Everyone's all connected over the same switch (cards and switch are all mellanox), each machine has a single network card connected in a bond up to the switch. Whenever a 'new' machine connects to the others over lnet, `lctl ping` and other operations will fail to some set of the existing hosts. Curiously, after an SNMP ping is issued all o2ib operations succeed and things stabilize. <br><br>We've tested the stability with the ib_ suite of tools and the fabric itself appears stable. As of yet we've not attempted to duplicate the behavior with tcp NIDs, but we haven't encountered this issue over approximately one year of using lustre over tcp NIDs. </div><div><br></div><div>Here's the relevant dmesg portions:<br>[72768.234745] LNetError: 16138:0:(lib-msg.c:481:lnet_handle_local_failure()) ni 10.100.101.210@o2ib1 added to recovery queue. Health = 0<br>[72792.235556] LNetError: 16138:0:(lib-msg.c:481:lnet_handle_local_failure()) ni 10.100.101.210@o2ib1 added to recovery queue. Health = 0<br>[72829.229280] LNetError: 16112:0:(lib-move.c:3043:lnet_resend_pending_msgs_locked()) Error sending GET to 12345-10.100.101.32@o2ib1: -125<br>[72829.231426] LNetError: 16112:0:(lib-move.c:3043:lnet_resend_pending_msgs_locked()) Skipped 1 previous similar message<br>[72966.226069] LNetError: 16112:0:(lib-move.c:3043:lnet_resend_pending_msgs_locked()) Error sending GET to 12345-10.100.101.32@o2ib1: -125<br>[72966.228366] LNetError: 16112:0:(lib-move.c:3043:lnet_resend_pending_msgs_locked()) Skipped 3 previous similar messages<br>[73006.226876] LNetError: 16138:0:(o2iblnd_cb.c:3351:kiblnd_check_txs_locked()) Timed out tx: active_txs, 1 seconds<br>[73006.228085] LNetError: 16138:0:(o2iblnd_cb.c:3351:kiblnd_check_txs_locked()) Skipped 31 previous similar messages<br>[73006.229140] LNetError: 16138:0:(o2iblnd_cb.c:3426:kiblnd_check_conns()) Timed out RDMA with 10.100.101.32@o2ib1 (7): c: 6, oc: 0, rc: 8<br>[73006.231045] LNetError: 16138:0:(o2iblnd_cb.c:3426:kiblnd_check_conns()) Skipped 31 previous similar messages<br>[73016.243190] LNet: 16138:0:(o2iblnd_cb.c:3397:kiblnd_check_conns()) Timed out tx for 10.100.101.36@o2ib1: 9 seconds<br>[73016.243195] LNet: 16138:0:(o2iblnd_cb.c:3397:kiblnd_check_conns()) Skipped 60 previous similar messages<br>[73032.243722] LNetError: 16138:0:(lib-msg.c:481:lnet_handle_local_failure()) ni 10.100.101.210@o2ib1 added to recovery queue. Health = 0<br>[73261.244179] LNetError: 16112:0:(lib-move.c:3043:lnet_resend_pending_msgs_locked()) Error sending GET to 12345-10.100.101.32@o2ib1: -125<br>[73261.246265] LNetError: 16112:0:(lib-move.c:3043:lnet_resend_pending_msgs_locked()) Skipped 11 previous similar messages<br><br>Is this normal/known behavior with 2.13, or have I missed some portion of o2ib net setups? <br><br>Please let me know if further information is needed.<br><br>Cheers, and thanks for your time,<br>Christian</div></div>