<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif;" dir="ltr">
<p></p>
<div>Hallo All,</div>
<div><br>
</div>
<div>For context,  on our  HPC cluster we have compute nodes with lustre client installed on them which is communicating with two separate lustre servers (which are setup on two separate LNET segments). One LNET is o2ib3 and the other instance is on o2ib5.
 The OS on the lustre server is Rocky Linux 8.10 and the lustre server version is 2.15. The lustre client uses Rocky Linux 9.4 and the lustre version is 2.16. Some time ago we received this message from the kernel on our MDS machine which was on the lustre
 instance o2ib3. After which the MDS completely froze and then had to be restarted.<br>
<br>
Lustre: MGS: Client 837960d7-edf0-463a-ac9e-b76c7a732625 (at 10.20.1.46@o2ib5) reconnecting<br>
Lustre: Skipped 582 previous similar messages<br>
LNetError: 1140557:0:(o2iblnd_cb.c:2562:kiblnd_passive_connect()) Can't accept conn from 10.20.2.129@o2ib3, queue depth too large:  62 (<=8 wanted)<br>
LNetError: 1140557:0:(o2iblnd_cb.c:2562:kiblnd_passive_connect()) Skipped 42 previous similar messages<br>
LNetError: 475369:0:(lib-move.c:4016:lnet_handle_recovery_reply()) peer NI (10.20.4.149@o2ib3) recovery failed with -5<br>
LNetError: 475369:0:(lib-move.c:4016:lnet_handle_recovery_reply()) Skipped 24 previous similar messages<br>
<br>
Note that this happened at a moment when there were no I/O load on the lustre filesystem installed on the o2ib3 segment.<br>
<p>Could you please help me understand what might cause such as issue and cause the MetaData server to freeze?</p>
<p>Many Thanks,</p>
<p>Abi.</p>
</div>
<br>
<p></p>
</div>
</body>
</html>