<div dir="ltr"><p style="color:rgb(0,0,0)">Dear Lustre Users,</p><p style="color:rgb(0,0,0)">I'm currently troubleshooting an LNet connectivity issue within a virtualized Lustre cluster and would appreciate any guidance.</p><p style="color:rgb(0,0,0)"><strong>Cluster Setup:</strong></p><ul style="color:rgb(0,0,0)"><li style="margin-left:15px">Multiple virtual machines (VMs) distributed across several physical hosts.</li><li style="margin-left:15px">Each VM has two network interfaces:<ul><li style="margin-left:15px">A local interface for intra-host communication.</li><li style="margin-left:15px">An <code>enp2s0</code> interface utilizing WireGuard tunneling for inter-host communication.</li></ul></li></ul><p style="color:rgb(0,0,0)"><strong>Issue Description:</strong></p><ul style="color:rgb(0,0,0)"><li style="margin-left:15px">LNet communications function correctly between VMs residing on the same physical host.</li><li style="margin-left:15px">LNet communications fail between VMs on different physical hosts.<a href="https://github.com/open-mpi/ompi/issues/12232" rel="noopener" target="_blank">github.com</a></li></ul><p style="color:rgb(0,0,0)"><strong>Diagnostic Observations:</strong></p><p style="color:rgb(0,0,0)">From an OSS on a different physical node:</p><ul style="color:rgb(0,0,0)"><li style="margin-left:15px"><code>ping 192.68.11.35</code> (MGS address) succeeds.<br></li><li style="margin-left:15px"><code>lctl ping 192.68.11.35@tcp</code> results in:<br></li><ul><li style="margin-left:15px">failed to ping 192.68.11.35@tcp: Input/output error<br></li></ul></ul><div><font color="#000000">In the debug log, I see:</font></div><div><font color="#000000"><br></font></div><blockquote style="margin:0px 0px 0px 40px;border:medium;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">< 00000400:00000100:1.0:1741014384.744631:0:27198:0:(acceptor.c:109:lnet_connect_console_error()) Connection to 192.68.11.35@tcp at host<span class="gmail-Apple-converted-space"> </span><a href="http://192.68.11.35:988" target="_blank">192.68.11.35:988</a><span class="gmail-Apple-converted-space"> </span>took too long: that node may be hung or experiencing high load.<br>< 00000400:00000200:1.0:1741014384.744636:0:27198:0:(router.c:1739:lnet_notify()) 192.68.11.4@tcp notifying 192.68.11.35@tcp: down</blockquote><div><br></div></blockquote>The output of 'lnetctl net show' on the OSS: <div><br><blockquote style="margin:0px 0px 0px 40px;border:medium;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">net:<br>    - net type: lo<br>      local NI(s):<br>        - nid: 0@lo<br>          status: up<br>    - net type: tcp<br>      local NI(s):<br>        - nid: 192.68.11.4@tcp<br>          status: up<br>          interfaces:<br>              0: enp2s0<br></blockquote><div><br></div></blockquote>The contents of /etc/modprobe.d/lustre.conf are: "options lnet networks=tcp(enp2s0)"</div><div><br></div><div>One last potentially relevant piece of info is that I have a comparable system working with BeeGFS but testing it with IOR using OpenMPI didn't work because OpenMPI has strict subnet checking and somehow it didn't like how I created the virtual network across wireguard tunnels. Instead of figuring that out, I switched to MPICH which works fine. I have very little experience in networking so please forgive me if I'm just missing something very obvious here.</div><div><br></div><div>Thanks in advance for any help I might get from this awesome community and please let me know if there is more info I can provide!</div><div><br></div><div>Thanks,</div><div><br></div><div>John</div></div>