<div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div><div><div><div>Greetings List!<br><br></div>We have been continuing to dissect our LNet environment between our lustre-2.7.0 clients and the lustre-2.7.18 servers.  We have moved from the client node to the LNet server which bridges the InfiniBand (IB) and ethernet networks.   As a test, we attempted to mount the ethernet Lustre storage from the LNet hopefully taking the IB out of the equation to limit the scope of our debugging.<br><br></div>On the LNet router the attempted mount of Lustre storage fails.   The LNet command line error on the test LNet client is exactly the same as the original client result:<br></div>mount A.B.C.D@tcp0:/lustre at /mnt/lustre failed: Input/output error  Is the MGS running?<br><br></div>On the lustre servers, both the MGS/MDS and OSS we can see the error via dmesg:<br></div>LNet: There was an unexpected network error while writing to C.D.E.F:  -110<br><br></div>and we see the periodic (~ every 10 to 20 minutes) in dmesg on MGS/MDS:<br></div>Lustre: MGS: Client <id string> (at C.D.E.F@tcp) reconnecting<br><br></div>The "lctl pings" in various directions are still successful.<br><br></div>So, forget the end lustre client, we are not yet getting from MGS/MDS sucessfully to the LNet router.<br></div>We have been looking at the contents of /sys/module/lustre.conf and we are not seeing any differences in set values between the LNet router we are using as a test Lustre client and the Lustre MGS/MDS server.<br><br></div>As much as I'd _love_ to go to Lustre-2.10.x, we are dealing with both "appliance" style Lustre storage systems and clients tied to specific versions of the linux kernel (for reasons other than Lustre).<br><br></div>Is there a key parameter which I could still be overlooking?<br><br></div>Cheers,<br></div>megan<br></div>