<div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div><div>Hello List!<br><br></div>We have some 2.7.18 lustre servers using TCP.  Through some dual-homed Lustre LNet routes we desire to connect some Mellanox (mlx4) InfiniBand Lustre 2.7.0 clients.  <br><br></div>The "lctl ping" command works from both the server co-located MGS/MDS and from the client.<br></div>The mount of the TCP lustre server share from the IB client starts and then shortly thereafter fails with "Input/output error    Is the MGS running?"<br><br></div>The Lustre MDS at approximate 20 min. intervals from client mount request /var/log/messages reports:<br></div>Lustre: MGS: Client <string> (at A.B.C.D@o2ib) reconnecting <br><br></div>The IB client mount command:<br></div>mount -t lustre C.D.E.F@tcp0:/lustre /mnt/lustre<br><br></div>Waits about a minute then returns:<br></div>mount.lustre C.D.E.F@tcp0:/lustre at /mnt/lustre failed:  Input/output error<br></div>Is the MGS running?.<br><br></div>The IB client /var/log/messages file contains:<br></div>Lustre: client.c:19349:ptlrpc_expire_one_request(()) @@@ Request sent has timed out for slow reply ...... -->MGCC.D.E.F@tcp was lost; in progress operations using this service will fail<br></div>LustreError: 15c-8: MGCC.D.E.F@tcp: The configuration from log 'lustre-client' failed (-5)  This may be the result of communication errors between this node and the MGS, a bad configuration, or other errors.  See the syslog for more information.<br></div>Lustre: MGCC.D.E.F@tcp: Connection restored to MGS (at C.D.E.F@tcp)<br></div>Lustre: Unmounted lustre-client<br></div>LustreError: 22939:0:(obd_mount.c:lustre_fill_super()) Unable to mount (-5)<br><br></div>We have not (yet) set any non-default values on the Lustre File System.<br></div>*  Server: Lustre 2.7.18  CentOS Linux release 7.3.1611 (Core)  kernel 3.10.0-514.2.2.el7_lustre.x86_64   The server is ethernet; no IB.<br><br></div>*  Client: Lustre-2.7.0  RHEL 6.8  kernel 2.6.32-696.3.2.el6.x86_64    The client uses Mellanox InfiniBand mlx4.<br><br></div>The mount point does exist on the client.   The firewall is not an issue; checked.  SELinux is disabled.<br><br></div>NOTE: The server does server the same /lustre file system to other TCP Lustre clients.<br></div>The client does mount other /lustre_mnt from other IB servers.<br><br></div><div>The info on <a href="http://wiki.lustre.org/Mounting_a_Lustre_File_System_on_Client_Nodes">http://wiki.lustre.org/Mounting_a_Lustre_File_System_on_Client_Nodes</a> describes the situation exceedingly similar to ours.   I'm not sure what Lustre settings to check if I have not explicitly set any to be different that the default value.<br><br></div>Any hints would be genuinely appreciated.<br>Cheers,<br></div>megan<br><div><div><div><div><div><br></div></div></div></div></div></div>