<div dir="ltr"><div>We've been working with lustre systems for a few years, but have an odd problem that started a couple weeks ago.  After a recent hardware problem with an OSS attached storage array, we lost one OST.  This we can mange, but the filesystem is not well in other ways.<br></div><div><br></div><div>The odd thing is now we are unable to mount the filesytem from any clients, even though existing mounts continue to work fine.  So rebooting a client with a working mount leaves us with a client with a nonwokring mount.  We see nothing useful in the logs.  Rebooting MDS and the OSS does not clear the problem.  Servers are running lustre version 2.4.1, and clients are more current.</div><div><br></div><div>Note that this system has been working for well over a year, and nothing has been intentionally changed.  I thought the MDT might have gotten corrupted, but running lfsck and e2fsck didn't help (they found and fixed a few problem, but not the mount issue).  I'm still not sure if it is an MDT issue, or somehow connected to the failed OST (which I've deactivated and is not mounted on the OSS).</div><div><br></div><div>Can someone give me suggestions one how to better understand this problem?</div><div><br></div><div>The following is output from a mount attempt from a RHEL6 client:</div><div><br></div><div><div># mount -t lustre 192.168.1.2@tcp:/ana04 /reg/data/ana04</div><div>mount.lustre: mount 192.168.1.2@tcp:/ana04 at /reg/data/ana04 failed: Function not implemented</div></div><div><br></div><div># cat /proc/fs/lustre/version </div><div>lustre: 2.8.0</div><div>kernel: patchless_client</div><div>build:  jenkins-arch=x86_64,build_type=client,distro=el7,ib_stack=inkernel-12--PRISTINE-2.6.32-573.3.1.el6.x86_64</div><div><br></div><div><div># grep ana04 /var/log/messages</div><div>May 17 08:57:29 test123 kernel: Lustre:    cmd=cf00f 0:ana04-OST0009-osc  1:mdc.active=0  </div><div>May 17 08:57:29 test123 kernel: LustreError: 15c-8: MGC192.168.1.2@tcp: The configuration from log 'ana04-client' failed (-38). This may be the result of communication errors between this node and the MGS, a bad configuration, or other errors. See the syslog for more information.</div><div>May 17 08:57:29 test123 kernel: LustreError: 32344:0:(lov_obd.c:922:lov_cleanup()) ana04-clilov-ffff880133c2b000: lov tgt 1 not cleaned! deathrow=0, lovrc=1</div><div>May 17 08:57:29 test123 kernel: Lustre: Unmounted ana04-client</div></div><div><br></div><div><br></div><div>Thanks much,</div><div>Randall Radmer</div><div><a href="mailto:radmer@slac.stanford.edu">radmer@slac.stanford.edu</a></div></div>