I would check if LNET address gets setup properly before mounting lustre FS from client. You can try manually loading lustre module and try pinging (lctl ping oss-nid) all the OSS nodes and observe any abnormalities and dmesg before mounting FS. <br> It could be as simple as duplicate IP address in your ib interface or unstable IB fabric. <br><br><div class="gmail_quote"><div dir="ltr">On Wed, Nov 14, 2018 at 8:08 AM Thomas Roth <<a href="mailto:t.roth@gsi.de">t.roth@gsi.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
your error messages are all well known - the one on the OSS will show up as soon as the Lustre modules<br>
are loaded, provided you have some clients asking for the OSTs (and your MDT, which should be up by<br>
then, is also looking for the OSTs).<br>
The kiblnd_check_conns message I have also seen quite often, never with any OST problems.<br>
<br>
Rather seems your OST take a lot of time to mount or to recover - did you check<br>
/proc/fs/lustre/obdfilter/lustre-OST00*/recovery_status<br>
?<br>
<br>
Regards<br>
Thomas<br>
<br>
On 11/12/18 9:46 AM, fırat yılmaz wrote:<br>
> Hi All<br>
> OS=Redhat 7.4<br>
> Lustre Version: Intel® Manager for Lustre* software 4.0.3.0<br>
> <br>
> I have 72 osts over 6 oss with HA and 1 mdt serving to 195 clients over<br>
> infiniband EDR.<br>
> <br>
> After a reboot on client, lustre filesystem mounts on startup. It should be<br>
> 2.1 TB area but lt starts with 350TB.<br>
> <br>
> lfs osts command shows 90 percent of even numbered osts are ACTIVE and no<br>
> information about other OSTs, as time passes like 1 hour or so, all OSTs<br>
> become active and lustre area can be seen as 2.1 PB<br>
> <br>
> <br>
> dmesg on lustre oss server:<br>
> LustreError: 137-5: lustre-OST0009_UUID: not available for connect from<br>
> 10.0.0.130@o2ib (no target). If you are running an HA pair check that the<br>
> target is mounted on the other server.<br>
> <br>
> dmesg on client:<br>
> LNet: 5419:0:(o2iblnd_cb.c:3192:kiblnd_check_conns()) Timed out tx for<br>
> 10.0.0.5@o2ib: 15 seconds<br>
> Lustre: 5546:0:(client.c:2114:ptlrpc_expire_one_request()) @@@ Request sent<br>
> has failed due to network error: [sent 1542009416/real 1542009426]<br>
> req@ffff885f47610000 x1616909446641136/t0(0)<br>
> o8->lustre-OST0030-osc-ffff885f75219800@10.0.0.8@o2ib:28/4 lens 520/544 e 0<br>
> to 1 dl 1542009696 ref 1 fl Rpc:eXN/0/ffffffff rc 0/-1<br>
> <br>
> I tested infiniband with ib_send_lat, ib_read_lat and no error occured<br>
> I tested lnet ping with lctl ping 10.0.0.8@o2ib , no error occured<br>
> 12345-0@lo<br>
> 12345-10.51.22.8@o2ib<br>
> <br>
> Why some OST's  can be accesible while some are not in the same server?<br>
> Best Regards.<br>
> <br>
> <br>
> _______________________________________________<br>
> lustre-discuss mailing list<br>
> <a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
> <a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
> <br>
<br>
<br>
_______________________________________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
</blockquote></div>