<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div><div>Hi All</div><div>OS=Redhat 7.4</div><div>Lustre Version: Intel® Manager for Lustre* software 4.0.3.0</div></div><br class="gmail-Apple-interchange-newline"><div>I have 72 osts over 6 oss with HA and 1 mdt serving to 195 clients over infiniband EDR.</div><div><br></div><div>After a reboot on client, lustre filesystem mounts on startup. It should be 2.1 TB area but lt starts with 350TB.</div><div><br></div><div>lfs osts command shows 90 percent of even numbered osts are ACTIVE and no information about other OSTs, as time passes like 1 hour or so, all OSTs become active and lustre area can be seen as 2.1 PB</div><div><br></div><div><br></div><div>dmesg on lustre oss server:</div><div>LustreError: 137-5: lustre-OST0009_UUID: not available for connect from 10.0.0.130@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br></div><div><br></div><div>dmesg on client:</div><div>LNet: 5419:0:(o2iblnd_cb.c:3192:kiblnd_check_conns()) Timed out tx for 10.0.0.5@o2ib: 15 seconds<br></div><div>Lustre: 5546:0:(client.c:2114:ptlrpc_expire_one_request()) @@@ Request sent has failed due to network error: [sent 1542009416/real 1542009426]  req@ffff885f47610000 x1616909446641136/t0(0) o8->lustre-OST0030-osc-ffff885f75219800@10.0.0.8@o2ib:28/4 lens 520/544 e 0 to 1 dl 1542009696 ref 1 fl Rpc:eXN/0/ffffffff rc 0/-1<br></div><div><br></div><div>I tested infiniband with ib_send_lat, ib_read_lat and no error occured</div><div>I tested lnet ping with lctl ping 10.0.0.8@o2ib , no error occured</div><div><div>12345-0@lo</div><div>12345-10.51.22.8@o2ib</div></div><div><br></div><div>Why some OST's  can be accesible while some are not in the same server?</div><div>Best Regards.</div><div><br></div></div></div></div></div></div></div>