<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Hi Thomas And Raj,<div><br></div><div>Thank you for the feedback</div><div><br></div><div>Thomas,</div><div><br></div><div>I have checked the recovery_status on oss's</div><div><div>I assume this recovery durations are second and i have to check it while mount operation takes long time. These values are updated every minute. </div><div>Good to learn that.</div><br class="gmail-Apple-interchange-newline"></div><div>oss1</div><div><div>status: COMPLETE</div><div>recovery_start: 1539937227</div><div><b>recovery_duration: 97</b></div><div>completed_clients: 3/3</div><div>replayed_requests: 0</div><div>last_transno: 73019446366</div><div>VBR: DISABLED</div><div>IR: ENABLED</div></div><div><br></div><div>oss2</div><div><div>status: COMPLETE</div><div>recovery_start: 1540380323</div><div><b>recovery_duration: 436</b></div><div>completed_clients: 196/197</div><div>replayed_requests: 0</div><div>last_transno: 77309411331</div><div>VBR: ENABLED</div><div>IR: ENABLED</div></div><div><br></div><div>oss3</div><div><br></div><div><div>status: COMPLETE</div><div>recovery_start: 1539937210</div><div><b>recovery_duration: 150</b></div><div>completed_clients: 0/3</div><div>replayed_requests: 0</div><div>last_transno: 73019440310</div><div>VBR: ENABLED</div><div>IR: ENABLED</div></div><div><br></div><div>oss4</div><div><div>status: COMPLETE</div><div>recovery_start: 1539937234</div><div><b>recovery_duration: 151</b></div><div>completed_clients: 0/3</div><div>replayed_requests: 0</div><div>last_transno: 55839576629</div><div>VBR: ENABLED</div><div>IR: ENABLED</div></div><div><br></div><div>oss5</div><div><div>status: COMPLETE</div><div>recovery_start: 1539937257</div><div><b>recovery_duration: 96</b></div><div>completed_clients: 3/3</div><div>replayed_requests: 0</div><div>last_transno: 51544609437</div><div>VBR: DISABLED</div><div>IR: ENABLED</div></div><div><br></div><div>oss6</div><div><div>recovery_start: 1539937194</div><div><b>recovery_duration: 96</b></div><div>completed_clients: 3/3</div><div>replayed_requests: 0</div><div>last_transno: 47249690300</div><div>VBR: DISABLED</div><div>IR: ENABLED</div></div><div><br></div><div><br></div><div>Filesystem mounts on system boot process and its solid that after each reboot  lctl ping from client to server finishes with no error and vice versa.</div><div><br></div><div>It seems like when there is a high I/O on the filesystem, mount operation takes longer.</div><div><br></div><div>Best Regards.</div></div></div></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr">On Wed, Nov 14, 2018 at 6:13 PM Raj <<a href="mailto:rajgautam@gmail.com">rajgautam@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I would check if LNET address gets setup properly before mounting lustre FS from client. You can try manually loading lustre module and try pinging (lctl ping oss-nid) all the OSS nodes and observe any abnormalities and dmesg before mounting FS. <br> It could be as simple as duplicate IP address in your ib interface or unstable IB fabric. <br><br><div class="gmail_quote"><div dir="ltr">On Wed, Nov 14, 2018 at 8:08 AM Thomas Roth <<a href="mailto:t.roth@gsi.de" target="_blank">t.roth@gsi.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
your error messages are all well known - the one on the OSS will show up as soon as the Lustre modules<br>
are loaded, provided you have some clients asking for the OSTs (and your MDT, which should be up by<br>
then, is also looking for the OSTs).<br>
The kiblnd_check_conns message I have also seen quite often, never with any OST problems.<br>
<br>
Rather seems your OST take a lot of time to mount or to recover - did you check<br>
/proc/fs/lustre/obdfilter/lustre-OST00*/recovery_status<br>
?<br>
<br>
Regards<br>
Thomas<br>
<br>
On 11/12/18 9:46 AM, fırat yılmaz wrote:<br>
> Hi All<br>
> OS=Redhat 7.4<br>
> Lustre Version: Intel® Manager for Lustre* software 4.0.3.0<br>
> <br>
> I have 72 osts over 6 oss with HA and 1 mdt serving to 195 clients over<br>
> infiniband EDR.<br>
> <br>
> After a reboot on client, lustre filesystem mounts on startup. It should be<br>
> 2.1 TB area but lt starts with 350TB.<br>
> <br>
> lfs osts command shows 90 percent of even numbered osts are ACTIVE and no<br>
> information about other OSTs, as time passes like 1 hour or so, all OSTs<br>
> become active and lustre area can be seen as 2.1 PB<br>
> <br>
> <br>
> dmesg on lustre oss server:<br>
> LustreError: 137-5: lustre-OST0009_UUID: not available for connect from<br>
> 10.0.0.130@o2ib (no target). If you are running an HA pair check that the<br>
> target is mounted on the other server.<br>
> <br>
> dmesg on client:<br>
> LNet: 5419:0:(o2iblnd_cb.c:3192:kiblnd_check_conns()) Timed out tx for<br>
> 10.0.0.5@o2ib: 15 seconds<br>
> Lustre: 5546:0:(client.c:2114:ptlrpc_expire_one_request()) @@@ Request sent<br>
> has failed due to network error: [sent 1542009416/real 1542009426]<br>
> req@ffff885f47610000 x1616909446641136/t0(0)<br>
> o8->lustre-OST0030-osc-ffff885f75219800@10.0.0.8@o2ib:28/4 lens 520/544 e 0<br>
> to 1 dl 1542009696 ref 1 fl Rpc:eXN/0/ffffffff rc 0/-1<br>
> <br>
> I tested infiniband with ib_send_lat, ib_read_lat and no error occured<br>
> I tested lnet ping with lctl ping 10.0.0.8@o2ib , no error occured<br>
> 12345-0@lo<br>
> 12345-10.51.22.8@o2ib<br>
> <br>
> Why some OST's  can be accesible while some are not in the same server?<br>
> Best Regards.<br>
> <br>
> <br>
> _______________________________________________<br>
> lustre-discuss mailing list<br>
> <a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
> <a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
> <br>
<br>
<br>
_______________________________________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
</blockquote></div>
_______________________________________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
</blockquote></div>