<div dir="ltr">Hi Patrick,<div><br></div><div style>Verify interconnect health from those clients to the OSS hosting those OST's.</div><div style><br></div><div style>-cf</div><div style><br></div></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Mon, Apr 29, 2013 at 5:28 PM, Patrick Shopbell <span dir="ltr"><<a href="mailto:pls@astro.caltech.edu" target="_blank">pls@astro.caltech.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
<br>
Hi everyone,<br>
I have seen this question here before, but without a very<br>
satisfactory answer. One of our half a dozen clients has<br>
lost access to a set of OSTs:<br>
<br>
 > lfs osts<br>
OBDS::<br>
0: lustre-OST0000_UUID ACTIVE<br>
1: lustre-OST0001_UUID ACTIVE<br>
2: lustre-OST0002_UUID INACTIVE<br>
3: lustre-OST0003_UUID INACTIVE<br>
4: lustre-OST0004_UUID INACTIVE<br>
5: lustre-OST0005_UUID ACTIVE<br>
6: lustre-OST0006_UUID ACTIVE<br>
<br>
All OSTs show as completely fine on the other clients, and<br>
the system is working there. In addition, I have run numerous<br>
checks of the IB network (ibhosts, ibping, etc.), and I do not<br>
see any networking issues.<br>
<br>
Moreover, the OSSs include:<br>
<br>
     OSS #1  -->   OST #0, #1, #2<br>
     OSS #2  -->   OST #3, #4, #5<br>
     OSS #3  -->   OST #6<br>
<br>
So, the machine is seeing two of three OSTs on OSS #1 and one<br>
of three OSTs on OSS #2. It is showing some OSTs on an OSS as<br>
active and others as inactive. So this does not seem to be a<br>
networking<br>
issue.<br>
<br>
I am getting a set of errors on that client periodically:<br>
<br>
Apr 29 16:21:18 abacus kernel: LustreError:<br>
28707:0:(import.c:324:ptlrpc_invalidate_import()) lustre-OST0003_UUID:<br>
rc = -110 waiting for callback (3 != 0)<br>
Apr 29 16:21:18 abacus kernel: LustreError:<br>
28707:0:(import.c:324:ptlrpc_invalidate_import()) Skipped 18 previous<br>
similar messages<br>
Apr 29 16:21:18 abacus kernel: LustreError:<br>
28707:0:(import.c:350:ptlrpc_invalidate_import()) @@@ still on sending<br>
list  req@ffff8803b45c6c00 x1430098383471272/t0(0)<br>
o101->lustre-OST0003-osc-ffff880331f33400@192.168.100.103@o2ib:28/4 lens<br>
328/352 e 0 to 0 dl 1367194410 ref 1 fl Interpret:RE/0/0 rc -5/0<br>
Apr 29 16:21:18 abacus kernel: LustreError:<br>
28707:0:(import.c:350:ptlrpc_invalidate_import()) Skipped 61 previous<br>
similar messages<br>
Apr 29 16:21:18 abacus kernel: LustreError:<br>
28707:0:(import.c:366:ptlrpc_invalidate_import()) lustre-OST0003_UUID:<br>
RPCs in "Unregistering" phase found (0). Network is sluggish? Waiting<br>
them to error out.<br>
Apr 29 16:21:18 abacus kernel: LustreError:<br>
28707:0:(import.c:366:ptlrpc_invalidate_import()) Skipped 18 previous<br>
similar messages<br>
<br>
I seem to recall some talk of what happens when a client or<br>
two does a lot of I/O and sort of takes over. Indeed, a couple<br>
of the other clients are very busily using Lustre. But still,<br>
I would have hoped that this client (abacus) would have regained<br>
its connections after a few hours.<br>
<br>
Any ideas as to what I can do, short of rebooting the client?<br>
I am nervous about that leaving incomplete I/O.<br>
<br>
Thanks,<br>
Patrick Shopbell<br>
<a href="mailto:pls@astro.caltech.edu">pls@astro.caltech.edu</a><br>
<br>
<br>
<br>
_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
</blockquote></div><br></div>