<div dir="ltr"><div><div><div>Hello Jeff,<br><br></div>Non, this is a lustre filesystem for Instituto de Ciencias Nucleares at UNAM, we are working on the installation for Alice at DGTIC too, but this problem is with our local filesystem.<br>
<br></div>The OST is connected using a LSI-SAS controller, we have 8 OSTs on the same server, there are nodes that loose connection with all the OSTs that belong to this server but the problem is not related with the OST-OSS communication, since I can access this  OST and read files stored there from other lustre clients.<br>
<br></div>The problem is a deadlock condition in which the OSS and some clients refuse connections from each other as I can see from dmesg:<br><br>in the client<br><span style="font-family:courier new,monospace">LustreError: 11-0: lustre-OST000a-osc-ffff8801bc548000: Communicating with 10.2.2.3@o2ib, operation ost_connect failed with -16.<br>
<br></span><div>in the server<br><span style="font-family:courier new,monospace">Lustre: lustre-OST000a: Client 0afb2e4c-d870-47ef-c16f-4d2bce6dabf9 (at 10.2.64.4@o2ib) reconnecting<br>Lustre: lustre-OST000a: Client 0afb2e4c-d870-47ef-c16f-4d2bce6dabf9 (at 10.2.64.4@o2ib) refused reconnection, still busy with 9 active RPCs</span><br>
 <br></div><div>this only happen with clients that are reading a lot of small files (~100MB each) in the same OST. <br></div><div><br></div><div>thank you,<br><br></div><div>Eduardo<br></div><div><br></div></div><div class="gmail_extra">
<br><br><div class="gmail_quote">2013/10/17 Jeff Johnson <span dir="ltr"><<a href="mailto:jeff.johnson@aeoncomputing.com" target="_blank">jeff.johnson@aeoncomputing.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hola Eduardo,<br>
<br>
How are the OSTs connected to the OSS (SAS, FC, Infiniband SRP)?<br>
Are there any non-Lustre errors in the dmesg output of the OSS?<br>
Block devices error on the OSS (/dev/sd?)?<br>
<br>
If you are losing [scsi,sas,fc,srp] connectivity you may see this sort<br>
of thing. If the OSTs are connected to the OSS node via IB SRP and your<br>
IB fabric gets busy or you have subnet manager issues you might see a<br>
condition like this.<br>
<br>
Is this the AliceFS at DGTIC?<br>
<br>
--Jeff<br>
<div><div class="h5"><br>
<br>
<br>
On 10/17/13 3:52 PM, Eduardo Murrieta wrote:<br>
> Hello,<br>
><br>
> this is my first post on this list, I hope someone can give me some<br>
> advise on how to resolve the following issue.<br>
><br>
> I'm using the lustre release 2.4.0 RC2 compiled from whamcloud<br>
> sources, this is an upgrade from lustre 2.2.22 from same sources.<br>
><br>
> The situation is:<br>
><br>
> There are several clients reading files that belongs mostly to the<br>
> same OST, afther a period of time the clients starts loosing contact<br>
> with this OST and processes stops due to this fault, here is the state<br>
> for such OST on one client:<br>
><br>
> client# lfs check servers<br>
> ...<br>
> ...<br>
> lustre-OST000a-osc-ffff8801bc548000: check error: Resource temporarily<br>
> unavailable<br>
> ...<br>
> ...<br>
><br>
> checking dmesg on client and OSS server we have:<br>
><br>
> client# dmesg<br>
> LustreError: 11-0: lustre-OST000a-osc-ffff8801bc548000: Communicating<br>
> with 10.2.2.3@o2ib, operation ost_connect failed with -16.<br>
> LustreError: Skipped 24 previous similar messages<br>
><br>
> OSS-server# dmesg<br>
> ....<br>
> Lustre: lustre-OST000a: Client 0afb2e4c-d870-47ef-c16f-4d2bce6dabf9<br>
> (at 10.2.64.4@o2ib) reconnecting<br>
> Lustre: lustre-OST000a: Client 0afb2e4c-d870-47ef-c16f-4d2bce6dabf9<br>
> (at 10.2.64.4@o2ib) refused reconnection, still busy with 9 active RPCs<br>
> ....<br>
><br>
> At this moment I can ping from client to server and vice versa, but<br>
> some time this call also hangs on server and client.<br>
><br>
> client# # lctl ping OSS-server@o2ib<br>
> 12345-0@lo<br>
> 12345-OSS-server@o2ib<br>
><br>
> OSS-server# lctl ping 10.2.64.4@o2ib<br>
> 12345-0@lo<br>
> 12345-10.2.64.4@o2ib<br>
><br>
> This situation happens very frequently and specially with jobs that<br>
> process a lot of files in an average size of 100MB.<br>
><br>
> The only solution that  I find to reestablish the communication<br>
> between the server and the client is restarting both machines.<br>
><br>
> I hope some have an idea what is the reason for the problem and how<br>
> can I reset the communication with the clients without restarting the<br>
> machines.<br>
><br>
> thank you,<br>
><br>
> Eduardo<br>
> UNAM@Mexico<br>
><br>
> --<br>
> Eduardo Murrieta<br>
> Unidad de Cómputo<br>
> Instituto de Ciencias Nucleares, UNAM<br>
> Ph. +52-55-5622-4739 ext. 5103<br>
><br>
><br>
><br>
</div></div>> _______________________________________________<br>
> Lustre-discuss mailing list<br>
> <a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
> <a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
<br>
<br>
--<br>
------------------------------<br>
Jeff Johnson<br>
Co-Founder<br>
Aeon Computing<br>
<br>
<a href="mailto:jeff.johnson@aeoncomputing.com">jeff.johnson@aeoncomputing.com</a><br>
<a href="http://www.aeoncomputing.com" target="_blank">www.aeoncomputing.com</a><br>
t: 858-412-3810 x1001   f: 858-412-3845<br>
m: 619-204-9061<br>
<br>
4170 Morena Boulevard, Suite D - San Diego, CA 92117<br>
<br>
High-performance Computing / Lustre Filesystems / Scale-out Storage<br>
<br>
_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
</blockquote></div><br><br clear="all"><br>-- <br><font color="#888888"><span style="font-family:courier new,monospace">Eduardo Murrieta</span><br style="font-family:courier new,monospace"><span style="font-family:courier new,monospace">Unidad de Cómputo</span><br style="font-family:courier new,monospace">
</font><font style="font-family:courier new,monospace" color="#888888">Instituto de Ciencias Nucleares, UNAM<br>Ph. +52-55-5622-4739 ext. 5103</font><br style="font-family:courier new,monospace"><font color="#888888">
<br></font>
</div>