<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Jan 20, 2017 at 4:20 PM, Massimo Sgaravatto <span dir="ltr"><<a href="mailto:massimo.sgaravatto@pd.infn.it" target="_blank">massimo.sgaravatto@pd.infn.it</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi<br>
<br>
I have a Lustre cluster composed by 1 MDS and 2 OSS servers.<br>
Clients are both physical machines (~ 25 boxes) and virtual machines (instantiated on a OpenStack cluster). These Virtual Machines are dynamically created and destroyed as needed (we have a machinery which provides such automatic elasticity). They access the Lustre cluster through a NAT.<br></blockquote><div>Did you check if you are running out of available ports to maintain open connections etc.? What about the 'switching' capacity of the virtual switch/router? The throughput on the interface? RAM/CPU usage of the switch/router?<br></div><div>Not really the Lustre side of things but also things that could be messing up and can be ruled out fairly easily.<br></div><div>HTH,<br></div><div>Eli <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
We start having problems when the number of virtual machines reaches a certain value (about 130 - 140).<br>
In such scenario we start seeing problems: we are not able to mount anymore Lustre on new clients and the access to the lustre file system is very slow.<br>
<br>
<br>
In the OSS and MDS syslogs I see a lot of errors, such as:<br>
<br>
Request sent has timed out for slow reply<br>
bulk GET failed<br>
Request sent has failed due to network error<br>
lock blocking callback time out<br>
<br>
In:<br>
<br>
<a href="https://dl.dropboxusercontent.com/u/7639059/LustreLog/lustre-mds.txt" rel="noreferrer" target="_blank">https://dl.dropboxusercontent.<wbr>com/u/7639059/LustreLog/lustre<wbr>-mds.txt</a><br>
<a href="https://dl.dropboxusercontent.com/u/7639059/LustreLog/lustre-oss-01.txt" rel="noreferrer" target="_blank">https://dl.dropboxusercontent.<wbr>com/u/7639059/LustreLog/lustre<wbr>-oss-01.txt</a><br>
<a href="https://dl.dropboxusercontent.com/u/7639059/LustreLog/lustre-oss-03.txt" rel="noreferrer" target="_blank">https://dl.dropboxusercontent.<wbr>com/u/7639059/LustreLog/lustre<wbr>-oss-03.txt</a><br>
<br>
I saved a copy of these syslogs (just related to Lustre, and just for a time slot when the problem happened).<br>
In this example 10.64.22.248 is a new VM that is not able to mount the lustre filesystem.<br>
<br>
<br>
There aren't network saturations when the problem happen and the lustre servers don't appear heavily loaded.<br>
<br>
I would appreciate any hints that could help in troubleshooting this issue<br>
<br>
<br>
Thanks, Massimo<br>
<br>
<br>______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
<br></blockquote></div><br></div></div>