<div dir="ltr">Hi,<div><br></div><div>I'm running IOR benchmark on a big shared machine having no less than 10 sockets.</div><div>It is connected to Lustre FS (v. 2.10).</div><div>IOR benchmark measure file system write performance.</div><div>I'm seeing performance issues in two cases.</div><div>I know it can be either MPI problem or Luster problem</div><div>I want to get help if there is anything I should look into Luster side.</div><div><br></div><div>1. Independent file write test.<br></div><div>Theoretically this must scale very well.</div><div>It does scale well when MPI processes are put into a single socket (not stritly linear, but quite well up to 10 MPI processes)</div><div>However, the same number of MPI processes are spread across multiple sockets, its scalability is a lot worse. (OK up to 4 MPI processes, but doesn't increase beyond that).</div><div>I expected both should show similar performance. But they are quite different.</div><div>Any idea of why?</div><div>As an extra information, when I tested the same IOR test with ramdisk target, both scales very well.</div><div><br></div><div>2. Single shared file write test.</div><div>Similar problem shown in the first issue, but a lot worse performance.</div><div>When MPI processes are spread across multiple sockets, its performance gets worse as the number of MPI processes increase. </div><div><br></div><div>Any comments/help would be appreciated.</div><div><br></div><div>David</div><div><br></div><div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">=========<div>Jesus is My Lord!</div><div><br></div></div></div></div>