<div dir="ltr">Hello,<div><br></div><div>We have a user that uses the<span class="gmail-Apple-converted-space"> </span><a href="https://lsdyna.ansys.com/">LS-DYNA software,</a><span class="gmail-Apple-converted-space"> </span>from Ansys. </div><div><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">LS-DYNA software from Livermore Software Technology Corporation is a general purpose structural and fluid analysis simulation software package capable of simulating complex real world problems. It is widely used in the automotive industry for crashworthiness analysis, occupant safety analysis, metal forming and much more. In most cases, LS-DYNA is being used in cluster environments as these environments provide better flexibility, scalability and efficiency for such simulations.  </blockquote><div><br></div><div>The user will run a 3-5 day Slurm job where he asks for between 1-2 compute nodes (usually 3), using these Slurm options:<br></div></div><div><font face="monospace">#SBATCH --ntasks-per-node=32<br>#SBATCH --mem-per-cpu=4000M</font></div><div><font face="monospace"><br></font></div><div><font face="monospace">module load intel-parallel-studio/2020 openmpi/gcc/64/4.1.1_cuda_11.0.3_aware<br><br>export LD_LIBRARY_PATH="/path/to/openmpi-4.1.1_ucx_cuda_11.0.3_support/lib:$LD_LIBRARY_PATH"<br><br># OpenMPI<br>LSDYNA=/path/to/lsDyna/r1502/ls-dyna_mpp_d_R15_0_2_x64_centos79_ifort190_sse2_openmpi405<br>IFILE=./fsi.k<br>MEMORY=20000M<br>MEMORY2=250M<br>NCORES=96<br><br>mpirun -n 96 ${LSDYNA} I=${IFILE} MEMORY=${MEMORY} MEMORY2=${MEMORY2} NCPU=${NCORES}<br></font></div><div><br></div><div>Here is a recent job stats:</div><div><font face="monospace">- user: {ops: 37124243, op: 1366026, cl: 1367353, mn: 1346609, ul: 1346112, ga: 4251676, sa: 19548, gx: 8097, sy: 23465265, rd: 51877, wr: 3899999, pu: 1681}</font><br></div><div><br></div><div>The job is creating 1.3 million files, but is issuing many millions of sync RPCs (almost 23.5M sync for 3.9M writes), which is likely hurting overall filesystem performance because it is forcing all of the other writers to block waiting for the sync to complete.<br></div><div><br></div><div>Based on the white paper<span class="gmail-Apple-converted-space"> </span><a href="https://network.nvidia.com/pdf/whitepapers/wp_LS-DYNA_Best_Practices.pdf">best practices white paper released by NVIDIA</a> on page 7 (I'll leave the '<font face="monospace">luster</font>' typo and poor grammar in place) :<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">Due to the parallel file system capabilities and the usage of InfiniBand as the network for Lustre, using Lustre instead of the local disk increased LS-DYNA performance 20% in average for both HP MPI and Intel MPI. Intel MPI has native Lustre support (command line <font face="monospace">mpiexec -genv I_MPI_ADJUST_BCAST 5 -genv I_MPI_EXTRA_FILESYSTEM on -genv I_MPI_EXTRA_FILESYSTEM_LIST luster</font>). </blockquote><div><br></div><div>A few weeks back I <a href="http://lists.lustre.org/pipermail/lustre-discuss-lustre.org/2024-April/019108.html">asked about those options on the list</a>, no response to date.</div><div><br></div><div>I will pass this on to the user but could there be something else causing those high values seen in the job stats? We're running an ExaScaler on 5.2.8 with</div><div><font face="monospace">lustre-2.12.9_ddn26-1.el7.x86_64 </font></div><div><br></div><div>I don't think switching from OpenMPI to Intel would improve performance by much but would like some feedback.</div><div><br></div><div>Thanks,</div><div><br></div><div>Rob</div><div><br></div><div><br></div></div>