<div dir="ltr">Have you tried MTU >= 9000 bytes (AKA jumbo frame) on the 25G ethernet and the switch? <div>If it is set to 1500 bytes, ethernet + IP + TCP frame headers take quite amount of packet, reducing available bandwidth for data.</div><div><br></div><div>Jongwoo Han</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">2019년 11월 28일 (목) 오전 3:44, Pinkesh Valdria <<a href="mailto:pinkesh.valdria@oracle.com">pinkesh.valdria@oracle.com</a>>님이 작성:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div lang="EN-US"><div class="gmail-m_-862763174184110697WordSection1"><p class="MsoNormal"><span style="font-size:11pt">Thanks Andreas for your response.  <u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt">I ran anotherLnet Self test with 48 concurrent processes, since the nodes have 52 physical cores and I was able to achieve same throughput (</span><span style="font-size:9pt;font-family:Menlo;color:black">2052.71  MiB/s = 2152 MB/s</span><span style="font-size:11pt">).</span><span style="font-size:9pt;font-family:Menlo;color:black"><u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt">Is it expected to lose almost 600 MB/s (2750-2150= ) due to overheads on ethernet with Lnet?<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt">Thanks,<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt">Pinkesh Valdria<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt">Oracle Cloud Infrastructure <u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p><div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(181,196,223);padding:3pt 0in 0in"><p class="MsoNormal"><b><span style="color:black">From: </span></b><span style="color:black">Andreas Dilger <<a href="mailto:adilger@whamcloud.com" target="_blank">adilger@whamcloud.com</a>><br><b>Date: </b>Wednesday, November 27, 2019 at 1:25 AM<br><b>To: </b>Pinkesh Valdria <<a href="mailto:pinkesh.valdria@oracle.com" target="_blank">pinkesh.valdria@oracle.com</a>><br><b>Cc: </b>"<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>" <<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>><br><b>Subject: </b>Re: [lustre-discuss] Lnet Self Test<u></u><u></u></span></p></div><div><p class="MsoNormal"><span style="font-size:11pt"><u></u> <u></u></span></p></div><p class="MsoNormal">The first thing to note is that lst reports results in binary units <u></u><u></u></p><div><p class="MsoNormal">(MiB/s) while iperf reports results in decimal units (Gbps).  If you do the<u></u><u></u></p></div><div><p class="MsoNormal">conversion you get 2055.31 MiB/s = 2155 MB/s.<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">The other thing to check is the CPU usage. For TCP the CPU usage can<u></u><u></u></p></div><div><p class="MsoNormal">be high. You should try RoCE+o2iblnd instead. <u></u><u></u></p><div><p class="MsoNormal"><u></u> <u></u></p><div id="gmail-m_-862763174184110697AppleMailSignature"><p class="MsoNormal">Cheers, Andreas<u></u><u></u></p></div><div><p class="MsoNormal" style="margin-bottom:12pt"><br>On Nov 26, 2019, at 21:26, Pinkesh Valdria <<a href="mailto:pinkesh.valdria@oracle.com" target="_blank">pinkesh.valdria@oracle.com</a>> wrote:<u></u><u></u></p></div><blockquote style="margin-top:5pt;margin-bottom:5pt"><div><p class="MsoNormal"><span style="font-size:11pt">Hello All, </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">I created a new Lustre cluster on CentOS7.6 and I am running lnet_selftest_wrapper.sh to measure throughput on the network.  The nodes are connected to each other using 25Gbps ethernet, so theoretical max is 25 Gbps * 125 = 3125 MB/s.    Using iperf3,  I get 22Gbps (2750 MB/s) between the nodes.</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[root@lustre-client-2 ~]# for c in 1 2 4 8 12 16 20 24 ;  do echo $c ; ST=lst-output-$(date +%Y-%m-%d-%H:%M:%S)  CN=$c  SZ=1M  TM=30 BRW=write CKSUM=simple LFROM="10.0.3.7@tcp1" LTO="10.0.3.6@tcp1" /root/lnet_selftest_wrapper.sh; done ;</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">When I run lnet_selftest_wrapper.sh (from <a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__wiki.lustre.org_LNET-5FSelftest&d=DwMGaQ&c=RoP1YumCXCgaWHvlZYR8PZh8Bv7qIrMUB65eapI_JnE&r=HpfvG0tozSl7HgJJuyxxo2149EjwqpQDE7ytv-4sZuI&m=dEosA07cQm7WPohubrpzab8agc4uFDGesC-4tI4ylm0&s=-ne2Yke64JRw4BQu9pa0DXwf3tHkDqaUbp7S6Eq_C_Q&e=" target="_blank">Lustre wiki</a>) between 2 nodes,  I get a max of  2055.31  MiB/s,  Is that expected at the Lnet level?  Or can I further tune the network and OS kernel (tuning I applied are below) to get better throughput?</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><b><u><span style="font-size:11pt">Result Snippet from lnet_selftest_wrapper.sh</span></u></b><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[LNet Rates of lfrom]</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[R] Avg: 4112     RPC/s Min: 4112     RPC/s Max: 4112     RPC/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[W] Avg: 4112     RPC/s Min: 4112     RPC/s Max: 4112     RPC/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[LNet Bandwidth of lfrom]</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[R] Avg: 0.31     MiB/s Min: 0.31     MiB/s Max: 0.31     MiB/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt;background:yellow">[W] Avg: 2055.30  MiB/s Min: 2055.30  MiB/s Max: 2055.30  MiB/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[LNet Rates of lto]</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[R] Avg: 4136     RPC/s Min: 4136     RPC/s Max: 4136     RPC/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[W] Avg: 4136     RPC/s Min: 4136     RPC/s Max: 4136     RPC/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[LNet Bandwidth of lto]</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt;background:yellow">[R] Avg: 2055.31  MiB/s Min: 2055.31  MiB/s Max: 2055.31  MiB/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">[W] Avg: 0.32     MiB/s Min: 0.32     MiB/s Max: 0.32     MiB/s</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><b><u><span style="font-size:11pt">Tuning applied: </span></u></b><u></u><u></u></p><p class="MsoNormal"><u><span style="font-size:11pt">Ethernet NICs: </span></u><u></u><u></u></p><p class="gmail-m_-862763174184110697p1">ip link set dev ens3 mtu <span class="gmail-m_-862763174184110697s1">9000</span> <u></u><u></u></p><p class="gmail-m_-862763174184110697p1">ethtool -G ens3 rx <span class="gmail-m_-862763174184110697s1">2047</span> tx <span class="gmail-m_-862763174184110697s1">2047</span> rx-jumbo <span class="gmail-m_-862763174184110697s1">8191</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><u><span style="font-size:11pt">less /etc/sysctl.conf</span></u><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.wmem_max=16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.rmem_max=16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.wmem_default=16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.rmem_default=16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.optmem_max=16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.netdev_max_backlog=27000</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">kernel.sysrq=1</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">kernel.shmmax=18446744073692774399</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.core.somaxconn=8192</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_adv_win_scale=2</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_low_latency=1</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_rmem = 212992 87380 16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_sack = 1</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_timestamps = 1</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_window_scaling = 1</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_wmem = 212992 65536 16777216</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">vm.min_free_kbytes = 65536</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_congestion_control = cubic</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_timestamps = 0</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_congestion_control = htcp</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">net.ipv4.tcp_no_metrics_save = 0</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">echo </span><span style="font-size:9pt;font-family:Menlo;color:rgb(209,47,27)">"#</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><i><span style="font-size:9pt;font-family:Menlo;color:rgb(101,121,140)"># tuned configuration</span></i><u></u><u></u></p><p class="MsoNormal" style="background:white"><i><span style="font-size:9pt;font-family:Menlo;color:rgb(101,121,140)">#</span></i><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">[main]</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">summary=Broadly applicable tuning that provides excellent performance across a variety of common server workloads</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black"> </span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">[disk]</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">devices=!dm-*, !sda1, !sda2, !sda3</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">readahead=></span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">4096</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Helvetica;color:black"> </span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">[cpu]</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">force_latency=</span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">1</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">governor=performance</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">energy_perf_bias=performance</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">min_perf_pct=</span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">100</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">[vm]</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">transparent_huge_pages=never</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">[sysctl]</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">kernel.sched_min_granularity_ns = </span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">10000000</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">kernel.sched_wakeup_granularity_ns = </span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">15000000</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">vm.dirty_ratio = </span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">30</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">vm.dirty_background_ratio = </span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">10</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">vm.swappiness=</span><span style="font-size:9pt;font-family:Menlo;color:rgb(39,42,216)">30</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:rgb(209,47,27)">" > lustre-performance/tuned.conf</span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Helvetica;color:black"> </span><u></u><u></u></p><p class="MsoNormal" style="background:white"><span style="font-size:9pt;font-family:Menlo;color:black">tuned-adm profile lustre-performance</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">Thanks,</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt">Pinkesh Valdria</span><u></u><u></u></p><p class="MsoNormal"><span style="font-size:11pt"> </span><u></u><u></u></p></div></blockquote><blockquote style="margin-top:5pt;margin-bottom:5pt"><div><p class="MsoNormal"><span style="font-size:11pt">_______________________________________________<br>lustre-discuss mailing list<br><a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.lustre.org_listinfo.cgi_lustre-2Ddiscuss-2Dlustre.org&d=DwMGaQ&c=RoP1YumCXCgaWHvlZYR8PZh8Bv7qIrMUB65eapI_JnE&r=HpfvG0tozSl7HgJJuyxxo2149EjwqpQDE7ytv-4sZuI&m=dEosA07cQm7WPohubrpzab8agc4uFDGesC-4tI4ylm0&s=ejwMDqk5D3TzRE5eTzFdEKo9cQ0I6GVqN04wgaJcn0s&e=" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><u></u><u></u></span></p></div></blockquote></div></div></div></div>
_______________________________________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><font face="'courier new', monospace">Jongwoo Han</font><div><font face="'courier new', monospace">+82-505-227-6108</font></div></div>