<div dir="ltr">Hi Chris and Cory,<div><br></div><div>  I remember looking at configuring multi-rail when 2.12 came out for this very reason, but stopped when it looked like round-robin only. Is there a way to trick the LNet Health system into seeing one interface as "sick but not dead"?</div><div><br></div><div>  Also, when is 2.14 coming out :)</div><div><br></div><div>  For what it's worth, the client errors I'm trying to diagnose (only one client has them) are similar to:</div><div><font face="monospace">[Thu Feb 11 15:51:24 2021] LustreError: 11-0: DFS-L-OST0003-osc-ffff9cd07c339000: operation ost_set_info to node 10.201.32.48@o2ib1 failed: rc = -107<br>[Thu Feb 11 15:51:24 2021] Lustre: DFS-L-OST0003-osc-ffff9cd07c339000: Connection to DFS-L-OST0003 (at 10.201.32.48@o2ib1) was lost; in progress operations using this service will wait for recovery to complete<br>[Thu Feb 11 15:51:24 2021] LustreError: 167-0: DFS-L-OST0003-osc-ffff9cd07c339000: This client was evicted by DFS-L-OST0003; in progress operations using this service will fail.<br>[Thu Feb 11 15:51:24 2021] Lustre: DFS-L-OST0003-osc-ffff9cd07c339000: Connection restored to 10.201.32.48@o2ib1 (at 10.201.32.48@o2ib1)</font>  <font face="monospace"><br></font></div><div><br></div><div>Thanks,</div><div>Nate</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Feb 11, 2021 at 1:25 PM Horn, Chris <<a href="mailto:chris.horn@hpe.com">chris.horn@hpe.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





<div lang="EN-US" style="overflow-wrap: break-word;">
<div class="gmail-m_6883357668397989921WordSection1">
<p class="MsoNormal">FYI, multi-rail in 2.12 will round robin traffic between both @tcp and @o2ib networks. If @o2ib flakes out then traffic should shift entirely to @tcp, but there isn’t a way to specify that traffic go to @tcp only when there’s a problem
 with @o2ib. You need the user defined selection policy feature for that, and that feature is not slated to arrive until after 2.14 (afaik).<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Chris Horn<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(181,196,223);padding:3pt 0in 0in">
<p class="MsoNormal"><b><span style="font-size:12pt;color:black">From: </span></b><span style="font-size:12pt;color:black">lustre-discuss <<a href="mailto:lustre-discuss-bounces@lists.lustre.org" target="_blank">lustre-discuss-bounces@lists.lustre.org</a>> on behalf of "Spitz, Cory James" <<a href="mailto:cory.spitz@hpe.com" target="_blank">cory.spitz@hpe.com</a>><br>
<b>Date: </b>Thursday, February 11, 2021 at 3:17 PM<br>
<b>To: </b>"<a href="mailto:nathan.crawford@uci.edu" target="_blank">nathan.crawford@uci.edu</a>" <<a href="mailto:nathan.crawford@uci.edu" target="_blank">nathan.crawford@uci.edu</a>>, Lustre User Discussion Mailing List <<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>><br>
<b>Subject: </b>Re: [lustre-discuss] LNET IB intermittent connection<br>
<b>Resent-From: </b><<a href="mailto:hornc@cray.com" target="_blank">hornc@cray.com</a>><br>
<b>Resent-Date: </b>Thursday, February 11, 2021 at 3:17 PM<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<p class="MsoNormal">Hi, Nate.<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">You asked, “can LNET be easily configured to go over the @tcp connection when the @o2ib flakes out?”<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">Yes, you can use LNet Multi-Rail for it and that _<i>is</i>_ covered in the “fine manual”, chapter 16
<span style="font-family:"Apple Color Emoji"">☺</span><u></u><u></u></p>
<p class="MsoNormal"><a href="https://doc.lustre.org/lustre_manual.xhtml#lnetmr" target="_blank">https://doc.lustre.org/lustre_manual.xhtml#lnetmr</a><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<p class="MsoNormal">-Cory<u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in">On 2/10/21, 4:54 PM, "lustre-discuss" <<a href="mailto:lustre-discuss-bounces@lists.lustre.org" target="_blank">lustre-discuss-bounces@lists.lustre.org</a>> wrote:<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in"> <u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in">Hi All,<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">  I've recently been having a bunch of LNET over Infiniband connection-lost/-restored errors and am trying to find the cause and/or tune the system to better cope. There is a lot of stuff on the wiki (
<a href="https://wiki.lustre.org/Lustre_Resiliency:_Understanding_Lustre_Message_Loss_and_Tuning_for_Resiliency" target="_blank">https://wiki.lustre.org/Lustre_Resiliency:_Understanding_Lustre_Message_Loss_and_Tuning_for_Resiliency</a>), but that's from 2016, and I don't know what parts are superseded. I'm currently running Lustre 2.12.5 on CentOS 7.8, with a mix of Q-Logic/Intel QDR
 and Mellanox EDR HCAs and switches (using CentOS in-box RDMA/opensm).<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">  Is there a better place to look (e.g. the fine manual, section X) for guidance? I've done a few searches on the Jira, but the most similar errors should have already been fixed in earlier releases.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">  Assuming that there is actually some impending hardware issue, can LNET be easily configured to go over the @tcp connection when the @o2ib flakes out?<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">Thanks,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">Nate<br clear="all">
<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in"> <u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">-- <u></u><u></u></p>
<div>
<div>
<div>
<div>
<div>
<div>
<pre style="margin-left:0.5in">Dr. Nathan Crawford              <a href="mailto:nathan.crawford@uci.edu" target="_blank">nathan.crawford@uci.edu</a><u></u><u></u></pre>
<pre style="margin-left:0.5in">Director of Scientific Computing<u></u><u></u></pre>
<pre style="margin-left:0.5in">School of Physical Sciences<u></u><u></u></pre>
<pre style="margin-left:0.5in">164 Rowland Hall                 Office: 2101 Natural Sciences II<u></u><u></u></pre>
<pre style="margin-left:0.5in">University of California, Irvine  Phone: 949-824-4508<u></u><u></u></pre>
<pre style="margin-left:0.5in">Irvine, CA 92697-2025, USA<u></u><u></u></pre>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>

</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><pre>Dr. Nathan Crawford              <a href="mailto:nathan.crawford@uci.edu" target="_blank">nathan.crawford@uci.edu</a>
Director of Scientific Computing
School of Physical Sciences
164 Rowland Hall                 Office: 2101 Natural Sciences II
University of California, Irvine  Phone: 949-824-4508
Irvine, CA 92697-2025, USA</pre></div></div></div></div></div></div>