<div dir="ltr"><div>Hi,</div><div>Thanks for your suggestion.</div><div>But , to reboot the OSSs 

 in production under massive IO pressure  will make another long long story .</div><div><br></div><div>Regards.</div><div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Weiss, Karsten <<a href="mailto:karsten.weiss@atos.net">karsten.weiss@atos.net</a>> 于2020年7月30日周四 下午11:31写道:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





<div lang="DE">
<div class="gmail-m_-1123005706254535197WordSection1">
<p class="MsoNormal"><span>Hi!<u></u><u></u></span></p>
<p class="MsoNormal"><span><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">(Caveat: I ran into this issue not on Lustre but on HPC MPI jobs on CentOS 7.7. They only run stable<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">with the workaround.)<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">I’ve opened a bug with Red Hat at
<a href="https://bugzilla.redhat.com/show_bug.cgi?id=1796825" target="_blank">https://bugzilla.redhat.com/show_bug.cgi?id=1796825</a> but unfortunately,<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">it is no longer public (or fixed/closed) i.e. you probably won’t be able to read it.<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">To make a long story short: You may try to boot with the kernel parameter “iommu=pt” as a workaround(!).<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Please let me know if this “fixes” the problem for you. YMMV.<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Best regards,<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Karsten<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="color:rgb(31,73,125)">-- <br>
</span><b><span style="font-size:9pt;font-family:Verdana,sans-serif;color:rgb(31,73,125)">Dipl.-Inf. Karsten Weiss<br>
</span></b><span style="font-size:8pt;font-family:Verdana,sans-serif;color:rgb(31,73,125)">s+c / Atos<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:8pt;font-family:Verdana,sans-serif;color:rgb(31,73,125)">T +49 7071 9457 452<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:8pt;font-family:Verdana,sans-serif;color:rgb(31,73,125)"><a href="mailto:karsten.weiss@atos.net" target="_blank">karsten.weiss@atos.net</a><u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:8pt;font-family:Verdana,sans-serif"><a href="https://atos.net/de/deutschland/sc-en" target="_blank">https://atos.net/de/deutschland/sc-en</a><u></u><u></u></span></p>
<p class="MsoNormal"><span><u></u> <u></u></span></p>
<p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> lustre-discuss <<a href="mailto:lustre-discuss-bounces@lists.lustre.org" target="_blank">lustre-discuss-bounces@lists.lustre.org</a>>
<b>On Behalf Of </b>???<br>
<b>Sent:</b> Thursday, July 30, 2020 16:05<br>
<b>To:</b> lustre-discuss <<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>><br>
<b>Subject:</b> [lustre-discuss] infiniband mlx5_0: dump_cqe:286:(pid 25761): dump error cqe<u></u><u></u></span></p>
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<div>
<p class="MsoNormal">Hi, all<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">we installed lustre-2.12.2 both server and clients ,recently,our oss's syslog&dmesg flooding with messages like below<span style="font-family:"MS Gothic"">:</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">“<u></u><u></u></p>
</div>
<p class="MsoNormal">infiniband mlx5_0: dump_cqe:286:(pid 25761): dump error cqe<br>
00000000: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00<br>
00000010: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00<br>
00000020: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00<br>
00000030: 00 00 00 00 00 00 88 13 08 00 84 79 01 04 4c d0<br>
LustreError: 25762:0:(events.c:450:server_bulk_callback()) event type 5, status -5, desc ffff9ffdf58c0a00<br>
LustreError: 25755:0:(events.c:450:server_bulk_callback()) event type 5, status -103, desc ffff9ffdf58c0a00<br>
LustreError: 25755:0:(events.c:450:server_bulk_callback()) event type 5, status -103, desc ffff9ffdf58c0a00<br>
LustreError: 25755:0:(events.c:450:server_bulk_callback()) event type 5, status -103, desc ffff9ffdf58c0a00<u></u><u></u></p>
<div>
<p class="MsoNormal">”<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">Does anyone hit this beforce or any suggestions?<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Thanks?<u></u><u></u></p>
</div>
</div>
</div>
</div>

</blockquote></div></div>