<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:"Times New Roman \(Body CS\)";
        panose-1:2 2 6 3 5 4 5 2 3 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;
        font-weight:normal;
        font-style:normal;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
/* List Definitions */
@list l0
        {mso-list-id:132017683;
        mso-list-template-ids:1490987846;}
@list l0:level1
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:36.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Symbol;}
@list l0:level2
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:72.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:"Courier New";
        mso-bidi-font-family:"Times New Roman";}
@list l0:level3
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:108.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
@list l0:level4
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:144.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
@list l0:level5
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:180.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
@list l0:level6
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:216.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
@list l0:level7
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:252.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
@list l0:level8
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:288.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
@list l0:level9
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:324.0pt;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        mso-ansi-font-size:10.0pt;
        font-family:Wingdings;}
ol
        {margin-bottom:0cm;}
ul
        {margin-bottom:0cm;}
--></style>
</head>
<body lang="EN-CA" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:14.0pt">Stepan<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:14.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:14.0pt">2.14.56 is not a version of Lustre – it is an interim dev build. Even if it does not resolve this specific issue, I would strongly recommend switching to the recently released Lustre 2.15.1 release<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:14.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:14.0pt">Peter<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:14.0pt"><o:p> </o:p></span></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span style="font-size:12.0pt;color:black">From: </span></b><span style="font-size:12.0pt;color:black">lustre-discuss <lustre-discuss-bounces@lists.lustre.org> on behalf of Stepan Nassyr via lustre-discuss <lustre-discuss@lists.lustre.org><br>
<b>Reply-To: </b>Stepan Nassyr <s.nassyr@fz-juelich.de><br>
<b>Date: </b>Monday, August 15, 2022 at 1:35 AM<br>
<b>To: </b>"lustre-discuss@lists.lustre.org" <lustre-discuss@lists.lustre.org><br>
<b>Subject: </b>[lustre-discuss] network error on bulk WRITE/bad log<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<p>Hi all,<o:p></o:p></p>
<p>In May I had a failure on a small cluster and asked here (<a href="http://lists.lustre.org/pipermail/lustre-discuss-lustre.org/2022-May/018073.html">http://lists.lustre.org/pipermail/lustre-discuss-lustre.org/2022-May/018073.html</a>). Due to time constraints
 I just recreated the filesystem back then. <o:p></o:p></p>
<p>Now the failure happened again, this time I have more time and can investigate and haven't done anything destructive yet.<o:p></o:p></p>
<p>I use the following versions:<o:p></o:p></p>
<ul type="disc">
<li class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;mso-list:l0 level1 lfo1">
lustre 2.14.56 <o:p></o:p></li><li class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;mso-list:l0 level1 lfo1">
zfs 2.0.7 (previously used 2.1.2, but got told that 2.1.x is not tested well with lustre)
<o:p></o:p></li><li class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;mso-list:l0 level1 lfo1">
Nodes are running Rocky Linux 8.6<o:p></o:p></li><li class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;mso-list:l0 level1 lfo1">
uname -r: 4.18.0-372.19.1.el8_6.aarch64<o:p></o:p></li></ul>
<p>There are 2 IO nodes (io01 and io02), both of them are MDS and OSS and one of them is MGS. Here are the devices:<o:p></o:p></p>
<p><span style="font-family:"Courier New"">[snassyr@io02 ~]$ sudo lctl dl<br>
  0 UP osd-zfs storage-MDT0001-osd storage-MDT0001-osd_UUID 8<br>
  1 UP mgc MGC10.31.7.61@o2ib a087e05e-d57c-4561-ad75-6827d4428f54 4<br>
  2 UP mds MDS MDS_uuid 2<br>
  3 UP lod storage-MDT0001-mdtlov storage-MDT0001-mdtlov_UUID 3<br>
  4 UP mdt storage-MDT0001 storage-MDT0001_UUID 8<br>
  5 UP mdd storage-MDD0001 storage-MDD0001_UUID 3<br>
  6 UP osp storage-MDT0000-osp-MDT0001 storage-MDT0001-mdtlov_UUID 4<br>
  7 UP osp storage-OST0000-osc-MDT0001 storage-MDT0001-mdtlov_UUID 4<br>
  8 UP osp storage-OST0001-osc-MDT0001 storage-MDT0001-mdtlov_UUID 4<br>
  9 UP lwp storage-MDT0000-lwp-MDT0001 storage-MDT0000-lwp-MDT0001_UUID 4<br>
 10 UP osd-zfs storage-OST0001-osd storage-OST0001-osd_UUID 4<br>
 11 UP ost OSS OSS_uuid 2<br>
 12 UP obdfilter storage-OST0001 storage-OST0001_UUID 6<br>
 13 UP lwp storage-MDT0000-lwp-OST0001 storage-MDT0000-lwp-OST0001_UUID 4<br>
 14 UP lwp storage-MDT0001-lwp-OST0001 storage-MDT0001-lwp-OST0001_UUID 4</span><o:p></o:p></p>
<p><span style="font-family:"Courier New"">[snassyr@io01 ~]$ sudo lctl dl<br>
  0 UP osd-zfs MGS-osd MGS-osd_UUID 4<br>
  1 UP mgs MGS MGS 6<br>
  2 UP mgc MGC10.31.7.61@o2ib 9f351a51-0232-4306-a66d-cecee8629329 4<br>
  3 UP osd-zfs storage-MDT0000-osd storage-MDT0000-osd_UUID 9<br>
  4 UP mds MDS MDS_uuid 2<br>
  5 UP lod storage-MDT0000-mdtlov storage-MDT0000-mdtlov_UUID 3<br>
  6 UP mdt storage-MDT0000 storage-MDT0000_UUID 12<br>
  7 UP mdd storage-MDD0000 storage-MDD0000_UUID 3<br>
  8 UP qmt storage-QMT0000 storage-QMT0000_UUID 3<br>
  9 UP osp storage-MDT0001-osp-MDT0000 storage-MDT0000-mdtlov_UUID 4<br>
 10 UP osp storage-OST0000-osc-MDT0000 storage-MDT0000-mdtlov_UUID 4<br>
 11 UP osp storage-OST0001-osc-MDT0000 storage-MDT0000-mdtlov_UUID 4<br>
 12 UP lwp storage-MDT0000-lwp-MDT0000 storage-MDT0000-lwp-MDT0000_UUID 4<br>
 13 UP osd-zfs storage-OST0000-osd storage-OST0000-osd_UUID 4<br>
 14 UP ost OSS OSS_uuid 2<br>
 15 UP obdfilter storage-OST0000 storage-OST0000_UUID 6<br>
 16 UP lwp storage-MDT0000-lwp-OST0000 storage-MDT0000-lwp-OST0000_UUID 4<br>
 17 UP lwp storage-MDT0001-lwp-OST0000 storage-MDT0001-lwp-OST0000_UUID 4</span><o:p></o:p></p>
<p>On io01 I see repeating errors mentioning a network error:<o:p></o:p></p>
<p><span style="font-family:"Courier New"">[65922.582578] LustreError: 20017:0:(ldlm_lib.c:3540:target_bulk_io()) Skipped 11 previous similar messages<br>
[66494.575431] LNetError: 20017:0:(o2iblnd.c:1880:kiblnd_fmr_pool_map()) Failed to map mr 1/8 elements<br>
[66494.575442] LNetError: 20017:0:(o2iblnd.c:1880:kiblnd_fmr_pool_map()) Skipped 11 previous similar messages<br>
[66494.575446] LNetError: 20017:0:(o2iblnd_cb.c:613:kiblnd_fmr_map_tx()) Can't map 32768 bytes (8/8)s: -22<br>
[66494.575448] LNetError: 20017:0:(o2iblnd_cb.c:613:kiblnd_fmr_map_tx()) Skipped 11 previous similar messages<br>
[66494.575452] LNetError: 20017:0:(o2iblnd_cb.c:1725:kiblnd_send()) Can't setup PUT src for 10.31.7.62@o2ib: -22<br>
[66494.575454] LNetError: 20017:0:(o2iblnd_cb.c:1725:kiblnd_send()) Skipped 11 previous similar messages<br>
[66494.575458] LustreError: 20017:0:(events.c:477:server_bulk_callback()) event type 5, status -5, desc 00000000cdd4e797<br>
[66494.575460] LustreError: 20017:0:(events.c:477:server_bulk_callback()) Skipped 11 previous similar messages<br>
[66546.574314] LustreError: 20017:0:(ldlm_lib.c:3540:target_bulk_io()) @@@ network error on bulk WRITE  req@0000000070b8f1ab x1740960836990720/t0(0) o1000-><a href="mailto:storage-MDT0001-mdtlov_UUID@10.31.7.62@o2ib:522/0">storage-MDT0001-mdtlov_UUID@10.31.7.62@o2ib:522/0</a>
 lens 336/33016 e 0 to 0 dl 1660376137 ref 1 fl Interpret:/0/0 rc 0/0 job:''</span><o:p></o:p></p>
<p>On io02 I see repeating errors mentioning a bad log:<o:p></o:p></p>
<p><span style="font-family:"Courier New"">[66582.856444] LustreError: 14905:0:(llog_osd.c:264:llog_osd_read_header()) storage-MDT0000-osp-MDT0001: bad log  [0x200000401:0x1:0x0] header magic: 0x0 (expected 0x10645539)<br>
[66582.856450] LustreError: 14905:0:(llog_osd.c:264:llog_osd_read_header()) Skipped 11 previous similar messages</span><o:p></o:p></p>
<p>I can't make sense of these error messages. How can I recover?<o:p></o:p></p>
<p>(I have the full dmesg/lctl dk log, but they are too big to attach, is it ok to upload them somewhere and put a link in a reply?)<o:p></o:p></p>
<p>Thank you and best regards,<br>
Stepan<o:p></o:p></p>
<p><o:p> </o:p></p>
<p class="MsoNormal"><br>
<span style="font-size:7.5pt;font-family:"Arial",sans-serif;color:black"><br>
------------------------------------------------------------------------------------------------<br>
------------------------------------------------------------------------------------------------<br>
Forschungszentrum Juelich GmbH<br>
52425 Juelich<br>
Sitz der Gesellschaft: Juelich<br>
Eingetragen im Handelsregister des Amtsgerichts Dueren Nr. HR B 3498<br>
Vorsitzender des Aufsichtsrats: MinDir Volker Rieke<br>
Geschaeftsfuehrung: Prof. Dr.-Ing. Wolfgang Marquardt (Vorsitzender),<br>
Karsten Beneke (stellv. Vorsitzender), Prof. Dr. Astrid Lambrecht,<br>
Prof. Dr. Frauke Melchior<br>
------------------------------------------------------------------------------------------------<br>
------------------------------------------------------------------------------------------------<br>
<br>
<br>
Neugierige sind herzlich willkommen am Sonntag, den 21. August 2022, von 10:00 bis 17:00 Uhr. Mehr unter: https://www.tagderneugier.de<br>
<br>
</span><o:p></o:p></p>
</div>
</body>
</html>