<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    I'm happy to that the problem seems to be solved by deleting the
    CATALOGS file on the underlying MDT ZFS fs. As I gather from the
    manual [1] this should not be a problem, because it will be handled
    by LFSCK.<br>
    <br>
    If I'm wrong about this, please let me know. Also, I'm happy to
    provide any information from this MDT to help asses if there is a
    bug somewhere.<br>
    <br>
    LFSCK is running as we speak.<br>
    <br>
    Cheers,<br>
    Hans Henrik<br>
    <br>
    [1]
    <a class="moz-txt-link-freetext" href="https://doc.lustre.org/lustre_manual.xhtml#backup_fs_level.restore">https://doc.lustre.org/lustre_manual.xhtml#backup_fs_level.restore</a><br>
    <br>
    <div class="moz-cite-prefix">On 11.03.2022 12.49, Hans Henrik Happe
      via lustre-discuss wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:7ddece7e-e93e-4d43-a20c-2910fcf6d1b1@nbi.dk">
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
      I tried tunefs.lustre --erase-params --writeconf the targets.
      Guess it is not great because the clients were not unmounted, but
      I made sure they are not trying to connect.<br>
      <br>
      This makes it possible to mount the MDT, but when the first OST
      mount starts the MDT has a lot of errors. After starting the
      second OST the MDS crashes (syslog attached).<br>
      <br>
      Cheers,<br>
      Hans Henrik<br>
      <br>
      <div class="moz-cite-prefix">On 10.03.2022 15.48, Hans Henrik
        Happe via lustre-discuss wrote:<br>
      </div>
      <blockquote type="cite"
        cite="mid:48ebe410-de9e-3db4-f682-f0edfec2ad3a@nbi.dk">
        <meta http-equiv="Content-Type" content="text/html;
          charset=UTF-8">
        Sorry for all the mail load, but I hope this info can help
        figuring out what's wrong and determine if this was caused by a
        bug. I think<br>
        <br>
        I read the CONFIGS on the MDT with llog_reader. See attachments.<br>
        <br>
        Cheers,<br>
        Hans Henrik<br>
        <br>
        <div class="moz-cite-prefix">On 10.03.2022 12.23, Hans Henrik
          Happe via lustre-discuss wrote:<br>
        </div>
        <blockquote type="cite"
          cite="mid:c7617bc0-f725-3b9f-781f-69c524a8d3a9@nbi.dk">
          <meta http-equiv="Content-Type" content="text/html;
            charset=UTF-8">
          After upgrading to Lustre 2.12.8 I found that the first mount
          after a reboot behaves differently:<br>
          <br>
          Mounting mds02/astro0 on /mnt/lustre/local/astro-MDT0000<br>
          mount.lustre: mount mds02/astro0 at
          /mnt/lustre/local/astro-MDT0000 failed: No space left on
          device<br>
          <br>
          And a different syslog output (attached syslog-0).<br>
          <br>
          Doing the mount again has this error:<br>
          <br>
          Mounting mds02/astro0 on /mnt/lustre/local/astro-MDT0000<br>
          mount.lustre: mount mds02/astro0 at
          /mnt/lustre/local/astro-MDT0000 failed: File exists<br>
          <br>
          And a syslog like the one first posted. Attached the new
          output in syslog-1.<br>
          <br>
          Finally, stopping Lustre (Only MGS in this case) and the lnet
          service does free resources making lustre_rmmod fail:<br>
          <br>
          # lustre_rmmod <br>
          rmmod: ERROR: Module osp is in use<br>
          <br>
          <br>
          Cheers,<br>
          Hans Henrik<br>
          <br>
          <div class="moz-cite-prefix">On 10.03.2022 11.15, Hans Henrik
            Happe via lustre-discuss wrote:<br>
          </div>
          <blockquote type="cite"
            cite="mid:61546aec-83b0-c770-06f5-f03042f70c3e@nbi.dk">
            <meta http-equiv="Content-Type" content="text/html;
              charset=UTF-8">
            Forgot to say this is Lustre 2.12.6 and CentOS 7.9
            (3.10.0-1160.6.1.el7.x86_64).<br>
            <br>
            <div class="moz-cite-prefix">On 10.03.2022 10.27, Hans
              Henrik Happe via lustre-discuss wrote:<br>
            </div>
            <blockquote type="cite"
              cite="mid:276483eb-f80a-67f8-52c6-f1fe115dcb69@nbi.dk">Hi,
              <br>
              <br>
              A reboot of the MDS stalled and got forced reset. After
              that the MDS would not start. The syslog is attached. <br>
              <br>
              I'm not sure what the "class_register_device())
              astro-OST0002-osc-MDT0000" part is supposed to do but
              astro-OST0002 is not mounted at this time. I guess this
              comes from the MGS. <br>
              <br>
              Cheers, <br>
              Hans Henrik<br>
              <br>
            </blockquote>
          </blockquote>
          <br>
        </blockquote>
        <br>
      </blockquote>
      <br>
      <br>
      <fieldset class="moz-mime-attachment-header"></fieldset>
      <pre class="moz-quote-pre" wrap="">_______________________________________________
lustre-discuss mailing list
<a class="moz-txt-link-abbreviated" href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.org</a>
<a class="moz-txt-link-freetext" href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>