<div dir="auto">What devices are underneath dm-21 and are there any errors in /var/log/messages for those devices? (assuming /dev/sdX devices underneath)</div><div dir="auto"><br></div><div dir="auto">Run `ls /sys/block/dm-21/slaves` to see what devices are beneath dm-21</div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto"><br></div><div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jul 6, 2021 at 20:09 David Cohen <<a href="mailto:cdavid@physics.technion.ac.il">cdavid@physics.technion.ac.il</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;padding-left:1ex;border-left-color:rgb(204,204,204)"><div dir="ltr"><div>Hi,</div><div>The index of the OST is unique in the system and free for the new one, as it is increased by "1" for every new OST created, so whatever it converts to should not be relevant to it's refusal to mount, or am I mistaken?</div><div><br></div><div>I'm pasting the log messages again, in case they were lost up the thread, adding the output of "fdisk -l", should the OST size be the issue:</div><div><span><div><br></div>lctl dk show tens of thousands of lines repeating the same error after attempting to mount the OST:<br><div><br></div></span><div>00100000:10000000:26.0:1625546374.322973:0:248211:0:(osd_scrub.c:2039:osd_ios_scan_one()) local-OST0033: fail to set LMA for init OI scrub: rc = -30</div>00100000:10000000:26.0:1625546374.322974:0:248211:0:(osd_scrub.c:2039:osd_ios_scan_one()) local-OST0033: fail to set LMA for init OI scrub: rc = -30<br><div>00100000:10000000:26.0:1625546374.322975:0:248211:0:(osd_scrub.c:2039:osd_ios_scan_one()) local-OST0033: fail to set LMA for init OI scrub: rc = -30</div><div><br></div><div><span>in /var/log/messages I see the following corresponding to dm21 which is the new OST:<br><div><br></div></span><div>Jul  6 07:38:37 oss03 kernel: LDISKFS-fs warning (device dm-21): ldiskfs_multi_mount_protect:322: MMP interval 42 higher than expected, please wait.</div>Jul  6 07:39:19 oss03 kernel: LDISKFS-fs (dm-21): file extents enabled, maximum tree depth=5<br>Jul  6 07:39:19 oss03 kernel: LDISKFS-fs warning (device dm-21): ldiskfs_clear_journal_err:4862: Filesystem error recorded from previous mount: IO failure<br>Jul  6 07:39:19 oss03 kernel: LDISKFS-fs warning (device dm-21): ldiskfs_clear_journal_err:4863: Marking fs in need of filesystem check.<br>Jul  6 07:39:19 oss03 kernel: LDISKFS-fs (dm-21): warning: mounting fs with errors, running e2fsck is recommended<br>Jul  6 07:39:22 oss03 kernel: LDISKFS-fs (dm-21): recovery complete<br>Jul
  6 07:39:22 oss03 kernel: LDISKFS-fs (dm-21): mounted filesystem 
with ordered data mode. Opts: user_xattr,errors=remount-ro,acl,no_mbcache,nodelalloc<br>Jul
  6 07:39:22 oss03 kernel: LDISKFS-fs error (device dm-21): 
htree_dirblock_to_tree:1278: inode #2: block 21233: comm mount.lustre: 
bad entry in directory: rec_len is too small for name_len - 
offset=4084(4084), inode=0, rec_len=12<br>, name_len=0<br>Jul  6 07:39:22 oss03 kernel: Aborting journal on device dm-21-8.<br>Jul  6 07:39:22 oss03 kernel: LDISKFS-fs (dm-21): Remounting filesystem read-only<br>Jul
  6 07:39:24 oss03 kernel: LDISKFS-fs warning (device dm-21): 
kmmpd:187: kmmpd being stopped since filesystem has been remounted as 
readonly.<br>Jul  6 07:44:22 oss03 kernel: LDISKFS-fs (dm-21): error count since last fsck: 6<br>Jul
  6 07:44:22 oss03 kernel: LDISKFS-fs (dm-21): initial error at 
time 1625367384: htree_dirblock_to_tree:1278: inode 2: block 21233<br>Jul
  6 07:44:22 oss03 kernel: LDISKFS-fs (dm-21): last error at time 
1625546362: htree_dirblock_to_tree:1278: inode 2: block 21233<span><br></span></div></div><br>fdisk -l /dev/mapper/OST0051<br><br>Disk /dev/mapper/OST0051: 142799.1 GB, 142799072657408 bytes, 34863054848 sectors<br>Units = sectors of 1 * 4096 = 4096 bytes<br>Sector size (logical/physical): 4096 bytes / 4096 bytes<br>I/O size (minimum/optimal): 2097152 bytes / 2097152 bytes<span style="font-family:monospace"></span><br><span style="font-family:monospace"></span><div><span style="font-family:monospace"><br></span></div><div><span style="font-family:monospace"><br></span></div>Thanks,<br>David</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jul 6, 2021 at 10:35 PM Spitz, Cory James <<a href="mailto:cory.spitz@hpe.com" target="_blank">cory.spitz@hpe.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;padding-left:1ex;border-left-color:rgb(204,204,204)">





<div lang="EN-US">
<div>
<p class="MsoNormal">What OST index (number) were you trying to add?<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Andreas is right:<u></u><u></u></p>
<p class="MsoNormal" style="margin-left:0.5in">Note that your "--index=0051" value is probably interpreted as an octal number "41", it should be "--index=0x0051" or "--index=0x51" (hex, to match the OST device name) or "--index=81" (decimal).<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">And you said:<u></u><u></u></p>
<p class="MsoNormal" style="margin-left:0.5in">I'm aware that index 51 actually translates to hex 33 (local-OST0033_UUID).<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Ok, 0051 (in octal by way of the leading zeros*) translates to decimal 41 as Andreas pointed out, but that’s 0x29 in hexadecimal, not 0x33.  Assuming you wanted to use decimal 51 then you’d have tried to mkfs.lustre the wrong index.  So,
 if you wanted to use decimal 51, you’d have use –index=0x33 or –index=0063.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">-Cory<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">p.s.<u></u><u></u></p>
<p class="MsoNormal">(*) BTW, the convention with leading zeros for octal can be googled or read about at
<a href="https://en.wikipedia.org/wiki/Octal" target="_blank">https://en.wikipedia.org/wiki/Octal</a>.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">On 7/6/21, 12:35 AM, "lustre-discuss on behalf of David Cohen" <<a href="mailto:lustre-discuss-bounces@lists.lustre.org" target="_blank">lustre-discuss-bounces@lists.lustre.org</a> on behalf of
<a href="mailto:cdavid@physics.technion.ac.il" target="_blank">cdavid@physics.technion.ac.il</a>> wrote:<u></u><u></u></p>
</div>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">Thanks Andreas,<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">I'm aware that index 51 actually translates to hex 33 (local-OST0033_UUID).<br>
I don't believe that's the reason for the failed mount as it is only an index that I increase for every new OST and there are no duplicates.<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">lctl dk show tens of thousands of lines repeating the same error after attempting to mount the OST:<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">00100000:10000000:26.0:1625546374.322973:0:248211:0:(osd_scrub.c:2039:osd_ios_scan_one()) local-OST0033: fail to set LMA for init OI scrub: rc = -30<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">00100000:10000000:26.0:1625546374.322974:0:248211:0:(osd_scrub.c:2039:osd_ios_scan_one()) local-OST0033: fail to set LMA for init OI scrub: rc = -30<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in">00100000:10000000:26.0:1625546374.322975:0:248211:0:(osd_scrub.c:2039:osd_ios_scan_one()) local-OST0033: fail to set LMA for init OI scrub: rc = -30<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">in /var/log/messages I see the following corresponding to dm21 which is the new OST:<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">Jul  6 07:38:37 oss03 kernel: LDISKFS-fs warning (device dm-21): ldiskfs_multi_mount_protect:322: MMP interval 42 higher than expected, please wait.<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">Jul  6 07:39:19 oss03 kernel: LDISKFS-fs (dm-21): file extents enabled, maximum tree depth=5<br>
Jul  6 07:39:19 oss03 kernel: LDISKFS-fs warning (device dm-21): ldiskfs_clear_journal_err:4862: Filesystem error recorded from previous mount: IO failure<br>
Jul  6 07:39:19 oss03 kernel: LDISKFS-fs warning (device dm-21): ldiskfs_clear_journal_err:4863: Marking fs in need of filesystem check.<br>
Jul  6 07:39:19 oss03 kernel: LDISKFS-fs (dm-21): warning: mounting fs with errors, running e2fsck is recommended<br>
Jul  6 07:39:22 oss03 kernel: LDISKFS-fs (dm-21): recovery complete<br>
Jul  6 07:39:22 oss03 kernel: LDISKFS-fs (dm-21): mounted filesystem with ordered data mode. Opts: user_xattr,errors=remount-ro,acl,no_mbcache,nodelalloc<br>
Jul  6 07:39:22 oss03 kernel: LDISKFS-fs error (device dm-21): htree_dirblock_to_tree:1278: inode #2: block 21233: comm mount.lustre: bad entry in directory: rec_len is too small for name_len - offset=4084(4084), inode=0, rec_len=12<br>
, name_len=0<br>
Jul  6 07:39:22 oss03 kernel: Aborting journal on device dm-21-8.<br>
Jul  6 07:39:22 oss03 kernel: LDISKFS-fs (dm-21): Remounting filesystem read-only<br>
Jul  6 07:39:24 oss03 kernel: LDISKFS-fs warning (device dm-21): kmmpd:187: kmmpd being stopped since filesystem has been remounted as readonly.<br>
Jul  6 07:44:22 oss03 kernel: LDISKFS-fs (dm-21): error count since last fsck: 6<br>
Jul  6 07:44:22 oss03 kernel: LDISKFS-fs (dm-21): initial error at time 1625367384: htree_dirblock_to_tree:1278: inode 2: block 21233<br>
Jul  6 07:44:22 oss03 kernel: LDISKFS-fs (dm-21): last error at time 1625546362: htree_dirblock_to_tree:1278: inode 2: block 21233<br>
<br>
As I mentioned before mount never completes so the only way out of that is force reboot.<br>
<br>
Thanks,<br>
David<u></u><u></u></p>
</div>
</div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
<div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">On Tue, Jul 6, 2021 at 8:07 AM Andreas Dilger <<a href="mailto:adilger@whamcloud.com" target="_blank">adilger@whamcloud.com</a>> wrote:<u></u><u></u></p>
</div>
<blockquote style="border-style:none none none solid;border-width:medium medium medium 1pt;padding:0in 0in 0in 6pt;margin-left:4.8pt;margin-right:0in;border-color:currentcolor currentcolor currentcolor rgb(204,204,204)">
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><br>
<br>
<u></u><u></u></p>
<blockquote style="margin-top:5pt;margin-bottom:5pt">
<div>
<p class="MsoNormal" style="margin-left:0.5in">On Jul 5, 2021, at 09:05, David Cohen <<a href="mailto:cdavid@physics.technion.ac.il" target="_blank">cdavid@physics.technion.ac.il</a>> wrote:<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">Hi,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">I'm using Lustre 2.10.5 and lately tried to add a new OST.
<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">The OST was formatted with the command below, which other than the index is the exact same one used for all the other OSTs in the system.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">mkfs.lustre --reformat --mkfsoptions="-t ext4 -T huge" --ost --fsname=local  --index=0051 --param ost.quota_type=ug --mountfsoptions='errors=remount-ro,extents,mballoc' --mgsnode=10.0.0.3@tcp --mgsnode=10.0.0.1@tc<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">p --mgsnode=10.0.0.2@tcp --servicenode=10.0.0.3@tcp --servicenode=10.0.0.1@tcp --servicenode=10.0.0.2@tcp /dev/mapper/OST0051<u></u><u></u></p>
</div>
</div>
</blockquote>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">Note that your "--index=0051" value is probably interpreted as an octal number "41", it should be "--index=0x0051" or "--index=0x51" (hex, to match the OST device name) or "--index=81" (decimal).<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><br>
<br>
<u></u><u></u></p>
<blockquote style="margin-top:5pt;margin-bottom:5pt">
<div>
<div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in">When trying to mount the with:<br>
mount.lustre /dev/mapper/OST0051 /Lustre/OST0051<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in">The system stays on 100% CPU (one core) forever and the mount never completes, not even after a week.<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in"><br>
I tried tunefs.lustre --writeconf --erase-params on the MDS and all the other targets, but the behaviour remains the same.<u></u><u></u></p>
</div>
</div>
</div>
</blockquote>
</div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black">Cheers, Andreas<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black">--<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black">Andreas Dilger<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black">Lustre Principal Architect<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black">Whamcloud<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black"><u></u> <u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black"><u></u> <u></u></span></p>
</div>
</div>
</div>
</div>
</div>
</div>
<p class="MsoNormal" style="margin-left:0.5in"><span style="color:black"><u></u> <u></u></span></p>
</div>
<p class="MsoNormal" style="margin-right:0in;margin-bottom:12pt;margin-left:0.5in">
<u></u> <u></u></p>
</div>
<p class="MsoNormal" style="margin-left:0.5in"><u></u> <u></u></p>
</div>
</blockquote>
</div>
</div>
</div>

</blockquote></div>
_______________________________________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>
</blockquote></div></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr">------------------------------<br>Jeff Johnson<br>Co-Founder<br>Aeon Computing<br><br><a href="mailto:jeff.johnson@aeoncomputing.com" target="_blank">jeff.johnson@aeoncomputing.com</a><br><a href="http://www.aeoncomputing.com" target="_blank">www.aeoncomputing.com</a><br>t: 858-412-3810 x1001   f: 858-412-3845<br>m: 619-204-9061<br><br>4170 Morena Boulevard, Suite C - San Diego, CA 92117<div><br></div><div>High-Performance Computing / Lustre Filesystems / Scale-out Storage</div></div></div></div></div>