<div dir="ltr"><div><div>Hello Lustre gurus,<br><br></div>Recently, one of our OSS' had a faulty RAID card (3ware) and this has corrupted the root filesystem and Lustre OST.<br><br>We then reinstalled the OS, fsck'd Lustre OST using a backup superblock (the primary one was corrupted) and recreated the journal (journal also corrupted). We now have a bunch of files in lost+found, evidently by mounting as ldiskfs.<font size="2"><code><br><font size="1"><span style="font-family:monospace,monospace"><br></span></font></code></font></div><font size="1"><font size="2"><span style="font-family:arial,helvetica,sans-serif">However, we are having problems mounting the Lustre OST with errors as follows:</span></font><span style="font-family:monospace,monospace"><br><br></span></font><div><div><div><div><div><font size="1"><span style="font-family:monospace,monospace">Oct  7 13:01:45 OSS50 kernel: LDISKFS-fs (sdb): mounted filesystem with ordered data mode. quota=off. Opts:<br>Oct  7 13:01:48 OSS50 kernel: LustreError: 137-5: Lustre-OST003b_UUID: not available for connect from 172.16.4.66@tcp (no target). If you are running an HA pair check that the target is mounted on the other server.<br>Oct  7 13:01:48 OSS50 kernel: LustreError: Skipped 5 previous similar messages<br>Oct  7 13:01:48 OSS50 kernel: LustreError: 137-5: Lustre-OST003b_UUID: not available for connect from 172.16.250.59@tcp (no target). If you are running an HA pair check that the target is mounted on the other server.<br>Oct  7 13:01:48 OSS50 kernel: LustreError: Skipped 3 previous similar messages<br>Oct  7 13:01:51 OSS50 kernel: LustreError: 137-5: Lustre-OST003b_UUID: not available for connect from 172.16.7.199@tcp (no target). If you are running an HA pair check that the target is mounted on the other server.<br>Oct  7 13:01:51 OSS50 kernel: LustreError: Skipped 15 previous similar messages<br>Oct  7 13:01:55 OSS50 kernel: LustreError: 137-5: Lustre-OST003b_UUID: not available for connect from 172.16.250.173@tcp (no target). If you are running an HA pair check that the target is mounted on the other server.<br>Oct  7 13:01:55 OSS50 kernel: LustreError: Skipped 19 previous similar messages<br>Oct  7 13:02:04 OSS50 kernel: LustreError: 137-5: Lustre-OST003b_UUID: not available for connect from 172.16.5.114@tcp (no target). If you are running an HA pair check that the target is mounted on the other server.<br>Oct  7 13:02:04 OSS50 kernel: LustreError: Skipped 49 previous similar messages<br>Oct  7 13:02:04 OSS50 kernel: LustreError: 0-0: Trying to start OBD Lustre-OST003b_UUID using the wrong disk <85>. Were the /dev/ assignments rearranged?<br>Oct  7 13:02:04 OSS50 kernel: LustreError: 16002:0:(obd_config.c:572:class_setup()) setup Lustre-OST003b failed (-22)<br>Oct  7 13:02:04 OSS50 kernel: LustreError: 16002:0:(obd_config.c:1591:class_config_llog_handler()) MGC172.16.0.251@tcp: cfg command failed: rc = -22<br>Oct  7 13:02:04 OSS50 kernel: Lustre:    cmd=cf003 0:Lustre-OST003b  1:dev  2:0  3:f<br>Oct  7 13:02:04 OSS50 kernel: LustreError: 15b-f: MGC172.16.0.251@tcp: The configuration from log 'Lustre-OST003b'failed from the MGS (-22).  Make sure this client and the MGS are running compatible versions of Lustre.<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15c-8: MGC172.16.0.251@tcp: The configuration from log 'Lustre-OST003b' failed (-22). This may be the result of communication errors between this node and the MGS, a bad configuration, or other errors. See the syslog for more information.<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15976:0:(obd_mount_server.c:1252:server_start_targets()) failed to start server Lustre-OST003b: -22<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15976:0:(obd_mount_server.c:1735:server_fill_super()) Unable to start targets: -22<br>Oct  7 13:02:05 OSS50 kernel: Lustre: Lustre-OST003b: Not available for connect from 172.16.5.116@tcp (not set up)<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15976:0:(obd_mount_server.c:845:lustre_disconnect_lwp()) Lustre-MDT0000-lwp-OST003b: Can't end config log Lustre-client.<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15976:0:(obd_mount_server.c:1420:server_put_super()) Lustre-OST003b: failed to disconnect lwp. (rc=-2)<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15976:0:(obd_config.c:619:class_cleanup()) Device 135 not setup<br>Oct  7 13:02:05 OSS50 kernel: Lustre: server umount Lustre-OST003b complete<br>Oct  7 13:02:05 OSS50 kernel: LustreError: 15976:0:(obd_mount.c:1324:lustre_fill_super()) Unable to mount /dev/sdb (-22)<br>Oct  7 13:02:05 OSS50 kernel: Lustre: Skipped 1 previous similar message</span></font><br><br></div><div>Any ideas?<br><br></div><div>I would think that we can eliminate the configuration errors by doing a writeconf but since this is a potentially destructive operation, I'd like to check with you experts see if anyone have experienced something like this?<br><br></div><div>Thank you,<br></div><div>Murshid.<br></div></div></div></div></div></div>