<div dir="ltr">Hello lustre folks,<br><div><br></div><div>All of the sudden we have started facing the below errors on MDS/MGS. mds and mgs are on the same host. Lustre version <span style="font-family:Aptos,sans-serif;font-size:11pt">lustre version 2.12.6. the base OS is centos  7. </span><br></div><div><span style="font-family:Aptos,sans-serif;font-size:11pt"><br></span></div><div>49.180502] LustreError: 137-5: lustre-MDT0001_UUID: not available for connect from 0@lo (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[   51.322591] LustreError: 11-0: lustre-MDT0000-osp-MDT0001: operation mds_connect to node 0@lo failed: rc = -114<br>[   51.324763] LustreError: 137-5: lustre-MDT0002_UUID: not available for connect from 0@lo (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[   51.324767] LustreError: Skipped 1 previous similar message<br>[   76.461205] LustreError: 137-5: lustre-MDT0002_UUID: not available for connect from 0@lo (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[   85.400171] LustreError: 11-0: lustre-MDT0000-osp-MDT0002: operation mds_connect to node 0@lo failed: rc = -114<br>[  112.007560] LustreError: 3670:0:(lod_dev.c:434:lod_sub_recovery_thread()) lustre-MDT0002-osp-MDT0000 get update log failed: rc = -22<br>[  169.235398] LustreError: 3671:0:(tgt_grant.c:248:tgt_grant_sanity_check()) mdt_obd_disconnect: tot_granted 35651584 != fo_tot_granted 50331648<br>[  182.912888] LustreError: 3861:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) ldlm_cancel from 10.19.4.59@o2ib arrived at 1760429996 with bad export cookie 4008858034446994893<br>[  183.618108] LustreError: 3861:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) ldlm_cancel from 10.19.4.44@o2ib arrived at 1760429997 with bad export cookie 4008858034446994879<br>[  183.618235] LustreError: 3861:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) Skipped 1 previous similar message<br>[  184.268980] LustreError: 11-0: lustre-MDT0000-osp-MDT0001: operation mds_statfs to node 0@lo failed: rc = -107<br>[  184.269023] LustreError: Skipped 1 previous similar message<br>[  185.924619] LustreError: 3861:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) ldlm_cancel from 10.19.4.54@o2ib arrived at 1760429999 with bad export cookie 4008858034446994872<br>[  185.924752] LustreError: 3861:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) Skipped 1 previous similar message<br>[  185.925184] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.54@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[  185.925252] LustreError: Skipped 1 previous similar message<br>[  189.215567] LustreError: 4038:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) ldlm_cancel from 10.19.4.46@o2ib arrived at 1760430002 with bad export cookie 4008858034446994914<br>[  189.216836] LustreError: 4038:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) Skipped 5 previous similar messages<br>[  190.089402] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.141@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[  190.089480] LustreError: Skipped 13 previous similar messages<br>[  198.160152] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.50@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[  198.160222] LustreError: Skipped 14 previous similar messages<br>[  206.524931] LustreError: 11-0: lustre-MDT0001-osp-MDT0002: operation mds_statfs to node 0@lo failed: rc = -107<br>[  219.633696] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.139@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[  219.633781] LustreError: Skipped 49 previous similar messages<br>[ 1640.746488] LustreError: 137-5: lustre-MDT0001_UUID: not available for connect from 0@lo (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 1640.747278] LustreError: Skipped 6 previous similar messages<br>[ 1642.718528] LustreError: 11-0: lustre-MDT0000-osp-MDT0001: operation mds_connect to node 0@lo failed: rc = -114<br>[ 1644.744881] LustreError: 11-0: lustre-MDT0000-osp-MDT0002: operation mds_connect to node 0@lo failed: rc = -114<br>[ 1671.459736] LustreError: 4689:0:(lod_dev.c:434:lod_sub_recovery_thread()) lustre-MDT0002-osp-MDT0000 get update log failed: rc = -22<br>[ 6383.485229] LustreError: 3375:0:(client.c:1187:ptlrpc_import_delay_req()) @@@ IMP_CLOSED   req@ffff9abf94b6ad00 x1845944478633792/t0(0) o41->lustre-MDT0001-osp-MDT0000@0@lo:24/4 lens 224/368 e 0 to 0 dl 0 ref 1 fl Rpc:/0/ffffffff rc 0/-1<br>[ 6384.125240] LustreError: 3357:0:(client.c:1187:ptlrpc_import_delay_req()) @@@ IMP_CLOSED   req@ffff9add02797080 x1845944478635840/t0(0) o41->lustre-MDT0002-osp-MDT0000@0@lo:24/4 lens 224/368 e 0 to 0 dl 0 ref 1 fl Rpc:/0/ffffffff rc 0/-1<br>[ 6385.101316] LustreError: 11-0: lustre-MDT0000-osp-MDT0001: operation mds_statfs to node 0@lo failed: rc = -107<br>[ 6385.101989] LustreError: Skipped 2 previous similar messages<br>[ 6391.858013] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.100@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6391.859509] LustreError: Skipped 5 previous similar messages<br>[ 6392.864490] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.50@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6394.329714] LustreError: 5033:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) ldlm_cancel from 10.19.4.98@o2ib arrived at 1760436207 with bad export cookie 4008858034447626986<br>[ 6394.331428] LustreError: 5033:0:(ldlm_lockd.c:2366:ldlm_cancel_handler()) Skipped 6 previous similar messages<br>[ 6394.332814] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.98@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6397.480407] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.141@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6397.482411] LustreError: Skipped 2 previous similar messages<br>[ 6402.032037] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.49@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6402.034201] LustreError: Skipped 11 previous similar messages<br>[ 6410.570814] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.133@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6410.573110] LustreError: Skipped 16 previous similar messages<br>[ 6418.437131] LustreError: 166-1: MGC10.19.4.132@o2ib: Connection to MGS (at 0@lo) was lost; in progress operations using this service will fail<br>[ 6427.991503] LustreError: 137-5: lustre-MDT0000_UUID: not available for connect from 10.19.4.59@o2ib (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 6427.994071] LustreError: Skipped 24 previous similar messages<br>[ 6448.585655] LustreError: 11-0: lustre-MDT0001-osp-MDT0002: operation mds_disconnect to node 0@lo failed: rc = -107<br>[ 6448.589164] LustreError: 3381:0:(client.c:1187:ptlrpc_import_delay_req()) @@@ IMP_CLOSED   req@ffff9abfdf9fb180 x1845944478691712/t0(0) o41->lustre-MDT0001-osp-MDT0002@0@lo:24/4 lens 224/368 e 0 to 0 dl 0 ref 1 fl Rpc:/0/ffffffff rc 0/-1<br>[ 8811.701653] LustreError: 137-5: lustre-MDT0001_UUID: not available for connect from 0@lo (no target). If you are running an HA pair check that the target is mounted on the other server.<br>[ 8811.704484] LustreError: Skipped 92 previous similar messages<br>[ 8813.672899] LustreError: 11-0: lustre-MDT0000-osp-MDT0001: operation mds_connect to node 0@lo failed: rc = -114<br>[ 8815.749249] LustreError: 11-0: lustre-MDT0000-osp-MDT0002: operation mds_connect to node 0@lo failed: rc = -114<br>[ 8842.422919] LustreError: 5914:0:(lod_dev.c:434:lod_sub_recovery_thread()) lustre-MDT0002-osp-MDT0000 get update log failed: rc = -22<span style="font-family:Aptos,sans-serif;font-size:11pt"></span></div><div><br></div><div>tried with unmount and mount the mgt and then mdt. when the user start running the jobs, we also encounter CPU lock errors on the mgs/mds node. error file attached. </div><div><br></div><div><br></div><div> mount | grep -i lustre<br>/dev/sdb on /mnt/mgsmdt0 type lustre (ro,context=unconfined_u:object_r:user_tmp_t:s0,svname=lustre-MDT0000,mgs,osd=osd-ldiskfs,user_xattr,errors=remount-ro)<br>/dev/sdc on /mnt/mdt1 type lustre (ro,context=unconfined_u:object_r:user_tmp_t:s0,svname=lustre-MDT0001,mgsnode=10.19.4.132@o2ib,osd=osd-ldiskfs,user_xattr,errors=remount-ro)<br>/dev/sdd on /mnt/mdt2 type lustre (ro,context=unconfined_u:object_r:user_tmp_t:s0,svname=lustre-MDT0002,mgsnode=10.19.4.132@o2ib,osd=osd-ldiskfs,user_xattr,errors=remount-ro)</div><div><br></div><div>regards,</div><div><br></div><div>Ihsan </div></div>