<div dir="auto">Have you tried resilvering the pool?</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Mar 15, 2023, 11:57 AM Mountford, Christopher J. (Dr.) via lustre-discuss <<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I'm hoping someone offer some suggestions.<br>

<br>

We have a problem on our production Lustre/ZFS filesystem (CentOS 7, ZFS 0.7.13, Lustre 2.12.9), so far I've drawn a blank trying to track down the cause of this.<br>

<br>

We see the following zfs panic message in the logs (in every case the VERIFY3/panic lines are identical):<br>

<br>

<br>

Mar 15 17:15:39 amds01a kernel: VERIFY3(sa.sa_magic == 0x2F505A) failed (8 == 3100762)<br>

Mar 15 17:15:39 amds01a kernel: PANIC at zfs_vfsops.c:584:zfs_space_delta_cb()<br>

Mar 15 17:15:39 amds01a kernel: Showing stack for process 15381<br>

Mar 15 17:15:39 amds01a kernel: CPU: 31 PID: 15381 Comm: mdt00_020 Tainted: P           OE  ------------   3.10.0-1160.49.1.el7_lustre.x86_64 #1<br>

Mar 15 17:15:39 amds01a kernel: Hardware name: HPE ProLiant DL360 Gen10/ProLiant DL360 Gen10, BIOS U32 02/09/2023<br>

Mar 15 17:15:39 amds01a kernel: Call Trace:<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff99d83539>] dump_stack+0x19/0x1b<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0b76f24>] spl_dumpstack+0x44/0x50 [spl]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0b76ff9>] spl_panic+0xc9/0x110 [spl]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff996e482c>] ? update_curr+0x14c/0x1e0<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff99707cf4>] ? getrawmonotonic64+0x34/0xc0<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0c87aa3>] ? dmu_zfetch+0x393/0x520 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0c6a073>] ? dbuf_rele_and_unlock+0x283/0x4c0 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0b78ff1>] ? __cv_init+0x41/0x60 [spl]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0d0f53c>] zfs_space_delta_cb+0x9c/0x200 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0c7a944>] dmu_objset_userquota_get_ids+0x154/0x440 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0c89e98>] dnode_setdirty+0x38/0xf0 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0c8a21c>] dnode_allocate+0x18c/0x230 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc0c76d2b>] dmu_object_alloc_dnsize+0x34b/0x3e0 [zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1d73052>] __osd_object_create+0x82/0x170 [osd_zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1d7ce23>] ? osd_declare_xattr_set+0xb3/0x190 [osd_zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1d733bd>] osd_mkreg+0x7d/0x210 [osd_zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff99828f01>] ? __kmalloc_node+0x1d1/0x2b0<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1d6f8f6>] osd_create+0x336/0xb10 [osd_zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc2016fb5>] lod_sub_create+0x1f5/0x480 [lod]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc2007729>] lod_create+0x69/0x340 [lod]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1d65690>] ? osd_trans_create+0x410/0x410 [osd_zfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc2081993>] mdd_create_object_internal+0xc3/0x300 [mdd]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc206aa4b>] mdd_create_object+0x7b/0x820 [mdd]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc2074fd8>] mdd_create+0xdd8/0x14a0 [mdd]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1f0e118>] mdt_reint_open+0x2588/0x3970 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc16f82b9>] ? check_unlink_entry+0x19/0xd0 [obdclass]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1eede52>] ? ucred_set_audit_enabled.isra.15+0x22/0x60 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1f00f23>] mdt_reint_rec+0x83/0x210 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1edc413>] mdt_reint_internal+0x6e3/0xaf0 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1ee8ec6>] ? mdt_intent_fixup_resent+0x36/0x220 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1ee9132>] mdt_intent_open+0x82/0x3a0 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1edf74a>] mdt_intent_opc+0x1ba/0xb50 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a0d6c0>] ? lustre_swab_ldlm_policy_data+0x30/0x30 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1ee90b0>] ? mdt_intent_fixup_resent+0x220/0x220 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1ee79e4>] mdt_intent_policy+0x1a4/0x360 [mdt]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc19bc4e6>] ldlm_lock_enqueue+0x376/0x9b0 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc10a22b7>] ? cfs_hash_bd_add_locked+0x67/0x90 [libcfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc10a5a4e>] ? cfs_hash_add+0xbe/0x1a0 [libcfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc19e3aa6>] ldlm_handle_enqueue0+0xa86/0x1620 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a0d740>] ? lustre_swab_ldlm_lock_desc+0x30/0x30 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a6d092>] tgt_enqueue+0x62/0x210 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a73eea>] tgt_request_handle+0xada/0x1570 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a4d601>] ? ptlrpc_nrs_req_get_nolock0+0xd1/0x170 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1096bde>] ? ktime_get_real_seconds+0xe/0x10 [libcfs]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a18bcb>] ptlrpc_server_handle_request+0x24b/0xab0 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a156e5>] ? ptlrpc_wait_event+0xa5/0x360 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff99d7dcf3>] ? queued_spin_lock_slowpath+0xb/0xf<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff99d8baa0>] ? _raw_spin_lock+0x20/0x30<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a1c534>] ptlrpc_main+0xb34/0x1470 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffffc1a1ba00>] ? ptlrpc_register_service+0xf80/0xf80 [ptlrpc]<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff996c5e61>] kthread+0xd1/0xe0<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff996c5d90>] ? insert_kthread_work+0x40/0x40<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff99d95ddd>] ret_from_fork_nospec_begin+0x7/0x21<br>

Mar 15 17:15:39 amds01a kernel: [<ffffffff996c5d90>] ? insert_kthread_work+0x40/0x40<br>

<br>

At this point all ZFS I/O freezes completely and the MDS has to be fenced. This has happened ~4 times in the last hour. <br>

<br>

I'm at a loss how to correct this - I'm currently thinking that we may have to rebuild and recover our entire filesystem from backups (thankfully this is our home file system which is small and entirely ssd based, so should not take to long to recover).<br>

<br>

May be related to this: <a href="https://bugs.freebsd.org/bugzilla/show_bug.cgi?id=216586" rel="noreferrer noreferrer" target="_blank">https://bugs.freebsd.org/bugzilla/show_bug.cgi?id=216586</a> bug seen on freebsd (with a much more recent ZFS version).<br>

<br>

The problem was first seen 3 weeks ago, but went away after a couple of reboots. This time it seems to be more serious.<br>

<br>

Kind Regards,<br>

Christopher.<br>

<br>

------------------------------------<br>

Dr. Christopher Mountford,<br>

System Specialist,<br>

RCS,<br>

Digital Services,<br>

University Of Leicester.<br>

_______________________________________________<br>

lustre-discuss mailing list<br>

<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank" rel="noreferrer">lustre-discuss@lists.lustre.org</a><br>

<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer noreferrer" target="_blank">http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</a><br>

</blockquote></div>