<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7652.24">
<TITLE>Re: [Lustre-discuss] Lustre Mount Crashing</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>Todd,<BR>
<BR>
Does this make sense?  He is saying that OSTs need to be mounted first?  I<BR>
thought that they sould not connect if the MDT is not mounted.<BR>
<BR>
<BR>
<BR>
On 6/2/08 10:45 AM, "Brian J. Murrell" <Brian.Murrell@Sun.COM> wrote:<BR>
<BR>
> On Mon, 2008-06-02 at 11:35 -0400, Charles Taylor wrote:<BR>
>><BR>
>> Well, I figured someone would ask that.  :)    The last messages that<BR>
>> make it to syslog prior to the crash are....<BR>
>><BR>
>> Jun  2 10:29:54 hpcmds kernel: LDISKFS FS on md2, internal journal<BR>
>> Jun  2 10:29:54 hpcmds kernel: LDISKFS-fs: recovery complete.<BR>
>> Jun  2 10:29:54 hpcmds kernel: LDISKFS-fs: mounted filesystem with<BR>
>> ordered data mode.<BR>
>> Jun  2 10:29:54 hpcmds kernel: kjournald starting.  Commit interval 5<BR>
>> seconds<BR>
>> Jun  2 10:29:54 hpcmds kernel: LDISKFS FS on md2, internal journal<BR>
>> Jun  2 10:29:54 hpcmds kernel: LDISKFS-fs: mounted filesystem with<BR>
>> ordered data mode.<BR>
>> Jun  2 10:29:54 hpcmds kernel: Lustre: MGS MGS started<BR>
>> Jun  2 10:29:54 hpcmds kernel: Lustre: Enabling user_xattr<BR>
>> Jun  2 10:29:54 hpcmds kernel: Lustre: 4540:0:(mds_fs.c:<BR>
>> 446:mds_init_server_data()) RECOVERY: service ufhpc-MDT0000, 100<BR>
>> recoverable clients, last_transno 9412464331<BR>
>> Jun  2 10:29:54 hpcmds kernel: Lustre: MDT ufhpc-MDT0000 now serving<BR>
>> dev (ufhpc-MDT0000/cac99db5-a66a-a6ac-4649-6ec8cc2dc0e7), but will be<BR>
>> in recovery until 100 clients reconnect, or if no clients reconnect<BR>
>> for 4:10; during that time new clients will not be allowed to connect.<BR>
>> Recovery progress can be monitored by watching /proc/fs/lustre/mds/<BR>
>> ufhpc-MDT0000/recovery_status.<BR>
>> Jun  2 10:29:55 hpcmds kernel: Lustre: 4540:0:(mds_lov.c:<BR>
>> 858:mds_notify()) MDS ufhpc-MDT0000: in recovery, not resetting<BR>
>> orphans on ufhpc-OST0004_UUID<BR>
>> Jun  2 10:29:55 hpcmds kernel: Lustre: 4540:0:(mds_lov.c:<BR>
>> 858:mds_notify()) MDS ufhpc-MDT0000: in recovery, not resetting<BR>
>> orphans on ufhpc-OST0005_UUID<BR>
><BR>
> This is all perfectly normal.  Is there anything else or does this<BR>
> amount to all that you are seeing?<BR>
><BR>
>> Note that all of the clients are powered off and the OSS's are<BR>
>> currently unmounted (though they appear to be fine).<BR>
><BR>
> Does anything bad happen when you bring up the OSSes?  Ideally, OSTs<BR>
> should be brought up before the MDT but there is no requirement for<BR>
> that.<BR>
><BR>
>> If it crashes<BR>
><BR>
> Do you have messages from a crash?<BR>
><BR>
>> a third time, and I suspect it will, I'll include some<BR>
>> of the stack trace.<BR>
><BR>
> Unless you are getting some kind of kernel panic, that stack trace<BR>
> should be in the syslog.<BR>
><BR>
> b.<BR>
><BR>
> _______________________________________________<BR>
> Lustre-discuss mailing list<BR>
> Lustre-discuss@lists.lustre.org<BR>
> <A HREF="http://lists.lustre.org/mailman/listinfo/lustre-discuss">http://lists.lustre.org/mailman/listinfo/lustre-discuss</A><BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>