can you also please post output of  'rpm -qa | grep lustre' run on puppy5-7 ?<br><br><div class="gmail_quote">On 15 July 2010 15:55, Roger Sersted <span dir="ltr"><<a href="mailto:rs1@aps.anl.gov">rs1@aps.anl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
OK.  This looks bad.  It appears that I should have upgraded ext3 to ext4, I found instructions for that,<br>
<br>
        tune2fs -O extents,uninit_bg,dir_index /dev/XXX<br>
        fsck -pf /dev/XXX<br>
        <br>
Is the above correct?  I'd like to move our systems to ext4. I didn't know those steps were necessary.<br>
<br>
Other answers listed below.<div class="im"><br>
<br>
Wojciech Turek wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi Roger,<br>
<br>
Sorry for the delay. From the ldiskfs messages I seem to me that you are using ext4 ldiskfs<br>
(Jun 26 17:54:30 puppy7 kernel: ldiskfs created from ext4-2.6-rhel5).<br>
If you upgrading from 1.6.6 you ldiskfs is ext3 based so I think taht in lustre-1.8.3 you should use ext3 based ldiskfs rpm.<br>
<br>
Can you also  tell us a bit more about your setup? From what you wrote so far I understand you have 2 OSS servers and each server has one OST device. In addition to that you have a third server which acts as a MGS/MDS, is that right?<br>

<br>
The logs you provided seem to be only from one server called puppy7 so it does not give a whole picture of the situation. The timeout messages may indicate a problem with communication between the servers but it is really difficult to say without seeing the whole picture or at least more elements of it.<br>

<br>
To check if you have correct rpms installed can you please run 'rpm -qa | grep lustre' on both OSS servers and the MDS?<br>
<br>
Also please provide output from command 'lctl list_nids'  run on both OSS servers, MDS and a client?<br>
</blockquote>
<br></div>
puppy5 (MDS/MGS)<div class="im"><br>
172.17.2.5@o2ib<br></div>
172.16.2.5@tcp<br>
<br>
puppy6 (OSS)<br>
172.17.2.6@o2ib<br>
172.16.2.6@tcp<br>
<br>
puppy7 (OSS)<br>
172.17.2.7@o2ib<br>
172.16.2.7@tcp<div class="im"><br>
<br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
In addition to above please run following command on all lustre targets (OSTs and MDT) to display your current lustre configuration<br>
<br>
 tunefs.lustre --dryrun --print /dev/<ost_device><br>
</blockquote>
<br></div>
puppy5 (MDS/MGS)<br>
   Read previous values:<br>
Target:     lustre1-MDT0000<br>
Index:      0<br>
Lustre FS:  lustre1<br>
Mount type: ldiskfs<br>
Flags:      0x405<br>
              (MDT MGS )<br>
Persistent mount opts: errors=remount-ro,iopen_nopriv,user_xattr<br>
Parameters: lov.stripesize=125K lov.stripecount=2 mdt.group_upcall=/usr/sbin/l_getgroups mdt.group_upcall=NONE mdt.group_upcall=NONE<br>
<br>
<br>
   Permanent disk data:<br>
Target:     lustre1-MDT0000<br>
Index:      0<br>
Lustre FS:  lustre1<br>
Mount type: ldiskfs<br>
Flags:      0x405<br>
              (MDT MGS )<br>
Persistent mount opts: errors=remount-ro,iopen_nopriv,user_xattr<br>
Parameters: lov.stripesize=125K lov.stripecount=2 mdt.group_upcall=/usr/sbin/l_getgroups mdt.group_upcall=NONE mdt.group_upcall=NONE<br>
<br>
exiting before disk write.<br>
----------------------------------------------------<br>
puppy6<br>
checking for existing Lustre data: found CONFIGS/mountdata<br>
Reading CONFIGS/mountdata<br>
<br>
   Read previous values:<br>
Target:     lustre1-OST0000<br>
Index:      0<br>
Lustre FS:  lustre1<br>
Mount type: ldiskfs<br>
Flags:      0x2<br>
              (OST )<br>
Persistent mount opts: errors=remount-ro,extents,mballoc<br>
Parameters: mgsnode=172.17.2.5@o2ib<br>
<br>
<br>
   Permanent disk data:<br>
Target:     lustre1-OST0000<br>
Index:      0<br>
Lustre FS:  lustre1<br>
Mount type: ldiskfs<br>
Flags:      0x2<br>
              (OST )<br>
Persistent mount opts: errors=remount-ro,extents,mballoc<br>
Parameters: mgsnode=172.17.2.5@o2ib<br>
--------------------------------------------------<br>
puppy7 (this is the broken OSS. The "Target" should be "lustre1-OST0001")<br>
checking for existing Lustre data: found CONFIGS/mountdata<br>
Reading CONFIGS/mountdata<br>
<br>
   Read previous values:<br>
Target:     lustre1-OST0000<br>
Index:      0<br>
Lustre FS:  lustre1<br>
Mount type: ldiskfs<br>
Flags:      0x2<br>
              (OST )<br>
Persistent mount opts: errors=remount-ro,extents,mballoc<br>
Parameters: mgsnode=172.17.2.5@o2ib<br>
<br>
<br>
   Permanent disk data:<br>
Target:     lustre1-OST0000<br>
Index:      0<br>
Lustre FS:  lustre1<br>
Mount type: ldiskfs<br>
Flags:      0x2<br>
              (OST )<br>
Persistent mount opts: errors=remount-ro,extents,mballoc<br>
Parameters: mgsnode=172.17.2.5@o2ib<br>
<br>
exiting before disk write.<br>
<br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="im">
<br>
If possible please attach syslog from each machine from the time you mounted lustre targets (OST and MDT).<br>
<br>
Best regards,<br>
<br>
Wojciech<br>
<br></div><div class="im">
On 14 July 2010 20:46, Roger Sersted <<a href="mailto:rs1@aps.anl.gov" target="_blank">rs1@aps.anl.gov</a> <mailto:<a href="mailto:rs1@aps.anl.gov" target="_blank">rs1@aps.anl.gov</a>>> wrote:<br>
<br>
<br>
    Any additional info?<br>
<br>
    Thanks,<br>
<br>
    Roger S.<br>
<br>
<br>
<br>
<br>
-- <br>
--<br>
Wojciech Turek<br>
<br>
<br>
</div></blockquote>
</blockquote></div><br><br clear="all"><br>-- <br>--<br>Wojciech Turek<br><br>Assistant System Manager<br><br>High Performance Computing Service<br>University of Cambridge<br>Email: <a href="mailto:wjt27@cam.ac.uk">wjt27@cam.ac.uk</a><br>
Tel: (+)44 1223 763517 <br>