<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 12 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>Issue: I'm trying to assess the (possible) use of Lustre for our group. To this end I've been trying to create a simple system to explore the nuances. I can't seem to get past the 'llmount.sh' test with any degree of success. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>What I've done: Each system (throwaway PCs with 70Gb HD, 2Gb RAM) is formatted with CentOS 6.2. I then update everything and install the Lustre kernel from downloads.whamcloud.com and add on the various (appropriate) lustre and e2fs RPM files. Systems are rebooted and tested with 'llmount.sh' (and then cleared with 'llmountcleanup.sh'). All is well to this point. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>First I create an MDS/MDT system via:   <o:p></o:p></p><p class=MsoNormal>    <o:p></o:p></p><p class=MsoNormal>    /usr/sbin/mkfs.lustre --mgs --mdt --fsname=lustre --device-size=2000000 --param sys.timeout=20 --mountfsoptions=errors=remount-ro,user_xattr,acl --param lov.stripesize=1048576 --param lov.stripecount=0 --param mdt.identity_upcall=/usr/sbin/l_getidentity --backfstype ldiskfs --reformat /tmp/lustre-mdt1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>and then    <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>    mkdir -p /mnt/mds1    <o:p></o:p></p><p class=MsoNormal>    mount -t lustre -o loop,user_xattr,acl  /tmp/lustre-mdt1 /mnt/mds1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Next I take 3 systems and create a 2Gb loop mount via:    <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>    /usr/sbin/mkfs.lustre --ost --fsname=lustre --device-size=2000000 --param sys.timeout=20 --mgsnode=lustre_MDS0@tcp --backfstype ldiskfs --reformat /tmp/lustre-ost1   <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>    mkdir -p /mnt/ost1     <o:p></o:p></p><p class=MsoNormal>    mount -t lustre -o loop  /tmp/lustre-ost1 /mnt/ost1    <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>The logs on the MDT box show the OSS boxes connecting up. All appears ok.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Last I create a client and attach to the MDT box:    <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>    mkdir -p /mnt/lustre<o:p></o:p></p><p class=MsoNormal>    mount -t lustre -o user_xattr,acl,flock luster_MDS0@tcp:/lustre /mnt/lustre    <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Again, the log on the MDT box shows the client connection. Appears to be successful.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Here's where the issues (appear to) start. If I do a 'df -h' on the client it hangs after showing the system drives.  If I attempt to create files (via 'dd') on the lustre mount the session hangs and the job can't be killed. Rebooting the client is the only solution.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>I can create and use a client on the MDS/MSG box. Doing so from any other machine will hang.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>From the MDS box:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lustre_mds0 lustre]# lctl dl<o:p></o:p></p><p class=MsoNormal>  0 UP mgs MGS MGS 13<o:p></o:p></p><p class=MsoNormal>  1 UP mgc MGC10.127.24.42@tcp 7923c008-a0de-1c87-f21a-4a5ab48abb96 5<o:p></o:p></p><p class=MsoNormal>  2 UP lov lustre-MDT0000-mdtlov lustre-MDT0000-mdtlov_UUID 4<o:p></o:p></p><p class=MsoNormal>  3 UP mdt lustre-MDT0000 lustre-MDT0000_UUID 7<o:p></o:p></p><p class=MsoNormal>  4 UP mds mdd_obd-lustre-MDT0000 mdd_obd_uuid-lustre-MDT0000 3<o:p></o:p></p><p class=MsoNormal>  5 UP osc lustre-OST0000-osc-MDT0000 lustre-MDT0000-mdtlov_UUID 5<o:p></o:p></p><p class=MsoNormal>  6 UP osc lustre-OST0001-osc-MDT0000 lustre-MDT0000-mdtlov_UUID 5<o:p></o:p></p><p class=MsoNormal>  7 UP lov lustre-clilov-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 4<o:p></o:p></p><p class=MsoNormal>  8 UP lmv lustre-clilmv-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 4<o:p></o:p></p><p class=MsoNormal>  9 UP mdc lustre-MDT0000-mdc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 10 UP osc lustre-OST0000-osc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 11 UP osc lustre-OST0001-osc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 12 UP osc lustre-OST0002-osc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 13 UP osc lustre-OST0002-osc-MDT0000 lustre-MDT0000-mdtlov_UUID 5<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lustre_mds0 lustre]# lfs df -h<o:p></o:p></p><p class=MsoNormal>UUID                       bytes        Used   Available Use% Mounted on<o:p></o:p></p><p class=MsoNormal>lustre-MDT0000_UUID         1.4G       83.9M        1.3G   6% /mnt/lustre[MDT:0]<o:p></o:p></p><p class=MsoNormal>lustre-OST0000_UUID         1.9G        1.1G      716.5M  61% /mnt/lustre[OST:0]<o:p></o:p></p><p class=MsoNormal>lustre-OST0001_UUID         1.9G        1.1G      728.5M  60% /mnt/lustre[OST:1]<o:p></o:p></p><p class=MsoNormal>lustre-OST0002_UUID         1.9G        1.1G      728.5M  60% /mnt/lustre[OST:2]<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>filesystem summary:         5.6G        3.2G        2.1G  60% /mnt/lustre<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>All appears normal. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Doing this from another (identical) client:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# lctl dl<o:p></o:p></p><p class=MsoNormal>  0 UP mgc MGC10.127.24.42@tcp 272a8405-8512-e9de-f532-feb5b7d6f9b1 5<o:p></o:p></p><p class=MsoNormal>  1 UP lov lustre-clilov-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 4<o:p></o:p></p><p class=MsoNormal>  2 UP lmv lustre-clilmv-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 4<o:p></o:p></p><p class=MsoNormal>  3 UP mdc lustre-MDT0000-mdc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal>  4 UP osc lustre-OST0000-osc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal>  5 UP osc lustre-OST0001-osc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal>  6 UP osc lustre-OST0002-osc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# lfs df<o:p></o:p></p><p class=MsoNormal>UUID                   1K-blocks        Used   Available Use% Mounted on<o:p></o:p></p><p class=MsoNormal>lustre-MDT0000_UUID      1499596       85888     1313708   6% /mnt/lustre[MDT:0]<o:p></o:p></p><p class=MsoNormal>OST0000             : inactive device<o:p></o:p></p><p class=MsoNormal>lustre-OST0001_UUID      1968528     1122468      745996  60% /mnt/lustre[OST:1]<o:p></o:p></p><p class=MsoNormal>OST0002             : inactive device<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>filesystem summary:      1968528     1122468      745996  60% /mnt/luster<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Doing a ‘dd’ or ‘touch’ or even ‘df’ from this machine will hang it.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>EDIT: each system has all other systems defined in /etc/hosts and entries in iptables to provide access.  <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>All systems have identical setup:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# rpm -qa | grep lustre<o:p></o:p></p><p class=MsoNormal>lustre-ldiskfs-3.3.0-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal>lustre-2.1.3-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal>kernel-2.6.32-279.2.1.el6_lustre.gc46c389.x86_64<o:p></o:p></p><p class=MsoNormal>lustre-modules-2.1.3-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal>lustre-tests-2.1.3-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# uname -a<o:p></o:p></p><p class=MsoNormal>Linux lfstest0 2.6.32-279.2.1.el6_lustre.gc46c389.x86_64 #1 SMP Mon Aug 13 11:00:10 PDT 2012 x86_64 x86_64 x86_64 GNU/Linux<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# rpm -qa | grep e2fs<o:p></o:p></p><p class=MsoNormal>e2fsprogs-libs-1.41.90.wc2-7.el6.x86_64<o:p></o:p></p><p class=MsoNormal>e2fsprogs-1.41.90.wc2-7.el6.x86_64 <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>SO: I'm clearly making several mistakes. Any pointers as to where to start correcting them?<o:p></o:p></p></div></body></html>