<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 12 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0in;
margin-bottom:.0001pt;
font-size:11.0pt;
font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
{mso-style-priority:99;
color:blue;
text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
{mso-style-priority:99;
color:purple;
text-decoration:underline;}
span.EmailStyle17
{mso-style-type:personal-compose;
font-family:"Calibri","sans-serif";
color:windowtext;}
.MsoChpDefault
{mso-style-type:export-only;}
@page WordSection1
{size:8.5in 11.0in;
margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
{page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>Issue: I'm trying to assess the (possible) use of Lustre for our group. To this end I've been trying to create a simple system to explore the nuances. I can't seem to get past the 'llmount.sh' test with any degree of success. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>What I've done: Each system (throwaway PCs with 70Gb HD, 2Gb RAM) is formatted with CentOS 6.2. I then update everything and install the Lustre kernel from downloads.whamcloud.com and add on the various (appropriate) lustre and e2fs RPM files. Systems are rebooted and tested with 'llmount.sh' (and then cleared with 'llmountcleanup.sh'). All is well to this point. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>First I create an MDS/MDT system via: <o:p></o:p></p><p class=MsoNormal> <o:p></o:p></p><p class=MsoNormal> /usr/sbin/mkfs.lustre --mgs --mdt --fsname=lustre --device-size=2000000 --param sys.timeout=20 --mountfsoptions=errors=remount-ro,user_xattr,acl --param lov.stripesize=1048576 --param lov.stripecount=0 --param mdt.identity_upcall=/usr/sbin/l_getidentity --backfstype ldiskfs --reformat /tmp/lustre-mdt1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>and then <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal> mkdir -p /mnt/mds1 <o:p></o:p></p><p class=MsoNormal> mount -t lustre -o loop,user_xattr,acl /tmp/lustre-mdt1 /mnt/mds1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Next I take 3 systems and create a 2Gb loop mount via: <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal> /usr/sbin/mkfs.lustre --ost --fsname=lustre --device-size=2000000 --param sys.timeout=20 --mgsnode=lustre_MDS0@tcp --backfstype ldiskfs --reformat /tmp/lustre-ost1 <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal> mkdir -p /mnt/ost1 <o:p></o:p></p><p class=MsoNormal> mount -t lustre -o loop /tmp/lustre-ost1 /mnt/ost1 <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>The logs on the MDT box show the OSS boxes connecting up. All appears ok.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Last I create a client and attach to the MDT box: <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal> mkdir -p /mnt/lustre<o:p></o:p></p><p class=MsoNormal> mount -t lustre -o user_xattr,acl,flock luster_MDS0@tcp:/lustre /mnt/lustre <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Again, the log on the MDT box shows the client connection. Appears to be successful.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Here's where the issues (appear to) start. If I do a 'df -h' on the client it hangs after showing the system drives. If I attempt to create files (via 'dd') on the lustre mount the session hangs and the job can't be killed. Rebooting the client is the only solution.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>I can create and use a client on the MDS/MSG box. Doing so from any other machine will hang.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>From the MDS box:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lustre_mds0 lustre]# lctl dl<o:p></o:p></p><p class=MsoNormal> 0 UP mgs MGS MGS 13<o:p></o:p></p><p class=MsoNormal> 1 UP mgc MGC10.127.24.42@tcp 7923c008-a0de-1c87-f21a-4a5ab48abb96 5<o:p></o:p></p><p class=MsoNormal> 2 UP lov lustre-MDT0000-mdtlov lustre-MDT0000-mdtlov_UUID 4<o:p></o:p></p><p class=MsoNormal> 3 UP mdt lustre-MDT0000 lustre-MDT0000_UUID 7<o:p></o:p></p><p class=MsoNormal> 4 UP mds mdd_obd-lustre-MDT0000 mdd_obd_uuid-lustre-MDT0000 3<o:p></o:p></p><p class=MsoNormal> 5 UP osc lustre-OST0000-osc-MDT0000 lustre-MDT0000-mdtlov_UUID 5<o:p></o:p></p><p class=MsoNormal> 6 UP osc lustre-OST0001-osc-MDT0000 lustre-MDT0000-mdtlov_UUID 5<o:p></o:p></p><p class=MsoNormal> 7 UP lov lustre-clilov-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 4<o:p></o:p></p><p class=MsoNormal> 8 UP lmv lustre-clilmv-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 4<o:p></o:p></p><p class=MsoNormal> 9 UP mdc lustre-MDT0000-mdc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 10 UP osc lustre-OST0000-osc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 11 UP osc lustre-OST0001-osc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 12 UP osc lustre-OST0002-osc-ffff8800631c8000 b6b66579-1f44-90e5-ae63-e778d4ed6ac5 5<o:p></o:p></p><p class=MsoNormal> 13 UP osc lustre-OST0002-osc-MDT0000 lustre-MDT0000-mdtlov_UUID 5<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lustre_mds0 lustre]# lfs df -h<o:p></o:p></p><p class=MsoNormal>UUID bytes Used Available Use% Mounted on<o:p></o:p></p><p class=MsoNormal>lustre-MDT0000_UUID 1.4G 83.9M 1.3G 6% /mnt/lustre[MDT:0]<o:p></o:p></p><p class=MsoNormal>lustre-OST0000_UUID 1.9G 1.1G 716.5M 61% /mnt/lustre[OST:0]<o:p></o:p></p><p class=MsoNormal>lustre-OST0001_UUID 1.9G 1.1G 728.5M 60% /mnt/lustre[OST:1]<o:p></o:p></p><p class=MsoNormal>lustre-OST0002_UUID 1.9G 1.1G 728.5M 60% /mnt/lustre[OST:2]<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>filesystem summary: 5.6G 3.2G 2.1G 60% /mnt/lustre<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>All appears normal. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Doing this from another (identical) client:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# lctl dl<o:p></o:p></p><p class=MsoNormal> 0 UP mgc MGC10.127.24.42@tcp 272a8405-8512-e9de-f532-feb5b7d6f9b1 5<o:p></o:p></p><p class=MsoNormal> 1 UP lov lustre-clilov-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 4<o:p></o:p></p><p class=MsoNormal> 2 UP lmv lustre-clilmv-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 4<o:p></o:p></p><p class=MsoNormal> 3 UP mdc lustre-MDT0000-mdc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal> 4 UP osc lustre-OST0000-osc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal> 5 UP osc lustre-OST0001-osc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal> 6 UP osc lustre-OST0002-osc-ffff880070eee400 0cb7fd2e-ade0-dab3-c4b9-6b7956ef9720 5<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# lfs df<o:p></o:p></p><p class=MsoNormal>UUID 1K-blocks Used Available Use% Mounted on<o:p></o:p></p><p class=MsoNormal>lustre-MDT0000_UUID 1499596 85888 1313708 6% /mnt/lustre[MDT:0]<o:p></o:p></p><p class=MsoNormal>OST0000 : inactive device<o:p></o:p></p><p class=MsoNormal>lustre-OST0001_UUID 1968528 1122468 745996 60% /mnt/lustre[OST:1]<o:p></o:p></p><p class=MsoNormal>OST0002 : inactive device<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>filesystem summary: 1968528 1122468 745996 60% /mnt/luster<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Doing a ‘dd’ or ‘touch’ or even ‘df’ from this machine will hang it.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>EDIT: each system has all other systems defined in /etc/hosts and entries in iptables to provide access. <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>All systems have identical setup:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# rpm -qa | grep lustre<o:p></o:p></p><p class=MsoNormal>lustre-ldiskfs-3.3.0-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal>lustre-2.1.3-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal>kernel-2.6.32-279.2.1.el6_lustre.gc46c389.x86_64<o:p></o:p></p><p class=MsoNormal>lustre-modules-2.1.3-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal>lustre-tests-2.1.3-2.6.32_279.2.1.el6_lustre.gc46c389.x86_64.x86_64<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# uname -a<o:p></o:p></p><p class=MsoNormal>Linux lfstest0 2.6.32-279.2.1.el6_lustre.gc46c389.x86_64 #1 SMP Mon Aug 13 11:00:10 PDT 2012 x86_64 x86_64 x86_64 GNU/Linux<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@lfstest0 lustre]# rpm -qa | grep e2fs<o:p></o:p></p><p class=MsoNormal>e2fsprogs-libs-1.41.90.wc2-7.el6.x86_64<o:p></o:p></p><p class=MsoNormal>e2fsprogs-1.41.90.wc2-7.el6.x86_64 <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>SO: I'm clearly making several mistakes. Any pointers as to where to start correcting them?<o:p></o:p></p></div></body></html>