<div dir="ltr"><div>Thanks for replying back Arman.<br><br><br></div><div>/var/log/messages still cribbs about the error as below : <br>Aug 29 15:01:59 MGS-1 kernel: LustreError: 11-0: lustre-MDT0000-lwp-MDT0000: Communicating with 0@lo, operation mds_connect failed with -11.<br>
<br></div><div>but, adding a mapping in /etc/hosts allows others to connect to MGS now.<br><br></div><div>Seems like a workaround, but things are working as of now. It still fails if you try to configure mdt with an IP.<br>
<br></div><div>Thanks again.<br></div><div><br></div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">Warm Regards,<br>Abhay Dandekar<b><br></b></div></div>
<br><br><div class="gmail_quote">On Mon, Aug 25, 2014 at 5:00 PM, Arman Khalatyan <span dir="ltr"><<a href="mailto:arm2arm@gmail.com" target="_blank">arm2arm@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi Abhay,<br>
Could you please check the lnet status?<br>
lctl list_nids, or pings..<br>
Is you firewall enabled?<br>
BTW, i move all my servers to 2.5.x branch, that was fixing most of my<br>
troubles...<br>
<span class="HOEnZb"><font color="#888888">a.<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
<br>
On Tue, Aug 19, 2014 at 12:38 PM, Abhay Dandekar<br>
<<a href="mailto:dandekar.abhay@gmail.com">dandekar.abhay@gmail.com</a>> wrote:<br>
> I came across a similar situation.<br>
><br>
> Below is the log of machine state. These steps worked on some setups while<br>
> on some it didnt.<br>
><br>
> Armaan,<br>
><br>
> Were you able to get over the problem ? Any workaround ?<br>
><br>
> Thanks in advance for all your help.<br>
><br>
><br>
> Warm Regards,<br>
> Abhay Dandekar<br>
><br>
><br>
> ---------- Forwarded message ----------<br>
> From: Abhay Dandekar <<a href="mailto:dandekar.abhay@gmail.com">dandekar.abhay@gmail.com</a>><br>
> Date: Wed, Aug 6, 2014 at 12:18 AM<br>
> Subject: Lustre configuration failure : lwp-MDT0000: Communicating with<br>
> 0@lo, operation mds_connect failed with -11.<br>
> To: <a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.org</a><br>
><br>
><br>
><br>
> Hi All,<br>
><br>
> I have come across an lustre installation failure where the MGS is always<br>
> trying to reach "lo" config instead of configured ethernet.<br>
><br>
> These same steps worked on a different machine, somehow they are failing<br>
> here.<br>
><br>
> Here are the logs<br>
><br>
> Lustre installation is success with all the packages installed without any<br>
> error.<br>
><br>
> 0. Lustre version<br>
><br>
> Aug  5 23:07:37 lfs-server kernel: LNet: HW CPU cores: 1, npartitions: 1<br>
> Aug  5 23:07:37 lfs-server modprobe: FATAL: Error inserting crc32c_intel<br>
> (/lib/modules/2.6.32-431.17.1.el6_lustre.x86_64/kernel/arch/x86/crypto/crc32c-intel.ko):<br>
> No such device<br>
> Aug  5 23:07:37 lfs-server kernel: alg: No test for crc32 (crc32-table)<br>
> Aug  5 23:07:37 lfs-server kernel: alg: No test for adler32 (adler32-zlib)<br>
> Aug  5 23:07:41 lfs-server modprobe: FATAL: Error inserting padlock_sha<br>
> (/lib/modules/2.6.32-431.17.1.el6_lustre.x86_64/kernel/drivers/crypto/padlock-sha.ko):<br>
> No such device<br>
> Aug  5 23:07:41 lfs-server kernel: padlock: VIA PadLock Hash Engine not<br>
> detected.<br>
> Aug  5 23:07:45 lfs-server kernel: Lustre: Lustre: Build Version:<br>
> 2.5.2-RC2--PRISTINE-2.6.32-431.17.1.el6_lustre.x86_64<br>
> Aug  5 23:07:45 lfs-server kernel: LNet: Added LNI 192.168.122.50@tcp<br>
> [8/256/0/180]<br>
> Aug  5 23:07:45 lfs-server kernel: LNet: Accept secure, port 988<br>
><br>
><br>
> 1. Mkfs<br>
><br>
> [root@lfs-server ~]# mkfs.lustre --fsname=lustre --mgs --mdt --index=0<br>
> /dev/sdb<br>
><br>
>    Permanent disk data:<br>
> Target:     lustre:MDT0000<br>
> Index:      0<br>
> Lustre FS:  lustre<br>
> Mount type: ldiskfs<br>
> Flags:      0x65<br>
>               (MDT MGS first_time update )<br>
> Persistent mount opts: user_xattr,errors=remount-ro<br>
> Parameters:<br>
><br>
> checking for existing Lustre data: not found<br>
> device size = 10240MB<br>
> formatting backing filesystem ldiskfs on /dev/sdb<br>
>     target name  lustre:MDT0000<br>
>     4k blocks     2621440<br>
>     options        -J size=400 -I 512 -i 2048 -q -O<br>
> dirdata,uninit_bg,^extents,dir_nlink,quota,huge_file,flex_bg -E<br>
> lazy_journal_init -F<br>
> mkfs_cmd = mke2fs -j -b 4096 -L lustre:MDT0000  -J size=400 -I 512 -i 2048<br>
> -q -O dirdata,uninit_bg,^extents,dir_nlink,quota,huge_file,flex_bg -E<br>
> lazy_journal_init -F /dev/sdb 2621440<br>
> Aug  5 17:16:47 lfs-server kernel: LDISKFS-fs (sdb): mounted filesystem with<br>
> ordered data mode. quota=on. Opts:<br>
> Writing CONFIGS/mountdata<br>
> [root@lfs-server ~]#<br>
><br>
> 2. Mount<br>
><br>
> [root@lfs-server ~]# mount -t lustre /dev/sdb /mnt/mgs<br>
> Aug  5 17:18:01 lfs-server kernel: LDISKFS-fs (sdb): mounted filesystem with<br>
> ordered data mode. quota=on. Opts:<br>
> Aug  5 17:18:01 lfs-server kernel: LDISKFS-fs (sdb): mounted filesystem with<br>
> ordered data mode. quota=on. Opts:<br>
> Aug  5 17:18:02 lfs-server kernel: Lustre: ctl-lustre-MDT0000: No data found<br>
> on store. Initialize space<br>
> Aug  5 17:18:02 lfs-server kernel: Lustre: lustre-MDT0000: new disk,<br>
> initializing<br>
> Aug  5 17:18:02 lfs-server kernel: Lustre: MGS: non-config logname received:<br>
> params<br>
> Aug  5 17:18:02 lfs-server kernel: LustreError: 11-0:<br>
> lustre-MDT0000-lwp-MDT0000: Communicating with 0@lo, operation mds_connect<br>
> failed with -11.<br>
> [root@lfs-server ~]#<br>
><br>
><br>
> 3. Unmount<br>
> [root@lfs-server ~]# umount /dev/sdb<br>
> Aug  5 17:19:46 lfs-server kernel: Lustre: Failing over lustre-MDT0000<br>
> Aug  5 17:19:52 lfs-server kernel: Lustre:<br>
> 1338:0:(client.c:1908:ptlrpc_expire_one_request()) @@@ Request sent has<br>
> timed out for slow reply: [sent 1407239386/real 1407239386]<br>
> req@ffff88003d795c00 x1475596948340888/t0(0)<br>
> o251->MGC192.168.122.50@tcp@0@lo:26/25 lens 224/224 e 0 to 1 dl 1407239392<br>
> ref 2 fl Rpc:XN/0/ffffffff rc 0/-1<br>
> [root@lfs-server ~]# Aug  5 17:19:53 lfs-server kernel: Lustre: server<br>
> umount lustre-MDT0000 complete<br>
><br>
> [root@lfs-server ~]#<br>
><br>
><br>
> 4. [root@mgs ~]# cat /etc/modprobe.d/lustre.conf<br>
> options lnet networks=tcp(eth0)<br>
> [root@mgs ~]#<br>
><br>
> 5.Even the lnet configuration is in place, it does not pick up the required<br>
> eth0.<br>
><br>
> [root@mgs ~]# lctl dl<br>
>   0 UP osd-ldiskfs lustre-MDT0000-osd lustre-MDT0000-osd_UUID 8<br>
>   1 UP mgs MGS MGS 5<br>
>   2 UP mgc MGC192.168.122.50@tcp c6ea84c0-b3b2-9d25-8126-32d85956ae4d 5<br>
>   3 UP mds MDS MDS_uuid 3<br>
>   4 UP lod lustre-MDT0000-mdtlov lustre-MDT0000-mdtlov_UUID 4<br>
>   5 UP mdt lustre-MDT0000 lustre-MDT0000_UUID 5<br>
>   6 UP mdd lustre-MDD0000 lustre-MDD0000_UUID 4<br>
>   7 UP qmt lustre-QMT0000 lustre-QMT0000_UUID 4<br>
>   8 UP lwp lustre-MDT0000-lwp-MDT0000 lustre-MDT0000-lwp-MDT0000_UUID 5<br>
> [root@mgs ~]#<br>
><br>
> Any pointers to go ahead ??<br>
><br>
><br>
> Warm Regards,<br>
> Abhay Dandekar<br>
><br>
</div></div></blockquote></div><br></div>