Hi everybody <br>I'm newbie in Lustre and i'm so sorry if my question is too stupid or it existed elsewhere. <br>I'm have a problem with Lustre OST fail over<br>I have 2 OSSs , configured to fail-over together, each OSS have their own OST ( i didn't use shared disk for my 2 OSS ) and they used the same OST index <br>
This is all the things i've done:<br><br>- With my MDS: mkfs.lustre --verbose --mdt --mgs /dev/sdb<br>                         mount -t lustre /dev/sdb/ /mnt/lustre<br>- And my OSSs: <br><br>OSS1: mkfs.lustre --ost  --mgsnode=192.168.1.200@tcp0 --failover=192.168.1.202@tcp0 --index=lustre-OST0000 /dev/sdb<br>
<br>mount -t lustre /dev/sdb /mnt/lustre<br><br>OSS2: mkfs.lustre --ost --mgsnode=192.168.1.200@tcp0 --failover=192.168.1.201@tcp0 --index=lustre-OST0000 /deb/sdb<br><br>mount -t lustre /dev/sdb /mnt/lustre<br><br>Everything worked well. <br>
<br>I made my own test: <br>- Copy a large file to lustre mounted partition in my client, when it's still writing in there, i umount one of my OSS ( which is receiving data - i verified it by looking at df -h output on each OSS and lfs getstripe in client ).  <br>
- The fail-overing worked well, at least by everything display in their log and my MDS log. The copy stopped at the moment, after recovering and changing connection from MDS to acitve OSS, it continued and finished without any error. <br>
<br>But, the problem is: When i used md5sum command to verify the file i've just copied, it's not the same with the original file. I tested many time after that and found almost the same result. <br><br>Is there any way to overcome this problem ? <br>
<br>Any help would be really grateful <br><br>