<div dir="ltr">Hello All,<br><br>I have lustre FS consisted of 4 servers. One of the servers is acting as mgs and mds. This host also has OSTs mounted on itself. Role of the other 3 servers is OSS. There are no failover configuration for these OSSs and MDS. This FS is not in production environment. So I tried to simulate some storage based failure scienarios: <br>
<br>There are disk arrays  connected to OSS and MDS machine. And the OST and MDT's are located on those disk array enclosures. I powered one of the disk array that connected to 2nd OSS off when there was a write operation. This made FS unreliable. So I unmounted  all the clients. There was no error of unmounting the clients. But When I tried to stop the file system, the MGS/MDS host and the 2nd OSS host hanged. I manually rebooted these two hosts. Then I issued the command e2fsck on the devices that I mounted as MDT and OSTs. e2fsck run without any fix process. But runs of e2fsck on some of the OST devices returned the "filesystem modified" message.<br>
<br>After the finish of e2fsck runs, I tried to start the filesystem but the MGS/MDS host freezed. And there are no logs about that. May be there are some logs out there but i don't know where they are.<br><br>So could you please help me to identify what's going on? And which logs are needed and how and where should I claim them?<br>
<br>Here are my environment info:<br><br>Lustre Server OS: RHEL 5.1<br>Lustre Version: <a href="http://1.6.5.1">1.6.5.1</a><br><br><br>Thanks in advance.<br><br>Ender GULER<br><br></div>