<div dir="ltr"><div>Hi Eyal,</div><div><br></div><div>I'm Wyatt Gorman, I'm a HPC Specialist at Google and both wrote the Lustre deployment manager scripts and help SchedMD with the Slurm scripts. I have some good news for you, we've simplified using Lustre and other filesystems in the upcoming version of the Slurm scripts, so that you won't need to manually install Lustre or add scripts to do so.</div><div><br></div><div>Just FYI, if you did want to add some custom installation steps there are custom installation scripts in the scripts folder for compute, controller and login where you could add the commands you've listed below.</div><div><br></div><div>However, there's no need. If you check the "v3" branch of the SchedMD slurm-gcp repo you'll find a new YAML field where you can specify network storage mounts, including Lustre. If you specify a Lustre mount you can then the Lustre client will automatically be installed, your mount point created, and the filesystem will be mounted when the system comes online. You will then need to modify permissions of the mount because the filesystem is mounted as root, but you can modify this behavior if desired.</div><div><br></div><div>Let me know if you'd like to chat about your work, and talk through your plans to identify any other areas you might save some effort.</div><div><br></div><div>And just FYI, in the future this question might be better suited for the Google Cloud Slurm Discussion Group (<a href="https://groups.google.com/forum/#!forum/google-cloud-slurm-discuss">https://groups.google.com/forum/#!forum/google-cloud-slurm-discuss</a>), where we have folks regularly monitoring messages.</div><div dir="ltr"><br clear="all"><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div>Thanks,</div><div dir="ltr">Wyatt Gorman</div></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sun, Aug 4, 2019 at 4:25 PM <<a href="mailto:lustre-discuss-request@lists.lustre.org">lustre-discuss-request@lists.lustre.org</a>> wrote:</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
Date: Sun, 4 Aug 2019 13:18:20 +0000<br>
From: Eyal Estrin <<a href="mailto:eyale@hotmail.com" target="_blank">eyale@hotmail.com</a>><br>
To: "<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>"<br>
        <<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>><br>
Subject: [lustre-discuss] Assistance deploying Slurm HPC cluster with<br>
        Lustre file system based on Google Cloud Platform (GCP)<br>
Message-ID:<br>
        <<a href="mailto:BY5PR13MB31095BCAB4B60827FAB6DE60BBDB0@BY5PR13MB3109.namprd13.prod.outlook.com" target="_blank">BY5PR13MB31095BCAB4B60827FAB6DE60BBDB0@BY5PR13MB3109.namprd13.prod.outlook.com</a>><br>
<br>
Content-Type: text/plain; charset="utf-8"<br>
<br>
Hi all,<br>
1. I am trying to deploy Slurm HPC cluster based on Google Cloud Platform, with Lustre file system, as instructed below:?<br>
   <a href="https://codelabs.developers.google.com/codelabs/hpc-slurm-on-gcp/#0" rel="noreferrer" target="_blank">https://codelabs.developers.google.com/codelabs/hpc-slurm-on-gcp/#0</a>?<br>
   <a href="https://cloud.google.com/blog/products/storage-data-transfer/introducing-lustre-file-system-cloud-deployment-manager-scripts" rel="noreferrer" target="_blank">https://cloud.google.com/blog/products/storage-data-transfer/introducing-lustre-file-system-cloud-deployment-manager-scripts</a>?<br>
   <a href="https://github.com/GoogleCloudPlatform/deploymentmanager-samples/tree/master/community/lustre" rel="noreferrer" target="_blank">https://github.com/GoogleCloudPlatform/deploymentmanager-samples/tree/master/community/lustre</a>?<br>
?<br>
2. I have created VPC Peering between the Slurm network and the Lustre cluster network?<br>
?<br>
3. I have created Firewall rules for allowing all ports and protocols between the Slurm network and the Lustre cluster network?<br>
?<br>
4. I have added DNS records for all the Lustre cluster machines inside the Slurm master node /etc/hosts?<br>
?<br>
5. I have installed the following Lustre client pre-requirements on the Slurm master node:?<br>
   sudo yum install kernel kernel-devel kernel-headers kernel-abi-whitelists kernel-tools kernel-tools-libs kernel-tools-libs-devel?<br>
?<br>
6. I have created the /etc/yum.repos.d/lustre.repo with the following content:?<br>
[lustre-server]?<br>
name=CentOS-$releasever - Lustre?<br>
baseurl=<a href="https://downloads.hpdd.intel.com/public/lustre/latest-feature-release/el7/server/?gpgcheck=0" rel="noreferrer" target="_blank">https://downloads.hpdd.intel.com/public/lustre/latest-feature-release/el7/server/?<br>
gpgcheck=0</a>?<br>
?<br>
[e2fsprogs]?<br>
name=CentOS-$releasever - Ldiskfs?<br>
baseurl=<a href="https://downloads.hpdd.intel.com/public/e2fsprogs/latest/el7/?gpgcheck=0" rel="noreferrer" target="_blank">https://downloads.hpdd.intel.com/public/e2fsprogs/latest/el7/?<br>
gpgcheck=0</a>?<br>
?<br>
[lustre-client]?<br>
name=CentOS-$releasever - Lustre?<br>
baseurl=<a href="https://downloads.hpdd.intel.com/public/lustre/latest-feature-release/el7/client/?gpgcheck=0" rel="noreferrer" target="_blank">https://downloads.hpdd.intel.com/public/lustre/latest-feature-release/el7/client/?<br>
gpgcheck=0</a>?<br>
?<br>
7. I have installed the Lustre client packages on the Slurm master node, using the following command:?<br>
   sudo yum install e2fsprogs lustre-client?<br>
?<br>
8. I used the following commands to create a mount point for the Lustre file system from within the Slurm master node:?<br>
   sudo mkdir -p /lustre?<br>
   sudo chmod 777 -R /lustre?<br>
?<br>
9. Due to the fact that on the Slurm master node on Google Cloud Platform, my logged-in account is not Root account, but a Google G Suite account, the only way to perform mount and create a test file inside the mount point /lustre, is to use the following Sudo commands:?<br>
    sudo mount -t lustre lustre-mds1:/lustre /lustre?<br>
    sudo touch /lustre/1.txt?<br>
?<br>
I have couple of problems with the above process:?<br>
A. Even though the mount point (/lustre) has chmod of 777, the folder is still owned by Root user and group, and I am still unable to write files into the /Lustre mount point? - How do I allow Google G Suite accounts the privilege to read/write/delete files from the /Lustre mount point?<br>
<br>
B. How do I add the following packages as part of the Slurm deployment package on both the Slurm master node and on all Slurm compute nodes (<a href="https://github.com/SchedMD/slurm-gcp)" rel="noreferrer" target="_blank">https://github.com/SchedMD/slurm-gcp)</a>??<br>
   sudo yum install kernel kernel-devel kernel-headers kernel-abi-whitelists kernel-tools kernel-tools-libs kernel-tools-libs-devel?<br>
   sudo yum install e2fsprogs lustre-client?<br>
   Note: For the Lustre client installation, I need to add the /etc/yum.repos.d/lustre.repo with specific content (as instructed here: <a href="http://wiki.lustre.org/Installing_the_Lustre_Software" rel="noreferrer" target="_blank">http://wiki.lustre.org/Installing_the_Lustre_Software</a>)?<br>
<br>
<br>
<br>
Thanks,<br>
<br>
Eyal Estrin<br>
</blockquote></div></div>