The case=network part of obdfilter_survey has really been replaced by lnet_selftest. <div>I don't think it's been maintained in awhile.</div><div><br></div><div>It would be best to repeat the network-only test with lnet_selftest, this is likely an issue with</div>
<div>the script. </div><div>cliffw<br><br><div class="gmail_quote">On Wed, Jul 6, 2011 at 1:04 PM, lior amar <span dir="ltr"><<a href="mailto:liororama@gmail.com">liororama@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div dir="ltr">Hi,<br><div class="gmail_quote"><div class="im">
<br>
I am installing a Lustre system and I wanted to measure the OSS<br>
performance.<br>
I used the obdfilter_survey and got very low performance for low<br></div>
thread numbers when using the case=network option<div class="im"><br>
<br>
System Configuration:<br>
* Lustre 1.8.6-wc (compiled from the whamcloud git)<br>
* Centos 5.6<br>
* Infiniband (mellanox cards) open ib from centos 5.6<br>
* OSS - 2 quad core  E5620 CPUS<br>
* OSS - memory 48GB<br>
* LSI 2965 raid card with 18 disks in raid 6 (16 data + 2). Raw<br>
performance are good both  when testing the block device or over a file system with Bonnie++<br>
<br>
* OSS uses ext4 and mkfs parameters were set to reflect the stripe<br>
size .. -E stride =...<br>
<br></div>The performance test I did:<div class="im"><br><br>
1) obdfilter_survey case=disk -<br>
    OSS performance is ok (similar to raw disk performance) - <br>   In the case of 1  thread and one object getting 966MB/sec<br>
<br>
2) obdfilter_survey case=network -<br>
     OSS performance is bad for low thread numbers and get better as<br>
the  number of  threads increases. <br>For the 1 thread one object getting 88MB/sec<br>
<br>
3) obdfilter_survey case=netdisk -- Same as network case<br>
<br>
4) When running ost_survey I am getting also low performance:<br>
    Read = 156 MB/sec Write = ~350MB/sec<br>
<br>
5) Running the lnet_self test I get much higher numbers<br>
  Numbers obtained with concurrency = 1<br>
<br>
 [LNet Rates of servers]<br>
 [R] Avg: 3556     RPC/s Min: 3556     RPC/s Max: 3556     RPC/s<br>
 [W] Avg: 4742     RPC/s Min: 4742     RPC/s Max: 4742     RPC/s<br>
 [LNet Bandwidth of servers]<br>
 [R] Avg: 1185.72  MB/s  Min: 1185.72  MB/s  Max: 1185.72  MB/s<br>
 [W] Avg: 1185.72  MB/s  Min: 1185.72  MB/s  Max: 1185.72  MB/s<br>
<br>
<br><br>
<br></div>
Any Ideas why a single thread over network obtain 88MB/sec while the same test conducted local obtained 966MB/sec??<div><div></div><div class="h5"><br>
What else should I test/read/try ??<br>
<br>
10x<br>
<br>
Below are the actual numbers:<br>
<br>
===== obdfilter_survey case = disk ======<br>
Wed Jul  6 13:24:57 IDT 2011 Obdfilter-survey for case=disk from oss1<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    1 write  966.90<br>
[ 644.40,1030.02] rewrite 1286.23 [1300.78,1315.77] read<br>
8474.33             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    2 write 1577.95<br>
[1533.57,1681.43] rewrite 1548.29 [1244.83,1718.42] read<br>
11003.26             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    4 write 1465.68<br>
[1354.73,1600.50] rewrite 1484.98 [1271.54,1584.52] read<br>
16464.13             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    8 write 1267.39<br>
[ 797.25,1476.48] rewrite 1350.28 [1283.80,1387.70] read<br>
15353.69             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr   16 write 1295.35<br>
[1266.82,1408.70] rewrite 1332.59 [1315.61,1429.66] read<br>
15001.67             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr    2 write 1467.80<br>
[1472.62,1691.42] rewrite 1218.88 [ 821.23,1338.74] read<br>
13538.41             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr    4 write 1561.09<br>
[1521.57,1682.75] rewrite 1183.31 [ 959.10,1372.52] read<br>
15955.31             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr    8 write 1498.74<br>
[1543.58,1704.41] rewrite 1116.19 [1001.06,1163.91] read<br>
15523.22             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr   16 write 1462.54<br>
[ 985.08,1615.48] rewrite 1244.29 [1100.97,1444.80] read<br>
15174.56             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    4 thr    4 write 1483.42<br>
[1497.88,1648.45] rewrite 1042.92 [ 801.25,1192.69] read<br>
15997.30             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    4 thr    8 write 1494.63<br>
[1458.85,1624.13] rewrite 1041.81 [ 806.25,1183.89] read<br>
15450.18             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    4 thr   16 write 1469.96<br>
[1450.65,1647.45] rewrite 1027.06 [ 645.50,1215.86] read<br>
15543.46             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    8 thr    8 write 1417.93<br>
[1250.85,1520.58] rewrite 1007.45 [ 905.15,1130.82] read<br>
15789.66             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj    8 thr   16 write 1324.28<br>
[ 951.87,1518.26] rewrite  986.48 [ 855.21,1079.99] read<br>
15510.70             SHORT<br>
ost  1 sz 16777216K rsz 1024K obj   16 thr   16 write 1237.22<br>
[ 989.07,1345.17] rewrite  915.56 [ 749.08,1033.03] read<br>
15415.75             SHORT<br>
<br>
==============================<br>
<br>
====== obdfilter_survey case = network ========================<br>
Wed Jul  6 16:29:38 IDT 2011 Obdfilter-survey for case=network from<br>
oss6<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    1 write   87.99<br>
[  86.92,  88.92] rewrite   87.98 [  86.83,  88.92] read   88.09<br>
[  86.92,  88.92]<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    2 write  175.76<br>
[ 173.84, 176.83] rewrite  175.75 [ 174.84, 176.83] read  172.76<br>
[ 171.67, 174.84]<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    4 write  343.13<br>
[ 327.69, 347.67] rewrite  344.64 [ 342.34, 347.67] read  331.20<br>
[ 327.69, 337.77]<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr    8 write  638.44<br>
[ 638.10, 653.39] rewrite  639.07 [ 627.75, 654.74] read  605.36<br>
[ 598.84, 626.71]<br>
ost  1 sz 16777216K rsz 1024K obj    1 thr   16 write 1257.67<br>
[1216.88,1424.42] rewrite 1231.61 [1200.67,1316.77] read 1122.70<br>
[1095.04,1187.64]<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr    2 write  175.69<br>
[ 174.49, 176.83] rewrite  175.82 [ 174.79, 176.83] read  172.06<br>
[ 169.67, 173.84]<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr    4 write  345.38<br>
[ 343.68, 348.67] rewrite  344.40 [ 342.66, 348.32] read  331.19<br>
[ 328.62, 337.68]<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr    8 write  638.29<br>
[ 625.16, 676.37] rewrite  632.57 [ 619.43, 672.38] read  604.72<br>
[ 601.69, 625.41]<br>
ost  1 sz 16777216K rsz 1024K obj    2 thr   16 write 1247.19<br>
[1212.38,1377.73] rewrite 1265.31 [1220.56,1396.71] read 1127.87<br>
[1099.97,1187.67]<br>
ost  1 sz 16777216K rsz 1024K obj    4 thr    4 write  343.96<br>
[ 341.68, 347.67] rewrite  337.98 [ 324.70, 348.67] read  332.27<br>
[ 327.69, 337.68]<br>
ost  1 sz 16777216K rsz 1024K obj    4 thr    8 write  637.15<br>
[ 626.89, 673.38] rewrite  636.47 [ 624.42, 675.37] read  605.98<br>
[ 604.43, 620.64]<br>
ost  1 sz 16777216K rsz 1024K obj    4 thr   16 write 1260.31<br>
[1198.30,1419.70] rewrite 1289.95 [1235.05,1486.35] read 1119.08<br>
[1081.16,1159.77]<br>
ost  1 sz 16777216K rsz 1024K obj    8 thr    8 write  636.82<br>
[ 628.41, 678.37] rewrite  634.36 [ 622.41, 671.38] read  607.59<br>
[ 601.23, 627.79]<br>
ost  1 sz 16777216K rsz 1024K obj    8 thr   16 write 1257.81<br>
[1207.65,1405.00] rewrite 1267.45 [1233.43,1372.72] read 1125.58<br>
[1114.65,1163.67]<br>
ost  1 sz 16777216K rsz 1024K obj   16 thr   16 write 1247.34<br>
[1215.70,1418.69] rewrite 1249.45 [1194.92,1372.73] read 1118.77<br>
[1082.07,1171.94]<br>
<br>
============================<br>
<br>
======= OST Survey ==========<br>
ost-survey -s 10000<br>
<br>
<br>
<br>
Worst  Read OST indx: 0 speed: 156.223264<br>
Best   Read OST indx: 4 speed: 172.706590<br>
Read Average: 163.681117 +/- 5.299526 MB/s<br>
Worst  Write OST indx: 4 speed: 307.893338<br>
Best   Write OST indx: 2 speed: 370.923486<br>
Write Average: 346.664793 +/- 20.849197 MB/s<br>
Ost#  Read(MB/s)  Write(MB/s)  Read-time  Write-time<br>
----------------------------------------------------<br>
0     156.223       354.215        64.011      28.231<br>
1     164.394       349.652        60.830      28.600<br>
2     162.195       370.923        61.654      26.960<br>
3     162.887       350.640        61.392      28.519<br>
4     172.707       307.893        57.902      32.479<br>
<br>
<br>
<br>
10x<br>
<br>
--lior<br>
<font color="#888888">--<br>
----------------------oo--o(:-:)o--oo----------------<br>
Lior Amar, Ph.D.<br>
Cluster Logic Ltd --> The Art of HPC<br>
<a href="http://www.clusterlogic.net" target="_blank">www.clusterlogic.net</a><br>
----------------------------------------------------------<br>
<br>
</font></div></div></div><br><br clear="all"><br>-- <br><div class="im">----------------------oo--o(:-:)o--oo----------------<br>Lior Amar, Ph.D.<br>Cluster Logic Ltd --> The Art of HPC<br><a href="http://www.clusterlogic.net" target="_blank">www.clusterlogic.net</a><br>


----------------------------------------------------------<br><br>
</div></div>
<br>_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>cliffw<div>Support Guy</div><div>WhamCloud, Inc. </div><div><a href="http://www.whamcloud.com" target="_blank">www.whamcloud.com</a></div><div><br></div><br>
</div>