Hadoopのキャパシティプランニング

「新規開発システムにおいてHadoopを利用する場合、何台構成が必要か?
 またそのための計算式(定石)は何か?」

最近、それで悩んでいる。誰に聞いてもわからない。

とりあえず、一日で扱うデータ量が20TBであり、
Hadoopは1MR(=Map&Reduce)あたり、64MBのデータを扱えるとするならば、

SLA処理完了時間≧(1MR当たりの計算時間×(全データ量/MR単位量))/ノード数

という計算式が考えられる。
求めたい「ノード数」から考えるならば、

ノード数≧(1MR当たりの計算時間×(全データ量/MR単位量))/SLA処理完了時間

ということになる。
全データ量は、2TB
MR単位量は64MB。データ量は約150億件。
SLA処理完了時間(=その集計を何時間で終わらせて欲しいか?)は720分であるとした場合、
あとは「1MR当たりの計算時間」が求められれば結果が出せるが、
これがアプリケーションの仕様が未決であるため厳しい…。

「エイヤ!」で計算するならば、
64MB(データ150億件)をクイックソートする時間をMapにかかる時間として仮説として立てて、
クイックソート回数は、nlog2nだから、
150億log2 150億=2**16 × 16 = 1048576回がソート回数。
1クロックの時間=1/クロック周波数(=3GHz)=0.0003秒だから、
1MR当たりの計算時間=0.0003×1048576=約314.6秒
となる。

よって、ノード数は、
(314.6*(2TB/64MB))/(720*60)≒238.6

やく、239台のMapサーバが必要となる。。
これでいいのかいな??