Hadoop - トップエスイー

トップエスイー修了制作
Hadoop MapReduce デザインパターンのカタログ化
日本ユニシス株式会社
横石 潔和
[email protected]
Hadoop活用における問題点
カタログ化による解決
書籍「Hadoop MapReduce デザインパターン[1]」には
MapReduceプログラムの設計テクニックがパターンとし
て示されており、それを活用することで、品質の高い
MapReduceプログラムを比較的容易に作成することが
できる。しかし、パターンの適用シーンや、パターンを適
用することにより発生するメリット/デメリット等の情報
が未整理のまま記述されているため、パターンの適用
判断を容易に行うことが出来ない。
・書籍に示されているパターンのカタログ化を行
い、パターン適用場面や適用による期待効果
の把握を容易にする。
・パターンカタログを元に、パターン適用判断
チャートを作成し、複数あるパターンの適用判
断を漏れなく実施できるようにする。
適用判断チャート
MapReduceプログラムの難しさ
Map
ノード
メモリ
Shuffle
Reduce
★パフォーマンス影響大
・ディスクアクセス頻度
・データ保持形式
複数存在するパターンの適用判断をチャートすることで、「効
率の悪い組合せ」の選択を避ける
ノード
メモリ
ソート処理
出力
入力
ディスク
ノード
順不同な
データ読出
負荷分散の
平準化
ノード
ディスク
ノード
★パフォーマンス影響大
・ネットワーク流量
(中間データ量)
ノード
・データのシリアライズ
例)
Pairsパターンを適用する場合、inmapper conviningパターンを併用
しても効果が低い
プログラムフレームワークが特異で、かつ、パフォーマンスを
意識したプログラム設計が求められる
⇒非常に難易度が高い
パターンカタログ
MapReduceプログラミングのパターン(テクニック)をカタログ
化しておくことで、適用場面の明確化やメリット/デメリットの
比較を容易にする
評価
未経験者の作成したMapReduceアプリケーションに対し、カタ
ログ・チャートを利用してブラッシュアップを実施した結果、実
行効率を大きく改善することができた
参考文献
[1] Jimmy Lin, Cbris Dyer,玉川 竜司訳:Hadoop MapReduce デザ
インパターン MapReduceによる大規模テキストデータ処理,株式会
社オライリージャパン,2011
国立情報学研究所
トップエスイー
トップエスイー: サイエンスによる知的ものづくり教育プログラム
National Institute of Informatics
~サイエンスによる知的のものづくり教育プログラム~
文部科学省科学技術振興調整費
産学融合先端ソフトウェア技術者養成拠点の形成