トップエスイー修了制作 Hadoop MapReduce デザインパターンのカタログ化 日本ユニシス株式会社 横石 潔和 [email protected] Hadoop活用における問題点 カタログ化による解決 書籍「Hadoop MapReduce デザインパターン[1]」には MapReduceプログラムの設計テクニックがパターンとし て示されており、それを活用することで、品質の高い MapReduceプログラムを比較的容易に作成することが できる。しかし、パターンの適用シーンや、パターンを適 用することにより発生するメリット/デメリット等の情報 が未整理のまま記述されているため、パターンの適用 判断を容易に行うことが出来ない。 ・書籍に示されているパターンのカタログ化を行 い、パターン適用場面や適用による期待効果 の把握を容易にする。 ・パターンカタログを元に、パターン適用判断 チャートを作成し、複数あるパターンの適用判 断を漏れなく実施できるようにする。 適用判断チャート MapReduceプログラムの難しさ Map ノード メモリ Shuffle Reduce ★パフォーマンス影響大 ・ディスクアクセス頻度 ・データ保持形式 複数存在するパターンの適用判断をチャートすることで、「効 率の悪い組合せ」の選択を避ける ノード メモリ ソート処理 出力 入力 ディスク ノード 順不同な データ読出 負荷分散の 平準化 ノード ディスク ノード ★パフォーマンス影響大 ・ネットワーク流量 (中間データ量) ノード ・データのシリアライズ 例) Pairsパターンを適用する場合、inmapper conviningパターンを併用 しても効果が低い プログラムフレームワークが特異で、かつ、パフォーマンスを 意識したプログラム設計が求められる ⇒非常に難易度が高い パターンカタログ MapReduceプログラミングのパターン(テクニック)をカタログ 化しておくことで、適用場面の明確化やメリット/デメリットの 比較を容易にする 評価 未経験者の作成したMapReduceアプリケーションに対し、カタ ログ・チャートを利用してブラッシュアップを実施した結果、実 行効率を大きく改善することができた 参考文献 [1] Jimmy Lin, Cbris Dyer,玉川 竜司訳:Hadoop MapReduce デザ インパターン MapReduceによる大規模テキストデータ処理,株式会 社オライリージャパン,2011 国立情報学研究所 トップエスイー トップエスイー: サイエンスによる知的ものづくり教育プログラム National Institute of Informatics ~サイエンスによる知的のものづくり教育プログラム~ 文部科学省科学技術振興調整費 産学融合先端ソフトウェア技術者養成拠点の形成
© Copyright 2024 ExpyDoc