並列データマイニング実行時の IP-SAN統合型PCクラスタ - 小口研究室

並列データマイニング実行時の
ÁÈ¹Ë Æ 統合型 È クラスタのネットワーク特性解析
明 日 香Ý
神 坂 紀 久 子ÝÝ
口 実 靖ÝÝÝ 小 口 正 人Ý
原
山
近年発達する情報化社会において、処理される情報量が爆発的に増大しており、その中からユーザ
が必要とする情報を高速に取り出すことが求められている。そこで膨大なデータを処理するために、
フロントエンドとバックエンドのネットワークを同一の ÁÈ ネットワークに統合した ÁÈ¹Ë Æ 統合型
È クラスタを構築した。ただしアプリケーション実行時にクラスタのノード間通信や Á»Ç がどのよ
うに振舞いシステム性能に影響を与えているのかなど詳しい解析は行われていない。そこで本研究で
は、複数 ÁÒ Ø ØÓÖ から単数 Ì Ö Ø にアクセスすることでネットワークおよび Ì Ö Ø に高負荷をか
けた環境において、相関関係抽出などのデータマイニングを実行し、システムのモニタを行い、解析
することによって、ÁÈ¹Ë Æ 統合クラスタの詳しい振舞を明らかにする。
Ò ÐÝ× × Ö Ø Ö ×Ø × Ó ÁÈ¹Ë Æ ÓÒ×ÓÐ Ø
È ÐÙ×Ø Ö Û Ò Ô Ö ÐÐ Ð Ø Ñ Ò Ò × Ü ÙØ
×Ù À Ö ¸ Ã Ù Ó Ã Ñ × ¸ Ë Ò Ý ×Ù
Ò Å × ØÓ Ç Ù
Ý
Ñ Ù
ÝÝ
Ý
ÁÒ Ø
Ò Ö
Ø ÐÝ
È
Ò ÓÖÑ Ø ÓÒ ×Ó
× ×
ÖÓÑ Ø
Ѻ ÁÒ ÓÖ
ÐÙ×Ø Ö Ø
Ø ÒØ
ÀÓÛ Ú Ö¸ Ø
Ó
ÚÝ ÐÓ
ÁȹË
Æ
Ò
×
Ú ÐÓÔ
ÓÒ×ÓÐ
¸ Û
Ø
× Ò Ð
Ð
È
Ø
Ù
ÒØ Ý
Ø ¸ Û
Ò
ÓÑÑÙÒ
Ø ÓÒ
Ø Ö
Ø
¹ Ò
ØÛ
Ö
Ø ÛØ
ÑÙÐØ ÔÐ
Ð Ö¬
ÔÖÓ
Ò ØÛÓÖ
¸ Ø
Ò Ø
Ò ØÛÓÖ
ÒØ
Ò
ØÓÖ׺ Ì
Ò ÐÞ
Æ
× Ñ
ÐÙ×Ø Ö
Ì Ö
Ø ÓÒ
×
Ü
ÙÖ
Ò
Ø
¹
Ø
ÁÈ Ò ØÛÓÖ º
Ø
Ø ×
Ø
Ø
ÓÒ×ÓÐ
Ò
Ô Ö ÐÐ Ð
¸ ×Ó Ø
Ó
Ò ÓÙØ ÑÑ
ÁȹË
ÔÔÐ
Ò
ÚÓÐÙÑ
Ø
ÒØÓ Ø
× Ó Ø
¸ Û
××
ØÓ
ÓÒ×ØÖÙ Ø
Ò ÒÓ
× Ö ×
×Ý×Ø Ñ × ÑÓÒ ØÓÖ
ÐÙ×Ø Ö ×
Ö׸ Ø
Ú
×Ý×Ø Ñ Ô Ö ÓÖÑ Ò
к Ì Ù׸ Ò Ø
×× Ò
ÙØ
××
Ò Ö
ÖÓÑ Ù× Ö× × Ö ÕÙ ×Ø
ÖÓÒع Ò
Ú ÓÖ Ó
Ø
Ý
Ü
Ø
ÓÛ Ø
× Ø
ÒÓØ Ô Ö ÓÖÑ
×
Ø
Ö ØÓ ÔÖÓ
Ö Ø
Ò ÐÝ× ×
Á»Ç Ò­Ù Ò
Ñ Ò Ò
ØÝ Ø
ÜÔÐÓ× Ú Ðݺ ÁÒ ÓÖÑ Ø ÓÒ Ö ÕÙ Ö
ÝÝÝ
××Ó
Ü
ÙØ ÓÒ
ÙØ
¸
×
ÛØ
Ø ÓÒ ÖÙÐ
Ð
Ú ÓÖ Ó
º
½º は じ め に
頻出アイテムセットから候補アイテムセットを生成し、
近年、発達する情報化社会では、データの蓄積と運
と、巨大なトランザクションデータベースから相関関
用が非常に重要になってきている。また、情報システム
係抽出に必要な情報をコンパクトに圧縮したデータ構
において処理されるデータ量が膨大になってきている。
造である
繰り返し数え上げを行っていく
ȹØÖ
ÔÖ ÓÖ
アルゴリズム
を利用することで候補パターンを生
ユーザにとって重要なデータが蓄積されているにも関
成せずに頻出パターンを抽出する
わらず、使いこなせていない場合が少なくない。そこ
リズムとがある。
ȹ ÖÓÛØ
アルゴ
でデータマイニングの中で、膨大なデータから有益な
パラメータの条件によっては相関関係抽出における
規則や関係を抽出する相関関係抽出に注目した。相関
計算量、データ処理量は非常に多くなるため、並列化
関係抽出のためのアルゴリズムとして代表的なものに、
が不可欠となる。大量の情報を高速に処理するために
は、分散メモリ型並列計算機の各ノードに汎用のパー
Ý お茶の水女子大学
Ç ÒÓÑ ÞÙ ÍÒ Ú Ö× ØÝ
´ÆÁ ̵
Æ Ø ÓÒ Ð ÁÒ×Ø ØÙØ Ó ÁÒ ÓÖÑ Ø ÓÒ Ò
Ì ÒÓÐÓ Ý
ÝÝ 情報通信研究機構
ÝÝÝ 工学院大学
ÃÓ Ù Ò ÍÒ Ú Ö× ØÝ
ソナルコンピュータとネットワークを用いた
ÓÑÑÙÒ Ø ÓÒ×
È
クラ
スタと、増大する情報量を蓄積するための技術として
登場した
Ë Æ´ËØÓÖ
Ö Æ ØÛÓÖ µ を併せて用い
ることが考えられる。
È
クラスタ上で上記の2つのアルゴリズムを実行
するためにはそれらのアルゴリズムを並列化しなけ
È
ればならない。
クラスタ上の環境でマイニング処
理を実行する並列相関関係抽出の研究は多数行われ
ている。その中で
ÔÖ ÓÖ
をベースとした並列相関関
¾º ÁÈ¹Ë Æ 統合型 È クラスタ
¾º½ È クラスタにおける Ë Æ の利用
近年、情報システムにおいて処理されるデータの量
係抽出のアルゴリズムはいくつか提案されているが、
が膨大になってきたことから、ストレージ分野におい
本研究ではハッシュ関数を使用して
てネットワークストレージ技術が発展し、サーバとス
する
トレージを結ぶネットワークである
ÔÖ ÓÖ を並列化
ÀÈ ´À × È ÖØ Ø ÓÒ ÔÖ ÓÖ µ を用い、 ȹ
ÖÓÛØ の並列相関関係抽出アルゴリズムは ÀÈ を
元に行われた既存研究で提案された È È´È Ö ÐÐ Ð Þ
ȹ ÖÓÛØ µ を用いる。
通常 Ë Æ を用いた È クラスタではノード間通信
を行うフロントエンドは Ä Æ,ストレージアクセス
を行うバックエンドは Ë Æ でネットワーク接続され
ている。これに対し我々は、ネットワーク構築コスト
と管理コストの削減を目指し、フロントエンドとバッ
クエンドのネットワークを同じ
合した
ÁÈ¹Ë Æ 統合型 È
ÁÈ ネットワークに統
クラスタの実現を検討し
ている。
ÀÈ
Ë Æ が登場して、
È クラス
分野では、
タの記憶装置において、計算ノード−ストレージ間の
Ë Æ を用いることが
Ë Æ は、分散したストレージをネッ
バックエンドのネットワークに
多くなっている。
トワークで統合し、集中管理とディスク資源の効率的
な活用を可能にしている。
½ は、Ë Æ を用いて構築した È クラスタの例
Ë Æ としては、高速な専用回線である
Ö
ÒÒ Ð を用いる ¹Ë Æ が普及している。
一般に、ディスクへの Á»Ç 処理を行うストレージア
図
である。現在、
クセスはノード間通信と比べてバースト性が高く、転
これまで使用してきたクラスタの実験においては、
ネットワークに比べてローカルストレージの帯域幅が
狭いため、
普及するようになった。
ÁÈ¹Ë Æ 統合型 È
クラスタの性能が低
´
レージ間のバックエンドには高速な
ることが多い。しかし
¹Ë Æ では、 用のスイッ
È クラスタに導入して管
下しないことが分かった。そこで、我々は以前より高
チが高価であることなど、
性能なストレージ
理するにはコスト面で障害がある。
´Ë Ì ディスクと Ê Á ¼ 構成の
Ë Ë ディスクµ を導入した ÁÈ¹Ë Æ 統合型 È クラ
スタを新たに構築し、ÀÈ アルゴリズムと È È ア
ルゴリズムをそれぞれローカルデバイスを用いた È
クラスタおよび ÁÒ Ø ØÓÖ と Ì Ö Ø を ½ 対 ½ 接続し
た ÁÈ¹Ë Æ 統合型 È クラスタ上で実行した。そして
Client
LLAANN
Server
その実行時間を測定し、そのときのネットワークトラ
ÈÍ 使用率、メモリ使用率などのモニタを
行った。その結果、ÀÈ においてはどのクラスタも
実行時間はほとんど変わらず、È È においては基本
性能測定で格段に性能が良かった Ë Ë ディスクを用
いた È クラスタの実行時間が必ずしも短くないこと
µ
¹Ë Æ を用い
送データ量が多いため、計算ノード サーバ −スト
フィック、
SSAANN
Storage
図
½
Ë Æ を用いた È
がわかった。また、ネットワークトラフィックのモニ
クラスタ
Client
タリングから、どちらのアルゴリズムにおいてもどの
クラスタもネットワークの帯域にはまだ余裕があり、
Ë ËÁ を用いた場合も、 Ë ËÁ のトラフィックはネッ
LAN&SAN
LAN&SAN
トワークにはあまり大きな影響を与えていないことが
分かった。
Ë ËÁ の一般的は用いられ方としては、数台の ÁÒ ¹
Ø ØÓÖ が ½ 台の Ì Ö Ø に対しアクセスする形が多いと
考えられる。そこで、本研究では、ÁÒ Ø ØÓÖ と Ì Ö Ø
の接続台数を変化させ、これまでよりよりネットワー
ÁÈ¹Ë Æ 統合型 È
クに高負荷をかけたときの、
スタの振舞を観察し、解析を行っていく。
クラ
Server (Initiator)
Storage (Target)
図
¾
ÁÈ¹Ë Æ 統合型 È
クラスタ
ÁÈ¹Ë Æ は、Ì È»ÁÈ ネットワークで構築する次世
Ë Æ である。図 ½ に示すように、 を用いて構
Ë Æ に代わり、バックエンドのネット
ワークを ÁÈ¹Ë Æ で構築することにより、安価なコス
トで È クラスタのストレージを導入、運用が出来る。
Ø Ø ÖÒ Ø»½¼
Ø Ø ÖÒ Ø が広く
今後、
普及していくであろうことを考慮すると、ÁÈ¹Ë Æ を
バックエンドに持つ È クラスタが使用されるように
代の
ドのネットワークを個々に構築する非統合型と比較し
築する従来の
て、並列分散処理実行時のネットワークへの負荷が懸
念される。例えば、ノード間通信とストレージアクセ
スで同じネットワークリソースを使用するため、互い
に衝突する可能性がある。その結果、ストレージアク
セスのバルクデータにより並列計算のためのノード間
通信が多大な影響を受け、全体の性能が劣化する可能
性が推測される。従って、バックエンドネットワーク
なると考えられる。
¾º¾ ÁÈ¹Ë Æ 統合型 È クラスタと性能への懸念
¾
´
µ
我々は、図 に示すように、計算ノード サーバ −
ストレージ間のバックエンドネットワークを、ノード
間を接続するフロントエンドに統合した Ë ËÁ 接続の
ÁÈ¹Ë Æ 統合型 È クラスタを提案し、評価を行って
いる。 Ë ËÁ´ÁÒØ ÖÒ Ø Ë ËÁµ は、¾¼¼¿ 年 ¾ 月に Á Ì
により正式認証された ÁÈ¹Ë Æ のプロトコルであり、
Ë ËÁ コマンドを Ì È»ÁÈ パケットの中にカプセル化
することでブロックレベルのデータ転送を行う。 Ë ËÁ
の階層構造は、図 ¿ のようになっている。
をフロントエンドネットに統合した
È
クラスタは、非統合型
È
ÁÈ¹Ë Æ 統合型
クラスタと比較して、
統合がどの程度性能に影響を及ぼすかを評価する必要
がある。
¿º 相関関係抽出とその並列化
相関関係抽出では、巨大なデータから有益な規則性
や関係を抽出するために、あるパターンが現れる頻度
´サポート値µ を調べる。その頻度が多ければ、そのパ
ターンから得られる関係は有意義なデータとなり、販
売戦略などに活用出来る。
相関関係抽出で扱うデータはしばしば巨大であるた
Initiator(Server)
Target(Storage )
Application
め、データベースを分散し計算処理を並列化して、多
数台のコンピュータをネットワークで接続した
File System
È
ク
ラスタなどの環境でマイニング処理を実行する並列相
Block/Char device
SCSI Driver
SCSI Driver
iSCSI Driver
iSCSI Driver
TCP
TCP
抽出の代表的な
½ 。以下に相関関係
¾ つのアルゴリズムの概要を説明し、
本研究で用いる並列化アルゴリズムを紹介する。
IP
IP
関関係抽出の研究が行われている
Ethernet Driver
Ethernet Driver
Ethernet
Ethernet
¿º½
½
ÔÖ ÓÖ アルゴリズム
Ö Û Ð らによって提案されたもので、
年に
発見された頻出アイテムセットから候補アイテムセッ
IP-SAN
図
¿
トを生成し、繰り返し数え上げを行っていくアルゴリ
Ë ËÁ の階層構造
Ë Æ を使用した È クラスタでは、一般にフロン
トエンド Ä Æ とバックエンド ÁÈ¹Ë Æ が別々になっ
ているため、¾ つの異なるネットワークの構築が必要
になる。これに対し、ÁÈ¹Ë Æ 統合型 È クラスタで
は、 Ë ËÁ を使用することで、双方のネットワークを
Ì È»ÁÈ と Ø ÖÒ Ø を用いたコモディティなネット
ワークに統一することができる。それにより、ネット
ワーク構築コストの削減と運用管理の効率化が可能と
なる。
¾ 。まず ½ 回目のデータベーススキャン
½ の頻出 ½ アイテムセットを抽出し、それらを
元に長さ ¾ の候補 ¾ アイテムセットを生成する。次に
¾ 回目のデータベーススキャンで候補 ¾ アイテムセッ
トから頻出 ¾ アイテムセットを抽出する。これを候補
ズムである
で長さ
アイテムセットが生成されなくなるまで繰り返してい
くことで、頻出パターンをすべて発見していくアルゴ
リズムである。
ÔÖ ÓÖ
アルゴリズムには、候補アイテムセットを
格納するために大容量のメモリが必要となる、何度も
ÁÈ¹Ë Æ 統合型 È
しかし、
クラスタは、フロントエ
ンドにおけるノード間通信とバックエンドのストレー
Ì È»ÁÈ ÓÚ Ö
ジアクセスにおけるバルクデータが、
Ø ÖÒ Ø である同一のネットワーク経由で混在して
転送される。そのため、フロントエンドとバックエン
繰り返しデータベースをスキャンする可能性があると
いった問題点がある。
ÔÖ ÓÖ
をベースにした並列相関関係抽出のアルゴ
リズムはいくつか提案されているが、本研究ではハッ
ÔÖ ÓÖ を並列化する ÀÈ ´À ×
ÔÖ ÓÖ µ ¿ を用いる。
シュ関数を使用して
È ÖØ Ø ÓÒ
¿º¾
ȹ ÖÓÛØ アルゴリズム
º 研究概要
¾¼¼¼ 年に À Ò らによって提案されたもので、巨大
º½ 既 存 研 究
なトランザクションデータベースから相関関係抽出に
必要な情報をコンパクトに圧縮したデータ構造である
ȹØÖ
を利用している
。候補パターンを生成せず
に頻出パターンを抽出することで、
ÔÖ ÓÖ
アルゴリ
ズムの問題点を改善したアルゴリズムである。
ȹØÖ
我々は、フロントエンドとバックエンドのネットワー
クを同じネットワークに統合することで、ノード間通
信とストレージアクセスが互いに衝突するため、全体
の性能が劣化する可能性があるのではないかと考えた
½
は次のように構築される。 回目のデータ
ベーススキャンで、各アイテムのサポート値を求め、
頻出アイテムを抽出する。抽出された頻出アイテムを
サポート値により、頻度が降順になるように並び替え
´これを ¹Ð ×Ø とするµ、空 ´ÒÙÐе のラベルを持つ木の
´
Ì とするµ する。¾ 回目のデータ
ベーススキャンで、 ¹Ð ×Ø に従ってトランザクション
から頻出アイテムを抽出し、ソートする。Ì が ¹Ð ×Ø
ルートを作成 これを
の要素である子を持っていれば、その子のカウントを
½ 増やし、持っていなければ、新しくカウント ½ を持
¹Ð ×Ø の最後までこの操作を繰り返す。
ȹØÖ の構造例を図 に示す。
つ子を作る。
で述べた実験においては、性能が劣化しな
が、文献
È クラス
Ë ËÁ ディスクを用
いている。各 È は ÈÍ が È ÒØ ÙÑ ½º ÀÞ、メイ
´ ÓÖ
ンメモリが ¿ Å 、ÇË が Ä ÒÙÜ ¾º º ¹½
ÓÖ ¿µ である。そこでネットワーク越しにストレー
ジへアクセスする ÁÈ¹Ë Æ を使いながらも性能が落ち
いということがわかった。この実験に用いた
タの各ノードはデータ領域として
なかった原因を解明するため、ノード間通信とネット
ワークストレージアクセスを並行して複数のプロセス
により動作させ、ネットワークに高負荷をかけ、性能
への影響を評価した
。その結果、ネットワークと
比較してローカルストレージの帯域幅が低いことなど
によりネットワーク帯域に余裕があるため、
TID
Items
Frequent Items
100
f,a,c,d,g,i,m,p
c,f,a,m,p
200
a,b,c,f,l,m,o
c,f,a,b,m
300
b,f,h,j,o
f,b
400
b,c,k,s,p
c,b,p
500
a,f,c,e,l,p,m,n
item
frequency
c
4
f
4
a
3
b
3
m
3
p
3
図
ȹ ÖÓÛØ
統合型
È
ÁÈ¹Ë Æ
クラスタの性能が落ちないということが分
かった。
これらの実験を踏まえ、アクセス性能が良いとされ
root
c,f,a,m,p
c:4
f:1
f:3
b:1
a:3
p:1
Ë Ë ディスクを用い、データの読み書きを高速化
する Ê Á ¼ 構成とすることで、以前の実験環境より
もストレージ性能を強化した新しい ÁÈ¹Ë Æ 統合型
È クラスタを構築した。これにはクラスタの構築・
管理ツールである ÊÓ × を用いた。
る
b:1
head
新しく構築した環境において、並列相関関係抽出ア
ルゴリズムをローカルデバイスを用いた
m:2
b:1
および
ÁÈ¹Ë Æ 統合型 È
È
クラスタ
クラスタ上でそれぞれ実
行し、実行時間を測定し、その時の通信状況をモニタ
p:2
ȹØÖ
は構築された
m:1
の構造例
ȹØÖ
リングツールである
ÒÐ
を用いてネットワー
ク使用率、メモリ使用率をモニタリングした
の性質を利用す
の結果、
ÀÈ
½¼ 。そ
においてはどのクラスタにおいても性
ゴリズムは、本研究では
È È においてはベンチマー
Ë Ë ディスクを用いたク
ラスタの性能がやや劣るということ、ÁÈ¹Ë Æ のトラ
究
フィックを統合してもネットワークの帯域にまだ十分
ることにより、頻出パターンを発見していくアルゴリ
ズムである。
ȹ ÖÓÛØ
の並列相関関係抽出のアル
ÀÈ を元に行われた既存研
で提案された È È´È Ö ÐÐ Ð Þ
ȹ ÖÓÛØ µ を
用いる。
ȹ ÖÓÛØ
アルゴリズムは
ÔÖ ÓÖ
ȹØÖ
が巨大になってし
まう可能性のある点が問題である。
クで格段に性能が良かった
余裕があることが分かった。
アルゴリズム
と比較して極めて高速であると言われている。ただし
データの性質によっては、
能はほとんど変わらず、
º¾ 複数台 ÁÒ Ø ØÓÖ による Ì Ö Ø アクセス
ÁÈ¹Ë Æ 統合型 È ク
ÁÒ Ø ØÓÖ と Ì Ö Ø を ½ 対 ½ 接続していた
が、 Ë ËÁ の用いられ方を考えると、数台の ÁÒ Ø ØÓÖ
が ½ 台の Ì Ö Ø にアクセスする形が一般的であると
考えられる。その際には Ì Ö Ø およびその接続ネッ
これまでの実験においては、
ラスタの
Á»Ç をモニタリングした。実験には 台の È を
Ø Ø ÖÒ Ø で接続した È クラスタを用いる。
ÁÈ¹Ë Æ を用いる場合には、 Ë ËÁ Ì Ö Ø 用の È が
もう 台接続されている。 Ë ËÁ ÁÒ Ø ØÓÖ È として、
ÈÍ が ÁÒØ Ð ÓÒ ¿º ÀÞ、メインメモリが
、
À が ¾ ¼ Ë Ì 、ÇË が Ä ÒÙÜ ¾º º½ ´ ÒØÇË
º µ、 Ë ËÁ Ì Ö Ø È として、 ÈÍ がクアッドコア
ÁÒØ Ð ÓÒ ½º ÀÞ、メインメモリが ¾ 、À が
¿ Ë Ë × ¾、ÇË が Ä ÒÙÜ ¾º º½ ´ ÒØÇË º µ
であるマシンを使用した。また、 Ë ËÁ の ÁÒ Ø ØÓÖ
として ÓÔ Ò¹ × × ¹¾º¼¹
½¾ 、 Ì Ö Ø として Ë ËÁ
ÒØ ÖÔÖ × Ì Ö Ø´Á ̵¹¼º º½ ½¿ を使用した。
Ì Ö Ø における ÁÒ Ø ØÓÖ からのアクセスの合計ス
ト
トワークにトラフィックが集中し、高い負荷がかかる。
そこで本研究では、既存研究で構築したストレージ性
能を強化した
È
クラスタ上で、よりネットワークに
高負荷がかかる環境を作り、並列相関関係抽出のアル
ゴリズムをローカルデバイスを用いた
よび
ÁÈ¹Ë Æ 統合型 È
È
クラスタお
クラスタ上でそれぞれ実行
ÒÐ
する。その時の通信状況を
ÁÈ¹Ë Æ 統合型 È
を用いて観察する
クラスタの動作解析を行
ことで、
ÁÒ Ø ØÓÖ と Ì Ö Ø
Ò 対 ½ で接続させることでネットワークに高負荷を
う。具体的には以下の図のように
を
かける。
master
node
master
node
ループットを図
Gigabit
Ethernet
Switch
SAS
(RAID0)
SAS
(RAID0) ・・・・・
・・・・・
Initiator
(Server)Target
(Storage)
ÁÒ Ø ØÓÖ 対 Ì Ö Ø ½ 対 ½
図
に示す。
Gigabit
Ethernet
Switch
250
Initiator Target
(Server)(Storage)
200
ÁÒ Ø ØÓÖ 対 Ì Ö Ø ¾ 対 ½
図
150
MB/S
read
100
write
50
master
node
master
node
0
Gigabit
Ethernet
Switch
local
Gigabit
Ethernet
Switch
Initiator
(Server)
Target
(Storage)
ÁÒ Ø ØÓÖ 対 Ì Ö Ø
図
図
SAS
(RAID0)
SAS
(RAID0)
対
½
Initiator
(Server)
図
Target
(Storage)
ÁÒ Ø ØÓÖ 対 Ì Ö Ø
対
1 1
2 1
4 1
8 1
ÓÒÒ ··による Ë ÕÙ ÒØ Ð Ö アクセスと
Ë ÕÙ ÒØ Ð ÛÖ Ø アクセスの実行結果
½
この結果から、まずローカルアクセスと
Ë ËÁ ア
ÛÖ Ø が極めて速い
Ë ÁË ÛÖ Ø はその半分以下に留まってい
と比較して Ë ËÁ Ö
はその
るが、ローカル Ö
¾»¿ 近い性能が出ている。また、Ë ÕÙ ÒØ Ð Ö ア
クセスの場合においては、½ 対 ½、¾ 対 ½、 対 ½、
対 ½ のどの場合においても合計スループットは殆んど
変わらず、Ë ÕÙ ÒØ Ð ÛÖ Ø アクセスの場合において
は、½ 対 ½、¾ 対 ½、 対 ½、 対 ½ と負荷を高くして
クセスを比較した結果、ローカル
º 実験結果と考察
º½
ことから、
ÓÒÒ ··
ÁÒ Ø ØÓÖ と Ì Ö Ø を ½ 対 ½、¾ 対 ½、
まず、
½
対 、
½ でそれぞれ接続することで、ネットワークに高
Ë Ë ディスク
´Ê Á ¼ 構成µ であるローカルデバイス、Ë Ë ディスク
´Ê Á ¼ 構成µ を Ì Ö Ø ストレージとして接続させた
Ë ËÁ のストレージについて、ハードディスクベンチ
マークツールの ÓÒÒ ·· ½½ を用いて、Ë ÕÙ ÒØ Ð
Ö アクセスと Ë ÕÙ ÒØ Ð ÛÖ Ø アクセスを測定し
対
負荷をかけた環境を構築した。そこで、
た。プラットフォームとしては、ローカルデバイスを
用いた
È
クラスタおよび
ÁÈ¹Ë Æ 統合型 È
クラ
スタで実行し、実行時間をそれぞれ測定して、そのと
きのネットワークトラフィック、
ÈÍ 使用率、パケッ
いくごとにスループットがやや低下するということが
わかる。
½¼ に各接続方式における ÁÒ Ø ØÓÖ のネットワー
クトラフィック、図 ½½ に各接続方式における Ì Ö Ø
図
のネットワークトラフィックを示す。
こ れ れ の 結 果 か ら 、ど の 場 合 に お い て も 最 大
¼Å ÝØ ×»× ´約 ¼¼Å Ô×µ のトラフィックしか流れ
Initiator
図
Target:1
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:8
1
½¼
各接続方式における
のネットワークトラフィック
ÁÒ Ø ØÓÖ
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:8
1
図
½½
各接続方式における
のネットワークトラフィック
図
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:8
1
½¾
図
各接続方式における
½¿
ÁÒ Ø ØÓÖ の ÈÍ 使用率
各接続方式における
Ì Ö Ø の ÈÍ 使用率
ÌÖ Ø
Ø Ø ÖÒ Ø を使用して
実行時間に比べて待ち時間が長く、ストレージアクセ
½
Ì Ö Ø が処理するデータ量が ½ 対
½、¾ 対 ½、 対 ½、 対 ½ と負荷を高くしていくごと
ÈÍ 処理にはまだ余裕があると言える。
これに対し、図 ½¿ に示された Ì Ö Ø の ÈÍ の待ち
時間もそれに伴い長くなっている。パケット Á»Ç の結
果から、パケット Á»Ç は最大限に行われており、これ
に増加していくため、処理時間が長くなっているが、
がボトルネックとなっていると考えれる。
ておらず、本実験では
いるため、ネットワーク帯域にはまだ余裕があること
がわかる。 台の
図
½½ に示されるように Ì Ö Ø のネットワークトラ
スのための
Ë ÕÙ ÒØ Ð Ö
おいては、½ 対 ½、¾ 対 ½、 対 ½、
以上の結果から、
アクセスの場合に
図
½
Ë ÕÙ ÒØ Ð ÛÖ Ø
アクセスの場合においては、½ 対 ½、¾ 対 ½、 対 ½、
対 ½ と負荷を高くしていくごとにスループットが低下
率、図
するということがわかった。ネットワークにはまだ余
フィックの最大値はどの場合もほぼ一定であり、ネッ
トワークにはそれ以上の負荷はかかっていないことが
わかる。
½¾ に各接続方式における ÁÒ Ø ØÓÖ の ÈÍ 使用
½¿ に各接続方式における Ì Ö Ø の ÈÍ 使用
率を示す。また、図 ½ に各接続方式における ÁÒ Ø ØÓÖ
のÈ
Ø Á»Ç、図 ½ に各接続方式における Ì Ö Ø
のÈ
Ø Á»Ç を示す。
ÈÍ 使用率の結果から、ÁÒ Ø ØÓÖ と Ì Ö Ø のどち
らとも、負荷が高くなるにつれて実行時間が長くなり、
Ì Ö Ø にアクセスが集中した場合においても ÈÍ は
対 のどの場合に
おいてもスループットは変わらず、
ÈÍ も待ち時間が長い状態であるが、パ
ケット Á»Ç がボトルネックとなり、Ì Ö Ø にアクセ
スを集中させた場合の Ë ÕÙ ÒØ Ð ÛÖ Ø アクセスの性
裕があり、
能が低下していると考えられる。
300
250
Initiator
Target:1
1
200
1M
(S) 150
Initiator
Target:2
2M
4M
100
1
8M
50
0
Initiator
Target:4
local
1
図
Initiator
図
½
各接続方式における
Target:8
ÁÒ Ø ØÓÖ の Ô
½
1 1
2 1
各接続方式における
4 1
ÀÈ
8 1
の実行時間
40
1
Ø Á»Ç
35
30
25
Initiator
Target:1
1M
(S) 20
2M
15
4M
1
8M
10
5
Initiator
Target:2
0
1
local
図
Initiator
Target:4
½
1 1
2 1
各接続方式における
4 1
8 1
È È の実行時間
1
ÁÒ Ø ØÓÖ と Ì Ö Ø のネットワークト
ラフィックをそれぞれ図 ¾¼ と図 ¾½ に示す。
続方式における
Initiator
図
½
Target:8
各接続方式における
Ì Ö ØのÔ
1
Ø Á»Ç
これらの結果から、どちらのアルゴリズムにおいて
もネットワークの帯域にはまだ余裕があることがわ
かる。
º¾ 並列データマイニング
ÓÒÒ ··と同様に、ÁÒ Ø ØÓÖ と Ì Ö Ø を ½ 対 ½、
¾ 対 ½、 対 ½、 対 ½ でそれぞれ接続することで、ネッ
トワークに高負荷をかけた環境を構築した。そこで、
ÀÈ
È È アルゴリズムの並列化プロ
グラムについて、アイテム数を ½¼¼¼ とし、トランザ
クション数が ½Å、¾Å、 Å、 Å のトランザクショ
ンデータを用い、最小サポート値を ¼º %として実行
した。プラットフォームとしては、先の ÓÒÒ ··実
アルゴリズムと
験時と同じ環境を用いた。
図
½
に
ÀÈ
アルゴリズム、図
½
に
È È アルゴ
リズム実行時の各クラスタにおける実行時間を示す。
この結果から、
ÀÈ
È È どちらのアルゴリズムに
、
おいても、どのクラスタにおいても実行時間はほとん
ど変わらないことがわかる。
ÀÈ アルゴリズム実行時の各接続方式における ÁÒ ¹
Ø ØÓÖ と Ì Ö Ø のネットワークトラフィックをそれぞ
れ図 ½ と図 ½ に、È È アルゴリズム実行時の各接
Ë ËÁ を用いた場合も、 Ë ËÁ のトラフィック
はネットワークにあまり大きな影響を与えていない。
バックエンドネットワークをフロントエンドネットに
統合してもネットワークの帯域を使い切ることはな
ÁÈ¹Ë Æ 統合型 È
く、
わかる。
クラスタが有効であることが
ÀÈ アルゴリズム実行時の各接続方式における ÁÒ ¹
Ø ØÓÖ の ÈÍ 使用率とメモリ使用率をそれぞれ図 ¾¾
と図 ¾¿ に、È È アルゴリズム実行時の各接続方式に
おける ÁÒ Ø ØÓÖ の ÈÍ 使用率とメモリ使用率をそれ
ぞれ図 ¾ と図 ¾ に示す。また、ÀÈ アルゴリズム
実行時の各接続方式における ÁÒ Ø ØÓ と Ì Ö Ø のパ
ケット Á»Ç をそれぞれ図 ¾ と図 ¾ に、È È アルゴ
リズム実行時の各接続方式における ÁÒ Ø ØÓ と Ì Ö Ø
のパケット Á»Ç をそれぞれ図 ¾ と図 ¾ に示す。
これらの結果から、ÀÈ においては何回もデータ
ベーススキャンを繰り返し行うため、ÁÒ Ø ØÓÖ の ÈÍ
使用率が高くなっており、同時にパケット Á»Ç の量も
多くなっていることがわかる。È È においては、計
図
Initiator
Target:1
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:8
1
½
ÀÈ
図
各接続方式におけるの
実行時の
のネットワークトラフィック
ÁÒ Ø ØÓÖ
È È
各接続方式における
実行時の
のネットワークトラフィック
ÁÒ Ø ØÓÖ
Initiator
Target:1
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:8
1
½
図
ÀÈ
図
各接続方式における
実行時の
のネットワークトラフィック
ÌÖ Ø
算量が少ないため、あまり
れておらず、パケット
ÁÒ Ø ØÓÖ の ÈÍ が使わ
Á»Ç も少ないことがわかる。ま
Ì Ö Ø の ÈÍ はほと
た、どちらの場合においても、
んど使用されていない。
以上の結果から、
ÀÈ
È È アル
ÁÈ¹Ë Æ 統合型
アルゴリズムと
ゴリズムのどちらの場合においても、
È
¾¼
クラスタにおいて
Ì Ö Ø にアクセスを集中させ
ÌÖ Ø
ÁÈ¹Ë Æ 統合型 È
クラスタ
はどちらのプログラムを実行させたときでも有効であ
Ë ËÁ に関しては複数台の ÁÒ Ø ØÓÖ を ½
Ì Ö Ø に接続しても性能が落ちていないため、
ÁÈ¹Ë Æ 統合型 È クラスタの柔軟なシステム構成を
ると言え、
台の
実現することが可能である。
º まとめと今後の課題
ÔÖ ¹
ログラム、
ノード間通信やストレージアクセスといった処理だけ
行時間を測定して、その時のネットワークトラフィッ
を統合してもネットワークの帯域にまだ十分余裕があ
ることがわかった。これらは、今回使用した
ÀÈ
のプ
È È プログラムどちらの場合においても、
ÓÖ
本研究では、相関関係抽出アルゴリズムである
ÀÈ と ȹ ÖÓÛØ の並列
È È を、ローカルデバイスを用いた
È クラスタおよびネットワークに高負荷をかけた Áȹ
Ë Æ 統合型 È クラスタにおいてそれぞれ実行し、実
ングにより、今回の実験では
ÁÈ¹Ë Æ のトラフィック
È È
各接続方式における
実行時の
のネットワークトラフィック
えられる。したがって、
た場合の性能はほとんど変わらないということがわ
かった。また、ネットワークトラフィックのモニタリ
¾½
の並列化アルゴリズム
化アルゴリズム
間通信とストレージアクセスを行うパケットの衝突が
ク、 ÈÍ 使用率、パケット Á»Ç をモニタリングした。
ÁÒ Ø ØÓÖ と Ì Ö Ø を Ò 対 ½ に接続することで、ネッ
ネットワーク上であまり起こることがないためだと考
トワークに高負荷を与えた。ハードディスクベンチ
でなく、これは計算処理が主に行われており、ノード
図
図
Initiator
Target:1
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:8
1
¾¾
図
各接続方式における
実行時の
ÀÈ
ÁÒ Ø ØÓÖ の ÈÍ 使用率
¾
各接続方式における
実行時の
È È
ÁÒ Ø ØÓÖ の ÈÍ 使用率
Initiator
Target:1
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:8
1
¾¿
図
各接続方式における
実行時の
ÀÈ
ÁÒ Ø ØÓÖ のメモリ使用率
Ë ÕÙ ÒØ Ð Ö アクセスの場合
においては、½ 対 ½、¾ 対 ½、 対 ½、 対 ½ のどの
場合においてもスループットは変わらず、Ë ÕÙ ÒØ Ð
ÛÖ Ø アクセスにおいては、½ 対 ½、¾ 対 ½、 対 ½、
対 ½ と負荷を高くしていくごとにスループットが低下
マークの結果から、
することがわかった。また、ネットワークトラフィッ
ÈÍ 使用率、パケット Á»Ç のモニタリングから、
ÈÍ は待ち
時間が長くなっていることから、パケット Á»Ç の部分
がボトルネックとなり、Ë ÕÙ ÒØ Ð ÛÖ Ø アクセスに
¾
各接続形式における
実行時の
È È
がわかった。並列データマイニングにおいては、ノー
ド間通信やストレージアクセスといった処理だけでな
く、計算処理が多く行われており、ノード間通信とス
トレージアクセスを行うパケットの衝突がネットワー
ク上であまり起こることがないためだと考えられる。
そのため並列データマイニング実行時には、我々が提
ÁÈ¹Ë Æ 統合型 È
ク、
案している
ネットワーク帯域にはまだ余裕があり、
ると言える。
おいては、性能が少し劣化することがわかった。
それに伴い、並列データマイニングを実行させた際
ÁÈ¹Ë Æ 統合型 È
も高負荷を与えた場合において、
クラスタの性能が低下することが予想されたが、本研
究の実験結果からネットワークに高負荷を与えた場合
ÁÈ¹Ë Æ 統合型 È
においても、
クラスタは並列デー
タマイニングの実行で良好な性能を発揮していること
ÁÒ Ø ØÓÖ のメモリ使用率
クラスタは有効であ
ÇË
今後は、他の様々なプログラムなどを実行させ、
に対してカーネルモニタの導入などを行うことで、更
なる
ÁÈ¹Ë Æ 統合型 È
クラスタの詳細な振る舞い
を解析し、最適化などを行っていきたい。
謝
辞
本研究は一部,文部科学省科学研究費特定領域研究
課題番号
½ ¼ ¼½¿ によるものである.
図
図
¾
¾
Initiator
Target:1
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:8
1
ÀÈ
ÁÒ Ø ØÓÖ のパケット Á»Ç
¾
各接続方式における
の実行時の
È È
ÁÒ Ø ØÓÖ のパケット Á»Ç
Initiator
Target:1
1
Initiator
Target:1
1
Initiator
Target:2
1
Initiator
Target:2
1
Initiator
Target:4
1
Initiator
Target:4
1
Initiator
Target:8
1
Initiator
Target:8
1
各接続方式における
の実行時の
ÀÈ
Ì Ö Ø におけるパケット Á»Ç
参
½µ
図
各接続方式における
の実行時の
考 文
献
福田剛志、森本康彦、徳山剛志 データマイニン
グ 共立出版
¸
¾µ ʺ Ö Û Ð¸ ̺ ÁÑ Ð Ò× ¸ º ËÛ Ñ Å Ò Ò
××Ó Ø ÓÒ ÊÙÐ × Å Ò Ò ØÛ Ò Ë Ø× Ó
ÁØ Ñ× Ò Ä Ö
Ø
׸ ÁÒ ÈÖÓ Ò × Ó
Ø ÁÒØ ÖÒ Ø ÓÒ Ð ÓÒ Ö Ò ÓÒ Î ÖÝ Ä Ö
Ø × ×¸ÔÔº ¹ ¸½ º
¿µ 小口正人、喜連川優 ÌÅ 結合 È クラスタに
おける動的リモートメモリ利用方式を用いた並列
データマイニングの実行 電子情報通信学会論文
誌
年
月
¸
¸ÎÓк ¹ ¹Á¸ ÆÓº ¸ ÔÔº½¿¿ ¹½¿ ¸ ¾¼¼½
µ º À Ò¸ º È ¸ Ò º Ò Å Ò Ò Ö ÕÙ ÒØ
È ØØ ÖÒ× Û Ø ÓÙØ Ò Ø Ò Ö Ø ÓÒ¸ Å
ËÁ ÅÇ ¾¼¼¼¸ÔÔº½¹½¾¸Å ݾ¼¼¼
µ Á Ó ÈÖ ÑÙ ÓÒÓ Ò Å × ÖÙ Ã×ÙÖ Û
ÌÖ ×ØÖÙ ØÙÖ × È Ö ÐÐ Ð Ö ÕÙ ÒØ È Ø¹
図
µ
¾
各接続方式における
の実行時の
È È
Ø ÖÒ Å Ò Ò ÓÒ È ÐÙ×Ø Ö¸
¿ ¸Ë ÔØ Ñ Ö ¾¼¼¿
¾¼¼¿¸ÔÔº ¿ ¹
原明日香、神坂紀久子、小口正人 並列相関関係
抽出実行時の
統合型
クラスタの特
性評価 分散、協調とモバイル
シンポジウム
年 月
神坂紀久子、山口実靖、小口正人
統合
型
クラスタにおける複数プロセスによる同時
アクセス時の性能評価 分散、協調とモバイル
シンポジウム
年 月
¸
µ
Ì Ö Ø におけるパケット Á»Ç
È
ÁÈ¹Ë Æ
¸¾¼¼
È
´ Á ÇÅǾ¼¼ µ
ÁÈ¹Ë Æ
¸
´ Á ÇÅǾ¼¼ µ
¸¾¼¼
µ ÊÓ × ÐÙ×Ø Ö ØØÔ »»ÛÛÛºÖÓ × ÐÙ×Ø Ö׺ÓÖ »
µ Ò Ð × ÅÓÒ ØÓÖ Ò ËÝ×Ø Ñ ØØÔ »»ÛÛÛº Ò Ð º Ò Ó»
½¼µ 原明日香、神坂紀久子、山口実靖、小口正人 Áȹ
Ë Æ 統合型 È クラスタにおける並列相関関係
抽出実行時のシステム特性解析 ¸ データ工学ワー
クショップ ´
Ï˾¼¼ µ¸¾¼¼ 年 ¿ 月
½½µ ÓÒÒ ·· ØØÔ »»ÛÛÛº Ó Öº ÓѺ Ù» ÓÒÒ ··»
½¾µ ÇÔ Ò¹ Ë ËÁ ØØÔ »»ÛÛÛºÓÔ Ò¹ × × ºÓÖ »
½¿µ Ë ËÁ¹ ÒØ ÖÔÖ × Ì Ö Ø ØØÔ »»×ÓÙÖ ÓÖ ºÒ Ø»
ÔÖÓ Ø×» × × Ø Ö Ø»