NTC Newtechデータで未来をつなぐ

筑波大学計算科学研究センターお客様への導入事例をご紹介します。

-Supremacyサーバを利用したGfarmファイルシステムの構築-

PACS-CSで計算したハドロン質量(赤)と実験値(黒棒)の比較

筑波大学計算科学研究センターは、計算科学の研究に従事する研究者の利用に供する全国共同利用施設です。ニューテックでは、同センターの素粒子物理学研究部門にSupremacyサーバ及び拡張筐体(JBOD)を約200TB納入致しました。同部門は、陽子や中性子など(ハドロン)を構成するクォーク間に働く強い力の理論”量子色力学(QCD)”を、数値シミュレーションを用いて研究しています。計算科学研究センターで開発された超並列計算機PACS-CSなどを駆使してQCDを検証し、クォークの質量などの基礎パラメータを決定し、新たな現象の予言を行うことが同部門の研究目的です。

 

同部門では、広域分散型ファイルシステムである「Gfarm」を利用し、JLDG(Japan Lattice Data Grid, http://www.jldg.org/)を構築しています。JLDGは筑波大学が中心となり、高エネルギー加速器研究機構、京都大学、金沢大学、大阪大学、広島大学の6機関の格子QCDに関わる国内の素粒子物理学研究者のための広域共有ファイルシステムとして利用されています。

 

同部門の吉江友照准教授は、JLDGについて、以下のように説明しています。

建部修見准教授、吉江友照准教授、天笠俊之准教授

「各拠点のJLDGのクライアントマシンはスーパーコンピュータや基幹のファイルサーバのファイルシステムをマウントしています。どのクライアントからでもJLDGの広域ファイルシステムにアクセスして同一のディレクトリ構造やファイルが見えるので、スーパーコンピュータで生成した貴重な計算結果ファイルをJLDGの広域ファイルシステムにおいておけば、それを任意の拠点から取り出し、その拠点のスーパーコンピュータで解析するといった作業を、効率よく行うことが出来ます。各拠点は、国立情報学研究所が運用するSINET3上のHepnet-J/scというプライベートネットワークで接続されており、QCD研究グループが日々のデータを蓄積・共有し、複製を作成することで、データの可用性、保全性及び高いセキュリティを確保してきました。各ユーザは、組織に属するサーバにアクセスするだけで、ファイルの所在を意識することなく、JLDGの広域ファイルシステムを利用することが可能です」

 

Gfarm開発に携わった超高速計算システム研究部門の建部修見准教授は、Gfarmの概念について、以下のように説明しています。

「Gfarmの研究開発にあたり、スペース制限のないフラットなデータ共有システム、組織をまたがるユーザ管理を実現することが重要であると感じておりました。Gfarm広域ファイルシステムは、オープンソースで研究を進めているファイルシステムです。どこからでも高速にアクセスが可能で、アクセス性能がスケールアウトする広域の共有ファイルシステムの開発が目標です。ファイルは実際には様々な場所に格納されますが、利用者はその格納場所を意識することなく仮想的なディレクトリ階層によりアクセスすることが出来ます。QCDで扱うデータは、ひとまとまりのデータが大きく、データが複数のパーティションに分散している状況から、スペース制限がないフラットなファイルシステムの実現を目指しました」

 

「Gfarmファイルシステムでは、なるべく近くてアクセスされていないファイルにアクセスすることにより、ファイルアクセスの効率をあげています。なるべく近いファイルを選択するためには、ネットワーク上の距離を知る必要があります。Gfarmでは、各クライアントがそれぞれのファイルを格納するノードに対するRTT(Round Trip Time、ネットワークの往復遅延時間)を実行時に計測します。また、なるべくアクセスされていないファイルを選択するために、定期的にファイルを格納するノードのCPU負荷情報を収集します。この情報は、全クライアントで共有します。ファイルの複製は、ファイル参照時の負荷分散、遠隔からの低遅延、高バンド幅のアクセスおよび耐故障性のために利用されます。Gfarmでは、任意のファイルの複製を任意の数、任意の場所に作成可能なため、ディザスタリカバリやホットファイルのアクセス集中回避などさまざまな要求に応じることができます。なお、ファイルの複製は、ファイル参照時に必要に応じて作成することもできます。Gfarmではオンデマンドファイル複製作成として実装されています」

 

計算情報学研究部門の天笠俊之准教授は、JLDGのもう一つの機能について、次の様に説明しています。

JLDG構成概念図

「JLDGは格子QCDの基礎データを世界規模で共有するデータグリッドILDG(International Lattice Data Grid, http://www.lqcd.org/ildg/)の一つの地域グリッドとしての機能も併せ持
っています。世界中の研究者が日々JLDGにアクセスしています」

 

同研究部門が当システムを導入するにあたり、複数のサーバ/ストレージベンダーを比較検討されたようですが、高エネルギー加速器研究機構にてGfarm用のストレージとして利用されているという実績(大学共同利用法人高エネルギー加速器研究機構)及びNASとして購入する予定であった製品のOSをGfarmが利用可能なCentOSに載せ換えたいというユーザの要望に対しフレキシブルに対応したことが、採用の大きなポイントになったようです。また耐障害性を重要視するGfarmの概念から、Supremacyシリーズの「不良セクタの修復機能」、「サーフェイスベリファイ機能」、「オートリプレイス機能」、「障害通知機能」は吉江准教授に高く評価されました。当システムは、営業/技術が垣根を越えてユーザの要望を拾い上げているストレージメーカとしてのニューテックならではの成果です。

 

Supremacyサーバ1台に対して複数台のJBOD(拡張)筐体をCentOS 5.2で制御、同OSのLVM機能を利用してシステム全体を束ね、さらに各機関に分散するストレージを束ねGfarm広域ファイルシステムを構築することにより、容量制限のない広域ファイル共有システムを実現しています。

 

Gfarmは、「クラウドコンピューティング」の先駆け的なシステムです。

建部准教授は、他分野への展開の可能性について、以下のように述べています。「Gfarmは、データ種別を問わないフラットなファイルシステムです。離れた複数の拠点間でデータを共有するニーズのある分野に適応することが可能です。素粒子物理学分野のみならず、Gfarmは特定の研究分野、特定の業態に無償で提供可能な画期的なファイルシステムなのです」ニューテックでは今後、Gfarmを利用した広域分散型ファイルシステムの分野に積極的にビジネス展開を行っていく予定です。

 

(2010/4/26)

 

関連リンク
SupremacyⅢ RAIDシリーズ