高エネルギー物理学研究におけるグリッドの現状～ LHC ATLAS 実験開始に向けて～

高エネルギー物理学研究におけるグリッドの現状～LHC ATLAS実験開始に向けて～田中純一東京大学素粒子物理国際研究センター（ICEPP）第74回研究セミナー@京都大学学術情報メディアセンター

内容 • グリッド • 高エネルギー物理学実験 • Belle実験 • LHC ATLAS実験 • LHC Computing Grid Project • NorduGrid • GSI-enabled pftp : HPSS • バンド幅テスト • まとめ第74回研究セミナー@京都大学学術情報メディアセンター

…グリッド • The Grid: Blueprint for a New Computing Infrastructure, in 1998 • Ian Foster & Carl Kesselman • “a hardware and software infrastructure that provides dependable, consistent, pervasive and inexpensive access to high-end computational capabilities.” 第74回研究セミナー@京都大学学術情報メディアセンター

グリッド技術 • グリッドとは? • 計算機を、情報コンセントに挿すだけで、いつでもどこでも必要な計算機リソースが取り出せる、というイメージ。 • 電力（Power Grid）からの発想。最近は、いろいろな“グリッド“があるが、高エネルギー物理学実験では、この意味に近い。 From IBM 第74回研究セミナー@京都大学学術情報メディアセンター

グリッドを利用するためには • 電力と同様に、 • 十分な設備 • 契約が必要  ネットワークの充実、実現のためのソフトの開発（ミドルウェア）  認証と許可第74回研究セミナー@京都大学学術情報メディアセンター

ネットワーク • インフラの進歩するスピード • CPU 18ヶ月で2倍 • Storage 12ヶ月で2倍 • Network 9ヶ月で2倍 • 分散した計算機を接続するというアイデアが現実的なものとなった。しかも、世界規模で！  5年で100倍 100BaseTxは当たり前。 GbE NICは身近になった。第74回研究セミナー@京都大学学術情報メディアセンター

国内の学術ネットワーク • バックボーンはすでに１０Gbps • 主な大学・研究所は~Gbpsで接続されている。第74回研究セミナー@京都大学学術情報メディアセンター

国際ネットワーク NII(国立情報学研究所) (予定) 日本 NewYork 欧州日本からアメリカを経由して欧州へ：10Gbps 第74回研究セミナー@京都大学学術情報メディアセンター

世界中のグリッドプロジェクト （高エネルギー物理学実験に関連するものの一部） • グリッドといえば、予算が出た/出るらしい。 • もらったからには、結果が必要。 いろいろなグリッドミドルウェアができた。第74回研究セミナー@京都大学学術情報メディアセンター

グリッドミドルウェアとGlobus • グリッドミドルウェア • グリッドを実現するための“OS”のようなもの。 • 多くの場合、Globusベース。 • Globus • グリッドのソフトを開発/構築するときに用いられるツールキット。 • これですべてができるわけではない。 • あくまでもツールキット。 • デファクトスタンダードになった。 • セキュリティを重視した構成になっている。 • GT2.xとGT3.yのバージョンがある。 • 高エネルギー物理学実験の世界では、前者が主流。 Globus ≠ Grid 第74回研究セミナー@京都大学学術情報メディアセンター

認証と許可の話 • グリッドの誤解の１つとして、“誰でも他人の計算機リソースを勝手に使える”というものがある。 ボランティアを行う技術ではない。（そういう使い方をしてもいいが）認証と許可の手続きが必要 • グリッドの誤解の１つとして、“余剰計算機リソースを提供/利用する”というものがある。例:SETI@homeただし、最近の動向としてはこれも“グリッド“になりつつある。第74回研究セミナー@京都大学学術情報メディアセンター

使えるはずがない 認証と許可の例 • 日本 HepCA（日本の高エネの認証局:仮称） • 欧州 HepCA（欧州の高エネの認証局:仮称）日本 HepCA 欧州 HepCA 認証認証計算機リソースB ユーザーA 第74回研究セミナー@京都大学学術情報メディアセンター

“欧州HepCAを信頼するよ。” “欧州HepCAを信頼するよ。” “日本HepCAを信頼するよ。” “日本HepCAを信頼するよ。” 認証と許可の例日本 HepCA 欧州 HepCA 認証認証やっと使える！シングルサインオン計算機リソースB ユーザーA “ユーザーAをUnixユーザーguestとして許可を与えるよ。” 第74回研究セミナー@京都大学学術情報メディアセンター

プロキシ証明書 • ユーザーは、grid_proxy_initでグリッド環境にログインする。 • このとき、ユーザー証明書からプロキシ証明書が生成される。(/tmpにあることが多い。) • グリッド環境のリソースを利用するときは、このプロキシ証明書を利用する。 • プロキシ証明書は、連鎖して生成される。シングル・サインオンを可能に！ユーザー証明書プロキシ証明書プロキシ証明書第74回研究セミナー@京都大学学術情報メディアセンター

高エネルギー物理学実験とは？ • 素粒子物理学 • 素粒子を研究対象とし、物質と力の根源を探求する学問 • 例) なぜ質量があるのか？ • 必ず実験で検証する必要がある。 • その一つとして、加速器を用いた実験を行う。 →粒子を高速に加速した後、衝突させることで物理現象を発生させる。これを検出器で捕らえ、データにして保存する。これを解析することで、理論の検証を行う。第74回研究セミナー@京都大学学術情報メディアセンター

素粒子 標準理論 • 影で覆われているものは、未発見。 • ヒッグス粒子の発見は非常に重要！ • 超対称性粒子は、理論的な観点から予想されている。第74回研究セミナー@京都大学学術情報メディアセンター

Belle実験 • つくば市の高エネルギー加速器研究機構(KEK)にある加速器を用いた実験。 • 世界最高のルミノシティー 1.1x1034cm-2s-1 • B中間子を生成する工場＝ B-factory 衝突エネルギー 10.5GeV • 蓄積したデータ（約5年） • 約1PBのデータを保存。 Belle検出器第74回研究セミナー@京都大学学術情報メディアセンター

Large Hadron Collider LHC トンネル (一周27km) （地下~100m）フランス Alice ジュラ山脈 CERN CMS LHCb ATLAS ジュネーブ空港スイス第74回研究セミナー@京都大学学術情報メディアセンター

これまでのもやもやを 一気に振り払う実験 ATLAS実験 2007年実験開始 22m 衝突エネルギー 14TeV ルミノシティー 1034cm-2s-1 • 40MHzでビームが衝突 • Raw data = 320Mbyte/sec • (~1TB/hour) • 読み出しチャンネル = 1億6千万 44m 第74回研究セミナー@京都大学学術情報メディアセンター

ATLAS実験のアニメーション 第74回研究セミナー@京都大学学術情報メディアセンター

LHC 4実験 ATLAS、CMS、Alice、LHCｂ実験の合計4実験がある。 3.5PB/年のデータを保存して、解析する。この見積もりは、若干古い。例えば、ATLAS実験は 100MB/ｓから300～400MB/sへ上がっている。 ←設計上は問題なし。第74回研究セミナー@京都大学学術情報メディアセンター

必要なリソースの例（概算） • Super B ：次期Belle実験 (計画中) • 50000 GHz PenIII • 10 PB • ATLAS実験 (2007年開始) • 24000 GHz PenIII (=12M SI2000) • 15 PB 実験開始時に準備しなければならないリソース 4実験の1つ→4倍ぐらいは必要第74回研究セミナー@京都大学学術情報メディアセンター

CERN IT （その１） 1445m2 第74回研究セミナー@京都大学学術情報メディアセンター

CERN IT （その２） 第74回研究セミナー@京都大学学術情報メディアセンター

3 • 最終的に、毎秒100MBのデータが保存される。 • 年間、約107秒稼動するので、1PB/yearのデータになる。 2 • 技術的に無理。 • そもそも、すべてが興味ある物理事象ではない。多くはゴミ事象 • 保存する前に、必要かどうかを高速に判断する。実験データの流れ（その１） CMS実験 1 • 1秒間に40M回の衝突が起こる。 • 衝突1回分のデータサイズは約1MB。 • 全部、保存するなら40TB/sのデータがやってくる。第74回研究セミナー@京都大学学術情報メディアセンター

主CE CERN RC (Reginal Center) グリッド ATLAS実験のデータの流れ（その２）物理解析に使える形式までプロセスが必要。点の情報から、線や塊（粒子）を見つける。 100MB/sで保存されたデータ Raw Data（1MB/event） = Reconstruction（再構成）する。（トラックやジェットを作る。） Event Summary Data （ESD, 100kB/eventのデータ）新しい検出器情報を使って、トラックやジェットの情報を更新。物理研究ごとにAODを作成。 Analysis Object Data（AOD, 10kB/eventのデータ）物理解析第74回研究セミナー@京都大学学術情報メディアセンター

Event Display 点の情報から、線や塊（粒子）を見つける。第74回研究セミナー@京都大学学術情報メディアセンター

計算機資源をどう使うか？ ～我々のジョブの特徴～ • 大きく分けて、2種類のジョブがある。 • データ生成のためのジョブ • 実験：ESDやAODの生成 • シミュレーションデータの生成 • 一つのジョブで、数GBのファイルを一つ作る。 • 数GBファイル = 数100~数105のイベントの集まり。 • 物理解析ジョブ • 生成されたデータを解析する。 • 一つのジョブで、数100ファイルを使うことが多い。 • 結果は、数個のファイル。（ヒストグラムやログ・ファイル）第74回研究セミナー@京都大学学術情報メディアセンター

“データ生成“ジョブの特徴 • 一般に、イベント単位（ATLAS実験が例外かもしれないが） • 1ファイルに数100~数105イベント保存されていても、必ず、イベントごとに区別されている。 • 1イベントに1日、1時間もかかることはなく、長くても5~10分ぐらい。（数時間かかる実験もあるが。） →1イベントを細分化して、複数のCPUを利用する必要はない。 →イベントで分ける並列化処理は歓迎。 • シミュレーションのときは、乱数の取り扱いに注意する。 • 並列化しても、最終的に、1ファイルになればOK。 • 2GBリミットの壁があるが、これは改善されるはず。第74回研究セミナー@京都大学学術情報メディアセンター

“物理解析”ジョブの特徴 • イベント単位で、解析する。 • 1つのジョブで、たくさんのファイルを利用する。 • 数100ファイルは当たり前。 • 結果は、ヒストグラム等に集約される必要がある。グリッド環境で、“物理解析”をどう行うか？ • イベントで分ける並列処理を行う。 • ファイルの移動等問題の回避。 • 並列処理した結果を集約する。第74回研究セミナー@京都大学学術情報メディアセンター

ATLAS実験におけるグリッド環境 • グリッド技術を用いて、各地の地域解析センター(RC)を接続しリソースを共有する。 • これだけの規模で行うのは、恐らく、初めての試み。第74回研究セミナー@京都大学学術情報メディアセンター

ATLAS実験のグリッドミドルウェア 主目的は、“データ生成” • 2004年ー2005年に行われる運用テスト • 3つのグリッドミドルウェアの採用 • 1つに統一することはできなかった。 • 東大ICEPPが採用するミドルウェア • LCG－ホスト研究所CERNが採用する（NorduGridの導入試験の経験はある。） LCG （欧州発） Grid3 （米国発） NorduGrid （北欧発）第74回研究セミナー@京都大学学術情報メディアセンター

ATLAS実験のグリッドミドルウェア • 3つをどう扱うか？（現段階で分かっていること） • データ生成のためのジョブの投入 • それぞれの言語で、それぞれ独立に。 • RSL：Resource Specification Language • JDL：Job Description Language • 生成されたデータの取り扱い（つまり、物理解析） • 各SEのデータに、相互にアクセスできる（予定） ←物理解析@グリッドに関して、議論/開発中。第74回研究セミナー@京都大学学術情報メディアセンター

計算機環境@ICEPP PenIII 1.4GHz 10GbE 第74回研究セミナー@京都大学学術情報メディアセンター

計算機環境@ICEPP Xeon 2.8GHz LTO2 第74回研究セミナー@京都大学学術情報メディアセンター

LHC Computing Grid Project • 略称 = LCG • LHC 4実験共同でGridを配備する計画 • フェーズ1=研究開発 • 2002年～2005年 • Gridミドルウエア仕様決定 • 2005年LHC Global Grid Technical Design Report • フェーズ2=配備 • 2006年～ • LHC実験データ解析プラットフォーム • 高エネルギー物理学実験のための“グリッド”標準になる可能性がある。第74回研究セミナー@京都大学学術情報メディアセンター

LCGとは？ • グリッド環境を構築することが仕事。 • ミドルウェアは既存のものから採用して、どれが優れているかを判断することが仕事。 Deployment not Development • LCGバージョン1の構成 • EDT 1.1 • EDG 2.0 • VDT 1.1.8 • Redhat 7.3 EUとUSの寄せ集め第74回研究セミナー@京都大学学術情報メディアセンター

ノードの構成 • 各サイトにすべて必要というわけではないが、以下のような役割を持ったノードを準備する。 MON IC NM VOMS RB LCFG MDS BDII RLS CE SE WN PROX VO UI 現状では名前だけ第74回研究セミナー@京都大学学術情報メディアセンター

LCGの現状@ICEPP • LGCバージョン1で稼動中 • CE、SE、UI、WNの最小構成でスタート。 • LCFG = Local Configuration system • OSを含めて、各ノードのインストール、設定を自動的に行う。 • 各ノードの設定変更もここで行う。 • 設定ファイルの変更  XMLに変換 ノードに変更があったことを通知 ノードはhttp経由でXMLファイルを取得  設定変更 • このシステムに慣れる必要がある。 • ノード数を増やすために環境構築のR&Dを行っている。 • WNを広域ネットワークに置かないように。第74回研究セミナー@京都大学学術情報メディアセンター

稼動状況@ICEPP 現在、ローカルネットワークに新しいノードを追加中  追加テストは完了第74回研究セミナー@京都大学学術情報メディアセンター

グリッドモニター • 常時、各サイトをモニターするための研究開発第74回研究セミナー@京都大学学術情報メディアセンター

グリッドモニター これらは、http://www.grid-support.ac.uk/GOC/ からアクセス可能第74回研究セミナー@京都大学学術情報メディアセンター

情報管理 • 各ノードの状況を把握することは非常に重要なことである。どこにジョブを投げる等を的確に判断するため。 GRISLocal GIIS Region GIIS BDII GlobusのMDS（Monitoring and Discovery Service）と Berkeley DB Index Informationで構成冗長性を確保第74回研究セミナー@京都大学学術情報メディアセンター

ジョブの流れ RLS RB b:ジョブを投げる c:調べる d:サイトに適したジョブの形にする。 e:ジョブをCEに受け渡す。 f:必要ならSEを使ってジョブを実行する。 i:ジョブ終了。結果をRBに戻す。 j:ユーザーに結果を戻す。 UI BDII CE+WN SE 第74回研究セミナー@京都大学学術情報メディアセンター

データの管理 • RLS(= Replica Location Service)がサービスを提供する。 • 冗長性やファイルアクセスの負荷を考えると、レプリカを作る必要がある。DMS(=Data Management Service)を使ってレプリカ作成を行うことができる。 • ファイルの管理－２つのカタログ • GUID(=Grid Universal/Unique ID)でファイルを一意に管理。 • 物理的なファイルとの対応：LRC(=Local Replica Catalogue) • レプリカがあるので、物理的には複数あってよい。 • メタデータとの対応：RMC(=Replica Metadata Catalogue) • 抽象的な名前も複数あってよい。第74回研究セミナー@京都大学学術情報メディアセンター

長時間ジョブとプロキシ証明書問題 • GSIではプロキシの概念(プロキシ証明書)を取り入れて、シングル・サインオンを実現している。 • 証明書が切れたら、その時点で実行されているジョブは中途半端に終わってしまう。再投入はリソースの無駄 • 実行中のジョブを監視して、必要があればプロキシ証明書を自動で更新する。→このサービス機能を追加した。 • デフォルトで7日間有効だが、この期間自体は更新可能。 • 例) 6日目に、あと3日ぐらい時間がほしい、と思ったら、期間を更新すればよい。第74回研究セミナー@京都大学学術情報メディアセンター

グリッド環境上の資源 • グリッドに提供した資源は、常に利用可能な状態。 →理想はこれ！しかし、… • 計算機が多いため、故障も多い。 • 常時稼動のためには、 • 重要なノードは多重化。 • データも多重化。 • 計算中だったジョブは、自動再投入。 • 各サイトの管理者は、メンテナンスを行うために、容易に自前のリソースをグリッドから切り離せる。 • ダイナミックにリソースの増減が可能。 • ユーザーレベルでは、“お知らせ不要“が理想。→ ”ユーザーは気づかない。”が理想。第74回研究セミナー@京都大学学術情報メディアセンター

NorduGrid • NorduGridとは? • 北欧4国（デンマーク、ノルウェー、スウェーデン、フィンランド）からなるグループが開発したミドルウェア。 • 環境構築は比較的容易。 • バージョン 0.3.x近々 0.4 へ。第74回研究セミナー@京都大学学術情報メディアセンター

北欧との接続テスト（2002-2003） • 距離的には十分離れてる地域間の接続テスト！ • ICEPPに1台、KEK(つくば市)に1台の計算機を設置。 • すべて広域ネットワークで接続。第74回研究セミナー@京都大学学術情報メディアセンター

北欧からのジョブサブミッション 時差9時間北欧のCAで認証を受け、ICEPPの計算機で許可を受けたユーザー第74回研究セミナー@京都大学学術情報メディアセンター

高エネルギー物理学研究におけるグリッドの現状～ LHC ATLAS 実験開始に向けて～