180 likes | 344 Views
データマイニングによる ウイルス分類に関する研究. 電気通信大学 情報工学科 阿部研究室 0411096 三森 春佳. 発表の流れ. はじめに 既存のウイルス検出技術と関連研究 実験の目的と方法 実験結果とその考察 おわりに. はじめに:コンピュータウイルスについて. コンピュータウイルス コンピュータに被害をもたらす不正なプログラムのこと メールやインターネットを介して広がっていく 以前は愉快犯的なものが多かったが、最近は利益重視 そのためウイルスが見つかりにくくなっている. はじめに:ウイルスの亜種について.
E N D
データマイニングによるウイルス分類に関する研究データマイニングによるウイルス分類に関する研究 電気通信大学 情報工学科 阿部研究室 0411096 三森 春佳
発表の流れ • はじめに • 既存のウイルス検出技術と関連研究 • 実験の目的と方法 • 実験結果とその考察 • おわりに
はじめに:コンピュータウイルスについて • コンピュータウイルス • コンピュータに被害をもたらす不正なプログラムのこと • メールやインターネットを介して広がっていく • 以前は愉快犯的なものが多かったが、最近は利益重視 • そのためウイルスが見つかりにくくなっている
はじめに:ウイルスの亜種について • ウイルスは新しいものが登場するとそれを少し変えた亜種が多数登場 • 基本的に亜種どうしの構造は似ている • 種類ごとに分類できれば、より的確な対応が期待できる
既知ウイルスの検出手法[1] • パターンマッチング • ウイルス検出の基本的な技術 • ウイルスごとのシグネチャ(パターン)によるマッチング • すでにシグネチャがあるウイルスでないと検出できないため、未知のウイルスには対応できない
未知ウイルスの検出手法[1] • ヒューリスティック法 • 静的な手法はコードの解析を行い、「ウイルスらしい」コードを持つものをウイルスとして検出 • 動的な手法はビヘイビア法に同じ • ビヘイビア法 • ファイルを実際に動作させてウイルスの検出を行う
関連研究:データマイニングによるウイルス検出[2]関連研究:データマイニングによるウイルス検出[2] • ウイルスを動作させ、その際測定したデータからデータマイニングを用いて未知ウイルスを検出 • ウイルスの分類区分 • ウイルスかウイルスでないかの2通り
研究の目的 • ウイルスを動作させ、その際測定したデータからデータマイニングを用いてウイルスを分類する • 分類の精度が • クラス分類手法 • 分類に用いる特徴量の数を絞るために行うランク付けの手法 によってどう変わるかを調べる
実験に用いるウイルス • ウイルスは8種類各3個、計24個を使用 • Bagz,Bagle,Doombot,Fanbot,Kipis,Klez,Mimail,Mydoom • ウイルスはメールに添付されたものとウイルスサイトにアップロードされているものを用いる
実験環境 • 実ネットワークとは隔離された仮想環境 • 大量メール送信ウイルスに着目し環境を構築 • ウイルスが利用すると思われるDNSサーバとSMTPサーバを実装
ウイルス実行時のデータ測定 • Windows Performance Counters(WPC)を使ってウイルスの動作を観測し、データを取得 • WPCはカウンタの集合で、各カウンタは1つの特徴量を保持(特徴量とは例えば、TCP接続に失敗した回数、など) • データは20分間1秒ごとにとる • ウイルス24個に対しデータをとる • ウイルスが動いていない状態でもデータをとる
クラス分類 • クラス分類器によりデータの分類を行い、分類精度を調べる • クラス分類器を作る手法にBayesian Networks、Decision Tree、Naïve Bayesの3手法を使う
特徴量選択 • 特徴量をランク付けし、上位のものを分類に用いる • 特徴量のランク付けにChi Square、Gain Ratio、ReliefFの3手法を使う • ランク付けの手法と選択する特徴量の数によって、分類精度の変化を調べる
実験結果 • クラス分類手法を固定した場合 Bayesian Networks Decision Tree Naïve Bayes
実験結果 • 特徴量ランク付け手法を固定した場合 Chi Square Gain Ratio ReliefF
結果のまとめ • 8割強の精度で分類が可能 • ほとんどの場合30個の特徴量で十分 • クラス分類手法を固定すると、ランク付け手法により大きな違いがあり、ReliefFが最もよい • 特徴量ランク付け手法を固定すると、クラス分類手法を変えてもあまり変化がない
おわりに • データマイニングによるウイルスの分類を行った • その結果8割強の精度で正しく分類されることが分かった • ReliefFによるランク付け手法に関する詳細な実験と未知種類のウイルスの処理などは今後の課題である