1 / 40

Reducing the Dimensionality of Data with Neural Networks

به نام خدا. Reducing the Dimensionality of Data with Neural Networks. گردآورنده:آزاده صفیان. عناوین. مدل های مبتنی بر انرژی RBM DBN مقاله مورد مطالعه و نتایج. مدل های مبتنی بر انرژی ( EBM ). P(x) :احتمال داده ارائه شده با بردار x E(x) :تابع انرژی هدف: کم کردن انرژی داده ها.

niyati
Download Presentation

Reducing the Dimensionality of Data with Neural Networks

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. به نام خدا Reducing the Dimensionality ofData with Neural Networks گردآورنده:آزاده صفیان

  2. عناوین • مدل های مبتنی بر انرژی • RBM • DBN • مقاله مورد مطالعه و نتایج

  3. مدل های مبتنی بر انرژی (EBM) • P(x):احتمال داده ارائه شده با بردار x • E(x):تابع انرژی • هدف: کم کردن انرژی داده ها

  4. EBM با واحدهای مخفی • برای افزایش توانایی EBM متغیرهای مخفی به آن اضافه می کنیم. • با استفاده از تابع انرژی آزاد که به صورت زیر تعریف می شود • P(x) به فرم مشابه EBMاستاندارد : که

  5. EBM • یک مدل مبتنی بر انرژی می تواند با اعمالgradientdescentروی تابع شباهت داده آموزشی یادگرفته شود. • تابع شباهت : • میانگین لگاریتم تابع شباهت:

  6. مشتق میانگین لگاریتم تابع شباهت که

  7. Restricted Boltzmann Machine(RBM) • روشی مبتنی بر انرژی • دارای واحدهای نرون مانند • دارای دو لایه • یک لایه پنهان (hidden) • یک لایه قابل دید(visible) • واحدهای هر لایه به هم متصل نیستند • میان واحدهای لایه های مخفی و قابل دید ارتباطات بی جهت و متقارن وجود دارد.

  8. RBM • ورودی هر واحد در لایه قابل دید • wij­:وزن روی اتصالات بین i و j • sj: 1 اگر واحد مخفی j روشن باشد • sj: 0اگر واحد مخفی j خاموش باشد • احتمال روشن بودن واحد iبا استفاده از تابع لجستیک:

  9. RBM • RBM یک روش EBM است پس: • V: بردار داده • مانند شبکه های Hopfield انرژی بردار V: حالت دودویی نسبت داده شده به واحد iدر لایه قابل دید توسط بردار v :حالت دودویی نسبت داده شده به واحد jدر لایه مخفی توسط بردار v Cj­ : بایاس لایه مخفی Bi :بایاس لایه قابل دید

  10. RBM • واحدها باینری و لاجستیک هستند • σ(x) :تابع لجستیک سیگموئیدی • واحدها هنگامی مقدار 1 می گیرند که مقدار تابع σ برای آن واحد، بزرگتر از یک عدد تصادفی بین 0 و 1 باشد.

  11. محاسبه مشتق(به گونه ای دیگر)

  12. قانون یادگیری • امید داده های آموزشی امید نمونه های تولیدی توسط مدل

  13. Gibbs Sampling • برای RBM • واحدهای مخفی با توجه به داده های قابل دید و واحدهای قابل دید با توجه به واحدهای مخفی مدل سازی می شوند. • با فرض h(n) مجموعه همه واحدهای مخفی و v(n) مجموعه همه واحدهای قابل دید در مرحله ی N ام داریم t →∞, p(v(t) ,h(t)) →p(v,h)

  14. Gibbs Sampling

  15. Alternative Gibbs Sampling

  16. Alternative Gibbs Sampling

  17. CONTRASTIVE DIVERGENCE (CD–k) • Hinton الگوریتم CONTRASTIVE DIVERGENCE (CD–k) را پیشنهاد داد که را با جایگزین می کند • k مقدار کوچکی است

  18. CONTRASTIVE DIVERGENCE (CD–k)

  19. آموزش RBM • داده های آموزشی را در لایه قابل دید قرار می دهیم. • همه واحدهای مخفی را به صورت موازی به روز رسانی می کنیم. • همه واحدهای قابل دید را به صورت موازی به روز رسانی می کنیم • مراحل 2 و 3 را k بار تکرار می کنیم

  20. شبکه های باور عمیق DBN • مدلی generative • متشکل از چند لایه تصادفی و مخفی • متغیرهای مخفی یا ویژگی یاب ها عموما مقادیر باینری دارند • دو لایه بالا اتصالات متقارن و بدون جهت دارند و یک حافظه associative ایجاد می کنند . • حالات واحدها در پایین ترین لایه یک بردار داده را ارائه می دهند.

  21. شبکه های باور عمیق DBN • پشته ای از RBM ها • در هر لحظه یک لایه را یاد می گیرد • از مقادیر متغیرهای مخفی در یک لایه به عنوان داده آموزشی برای لایه بعدی استفاده می کند. • این یادگیری حریص و کارآ می تواند با پروسیجرهای یادگیری دیگری دنبال یا ترکیب شود که همه وزن ها را به طور دقیق میزان می کنند تا کارآیی generative یا discriminative همه شبکه را بهبود بخشد.

  22. DBN

  23. DBN

  24. DBN

  25. DBN

  26. Autoencoder • یک شبکه عصبی • Input=output • برای کاهش بعد به کار می رود. • آموزش autoencoder • با یکی از انواع back propagation • با پیش آموزش

  27. Deep Autoencoder

  28. Reducing the Dimensionality ofData with Neural Networks • از طریق یک شبکه عصبی چند لایه با یک لایه مرکزی کوچک برای بازسازی بردار داده با ابعاد بالا، داده های با ابعاد بالا می توانند به کدهای با بعد کم تبدیل شوند. • Gradient descent می تواند برای میزان سازی وزن ها در چنین شبکه autoencoder ی به کار رود اما این فقط وقتی وزن های اولیه به درستی مقداردهی اولیه شوند جواب می دهد. • در این مقاله روشی کارآمد برای مقداردهی اولیه وزن ها ارائه می شود که به شبکه های autoencoder عمیق امکان آموزش کدهای با ابعاد کم را می دهد. • روش پیشنهادی بهتر از PCA برای کاهش بعد داده ها عمل می کند.

  29. Reducing the Dimensionality ofData with Neural Networks • یک عمومی سازی غیر خطی از PCA • متشکل از • از یک شبکه encoderچند لایه برای انتقال داده با ابعاد بالا به کدهای با ابعاد کم • یک شبکه decoder برای یافتن داده از کد • با شروع از وزن های تصادفی در دو شبکه آن ها می توانند با یکدیگر به منظور کاهش تفاوت میان داده اصلی و بازسازی شده آن آموزش ببینند. • گرادیان های مورد نظر به آسانی با استفاده از قانون زنجیره ای برای مشتقات خطای backpropagate ابتدا در طول شبکه کدگشا و سپس در طول شبکه کدگذار به دست می آیند. • همه سیستم یک autoencoder نامیده می شود

  30. Reducing the Dimensionality ofData with Neural Networks • بهینه سازی وزن ها در autoencoderهای غیرخطی که چند لایه پنهان دارند کار سختی است • با وزن های اولیه بزرگ autoencoderها عموما مینیمم های محلی ضعیفی را می یابند • با وزن های اولیه کوچک ،گرادیان ها در هر لایه کوچک بوده و آموزش autoencoder را با لایه های مخفی زیاد غیرممکن می کند. • اگر وزن های اولیه به راه حل خوب نزدیک باشند ،کاهش گرادیان خوب کار می کند • راه حل: ارائه نوع متفاوت از الگوریتم ها که یک لایه از ویژگی ها را در یک زمان یاد می گیرند.

  31. Reducing the Dimensionality ofData with Neural Networks • ترکیبی از بردارهای دودویی (مانند تصویر) می توانند با استفاده از یک شبکه دو لایه به نام ماشین بولتزمن محدود مدل شوند • یک لایه واحد از ویژگی های دودویی بهترین راه برای مدل کردن ساختار در مجموعه تصاویر نمی باشد. • بعد از یادگیری یک لایه از ویژگی یاب ها ما می توانیم از نتایجشان به عنوان داده برای یادگیری لایه دوم از ویژگی ها ،استفاده کنیم. • اولین لایه از ویژگی یاب ها، واحدهای مخفی برای آموزش RBM بعدی می شوند. • این یادگیری لایه به لایه می تواند به دفعات مورد نیاز تکرار شود.

  32. Reducing the Dimensionality ofData with Neural Networks • پیش آموزش لایه های ویژگی یاب • مدلی برای تولید شبکه های کدگذار و کدگشایی که با وزن های یکسان مقداردهی اولیه شده اند به دست می آید • مرحله­ی میزان سازی دقیق(fine tuning): فعالیت های تصادفی را با احتمالات دقیق و با مقادیر حقیقی جایگزین می کند و از backpropagationدر طول همه autoencoderبرای میزان سازی دقیق وزن ها جهت بازسازی بهینه استفاده می کند.

  33. Reducing the Dimensionality ofData with Neural Networks

  34. تصاویری از منحنی های به دست آمده سه نقطه • مجموعه داده : تصاویری از منحنی های به دست آمده سه نقطه به طور تصادفی در دو بعد که باید به 6 عدد تبدیل شوند • Autoencoder • یک کدگذار با لایه های با سایز 28*28-400-200-100-50-25-6 • یک کدگشای متقارن • شش واحد در لایه کد خطی • همه واحدهای دیگر لاجستیک • training data : 20000 تصویر • test data: 10000 تصویر جدید • PCAبازسازی بدتری به دست می دهد

  35. نتیجه برای تصاویری از منحنی های به دست آمده سه نقطه

  36. اعداد دست نویس • داده ها: همه اعداد دست نویس در مجموعه آموزشی MNIST • autoencoder 784-1000-500-253-30 • همه واحدها به جز 30واحد کد خطی در لایه­ی کد لاجستیک • Training data:60000 تصویر • Training test: 10000 تصویر جدید • بازسازی بهتری نسبت به PCA ارائه داد • یک autoencoder دو بعدی دید بهتری از داده ها نسبت به دو اجزای اصلی تولید می کند

  37. نتیجه روی اعداد دست نویس

  38. نتایج برای اعداد دست نویس • A)The two dimensional codes for 500 digits of each class produced by taking the first two principal components of all training images • B)The two-dimensional codes found by a 784-1000-500-250-2 autoencoder

  39. نتایج برای اسناد رویتر

More Related