220 likes | 668 Views
Türkçe Dokümanlarda Yapay Sinir Ağları ile Yazar Tanıma. Doğal Dil İşleme Grubu. Vecdi Emre LEVENT Doç. Dr. Banu DİRİ. İçerik. Amaç Metinlerden Özellik Çıkarımı Yazar Üslubu Çıkarımı Sonuçlar. Amaç.
E N D
Türkçe Dokümanlarda Yapay Sinir Ağları ile Yazar Tanıma Doğal Dil İşleme Grubu Vecdi Emre LEVENT Doç. Dr. Banu DİRİ
İçerik • Amaç • Metinlerden Özellik Çıkarımı • Yazar Üslubu Çıkarımı • Sonuçlar
Amaç Türkçe gazete köşe yazarlarının belirli sayıda metinlerinin alınarak üsluplarının çıkarımı yapılarak yazar tanıma sistemi gerçekleştirilmiştir. Sisteme verilmeyen yazarların diğer metinleri test için kullanılıp, sistemin performans değerlendirmesi yapılmıştır.
Metinlerden Özellik Çıkarımı • Cümle Sayısı • Kelime Sayısı • Ortalama Kelime Sayısı • Farklı Kelime Sayısı • Nokta Sayısı • Virgül Sayısı • Satır Sayısı • Noktalı Virgül Sayısı • Soru İşareti Sayısı • Ünlem Sayısı • İsim Sayısı • Fiil Sayısı • Sıfat Sayısı • Zamir Sayısı • Edat Sayısı • Bağlaç Sayısı
Metinlerden Özellik Çıkarımı • Zemberek Kütüphanesi Cümle İsim Fiil Sıfat Zamir Edat Bağlaç
Yazar Üslubu Çıkarımı • Yapay Sinir Ağları Giriş Toplama & Dönüştürme İşlemi Ağırlıklar Giriş Çıkış Giriş Giriş Temel Yapay Sinir Ağları Yapısı
Yazar Üslubu Çıkarımı • Yapay Sinir Ağları Toplama & Dönüştürme İşlemi Toplama & Dönüştürme İşlemi Fiil Sayısı Sıfat Sayısı Can Ataklı Ahmet Çakar Nokta Sayısı Kelime Sayısı 2 Yazar için 4 Yazarlık Özelliği Kullanılan Yapay Sinir Ağı
Yazar Üslubu Çıkarımı • Dönüştürme(Transfer Fonksiyonu) İşlemi • Nöronlardan gelen değerleri toplayıp, istenen • Sigmoid – 0 ile 1 arasında sonuç üretir. • Lineer – 0 veya 1 sonucu üretir. • Gauss – Verinin dağılımına göre sonuç üretir. • fonksiyonları ile sonuç üretilmektedir.
Yazar Üslubu Çıkarımı • Öğrenme Oranı: • 0 – 1 arasında değer almaktadır. • 0’a yakın değerler de öğrenme yavaş ancak kararlıdır. • 1’e yakın değerler de ise sistemde öğrenme hızlıdır. ancak ezberler. • Momentum Katsayısı: • Yerel çözüme takılmamayı sağlar.
Yazar Üslubu Çıkarımı • Normalizasyon • Sistem’e verilecek değerlerin eşit oranda başlamaları için normalize edilmelidir.
Yazar Üslubu Çıkarımı • Normalizasyon • Ör. Bir metinde kelime sayısı 400, ünlem sayısı 10 olduğunda, bu halde sisteme verildiği taktirde üzerinde çalışılan yazar için üslup çıkarımında etkisi olmasa dahi kelime sayısı doğrudan çok etkili gibi çalışacaktır. • Ünlem sayısı gerçekte üsluba etkisi çok olsa dahi, sistemde öneminin bulunması zorlaşacaktır.
Yazar Üslubu Çıkarımı • Normalizasyon • Yazarın metinlerinin içerisinde geçen en yüksek ve en düşük değere göre normalizasyon gerçekleştirilmiştir. • En düşük değer 0, en yüksek değer 1 olarak atanıp, ara değerler buna göre 0-1 arasında değer almışlardır.
Yazar Üslubu Çıkarımı • Eğitim • Sisteme yazar özelliklerinden çıkarılan değerler verilip, yazarın ne kadar doğru tanındığına bakılır. • Sonuca göre nöronlar ile çarpılan ağırlıkların değerleri değiştirilir. • Minimum hata veya maksimum döngü değerine ulaşılıncaya kadar tekrar edilir.
Yazar Üslubu Çıkarımı • Test • Eğitimin ardından ağırlıkları optimize edilmiş olan yapay sinir ağları ile test işlemi gerçekleştirilir. • Sadece girişler verilerek, çıkışların ne kadar doğru olduğuna bakılır. • Ağırlıklarda değişim gerçekleşmez.
Deneysel Sonuçlar • 50 adet yazar veri seti içerisinden, • Farklı kategoride yazan 4, 8, 12, 16 • Cinsiyete göre 10 erkek, 10 kadın • Güncel kategorisinde yazan 4, 8, 12, 16 • yazarlar seçilmiştir.
Deneysel Sonuçlar • Seçilen her yazarın 40’ar adet metni eğitim için,10 adet metni test için kullanılmaktadır.
Deneysel Sonuçlar • Farklı Kategoride Yazan Yazarlar Veriseti1 Deney Sonuçları
Deneysel Sonuçlar • Cinsiyete göre Veriseti2 Deney Sonuçları
Deneysel Sonuçlar • Güncel Kategoride Yazan Yazarlar Veriseti3 Deney Sonuçları
Deneysel Sonuçlar • Yapay Sinir Ağları & SVM(Support Vector Machine) Veriseti2 Veriseti1 Veriseti3
Sonuçlar • Uygulamayı Yıldız Teknik Üniversitesi’nin Doğal Dil İşleme Grubu Kemik’in sayfasında yazılımlarımız bölümünden indirilebilinir. • http://www.kemik.yildiz.edu.tr/