PARKİNSON HASTALIKLARI VERİLERİNİN MAKİNE ÖĞRENMESİ YÖNTEMLERİYLE ARAŞTIRILMASI

Aydın, Fatih

DSpace Home
→
Enstitüler -- Institutes
→
Fen Bilimleri Enstitüsü -- Institute of Natural & Applied Science
→
Tezler -Thesis
→
View Item

PARKİNSON HASTALIKLARI VERİLERİNİN MAKİNE ÖĞRENMESİ YÖNTEMLERİYLE ARAŞTIRILMASI

Aydın, Fatih

URI: http://hdl.handle.net/11547/1439

Date: 2017-12

Abstract:

Bu tez çalışması Parkinson Hastalığı (PH) verilerine Makine Öğrenmesi algoritmalarının uygulanması üzerinedir. Bu amaçla özgün olarak yeni bir Makine Öğrenmesi algoritması tasarımına gidildi. Bu tasarım sonucunda; karar kaynaştırma ve sınıflandırıcı seçimi yöntemlerine dayalı olarak VIBES isminde yeni bir topluluk öğrenme algoritması geliştirilmiştir. VIBES algoritması ve diğer Makine Öğrenmesi algoritmaları UCI veritabanından seçilen 33 adet benchmark veri kümesine ve PhysioNet veritabanından elde edilen Parkinson verikümesine uygulandı. VIBES algoritması iki varsayımdan birinin tercih edilmesine göre çalışmaktadır. Bu varsayımlar: Özniteliklerin birbirlerine bağımlı olduğu ve bağımsız olduğu varsayımlardır. Bu varsayımlara göre 33 benchmark veri kümesi üzerindeki ortalama doğruluk oranları sırasıyla %89.80 ve %88.22‘dir. Benchmark veri kümeleri üzerindeki ikinci en iyi ortalamaya sahip öğrenme algoritması %87.76 doğruluk oranıyla Rotation Forest algoritmasıdır. Her iki topluluk öğrenme algoritması için kullanılan ortak temel öğrenici Random Forests (RF) algoritmasıdır. VIBES algoritmasında topluluk birleştirme yöntemi için çoğunluk oylama yöntemi kullanılmış ve sadece ikili sınıflandırma problemleri için çoğunluk oylama yönteminin diğer yöntemlere göre daha iyi olduğu sadece teorik olarak gösterilmiştir. VIBES(RF) algoritmasında hipotez arama algoritması olarak optimize edilmiş ileri yönlü bir arama yöntemi ve Genetik Algoritmalar (GA) yöntemi kullanılmıştır. 33 adet benchmark veri kümesi üzerindeki sonuçlara göre optimize edilmiş ileri yönlü arama algoritması ortalama %89.6963 doğruluk oranı ve ortalama 3.2359 saniyelik arama zamanı ile GA yöntemine göre daha iyi sonuç vermiştir. GA yöntemiyle, %89.4184 doğruluk oranı ve ortalama 127.6958 saniyelik arama zamanı elde edilmiştir. Buna göre doğruluk oranları arasında çok ciddi bir fark olmamasına rağmen optimize edilmiş ileri yönlü arama algoritması GA‘ya göre daha az sürede aramalar gerçekleştirerek topluluğu oluşturmuştur. VIBES(RF) algoritmasında özniteliklerin enformasyon miktarını ölçmek için iki yöntem kullanılmıştır. Bunlar: ReliefF ve Shannon entropidir. Bu iki algoritmanın ortalama doğruluk oranları sırasıyla %89.8153 ve %89.0519‘dur. Bu iki sonuç istatistiksel açıdan önemli bir farka sahip olmadığı ve Shannon entropi diğer yönteme kıyasla daha hızlı çalıştığı için enformasyon ölçüm yöntemi olarak Shannon entropi, özniteliklerin bilgi miktarı ölçümü için varsayılan metot olarak ayarlanmıştır. Bu tez çalışmasında, çoğunluk oylamalı topluluk öğrenicilerde oluşturulan topluluğun gerçek hata oranını tahmin etmek için de veri uyarlamalı bir yöntem geliştirilmiştir. Bu yönteme göre 33 adet benchmark veri kümesi üzerinde özniteliklerin bağımlılığı varsayımına göre gerçek ve tahmini hata oranları arasındaki fark %0.575‘tir. Özniteliklerin bağımsızlığı varsayımına göre gerçek ve tahmini hata oranlarının farkı ise %1.655‘tir. Böylelikle her iki varsayımın ortalama hata oranı %1.115 olur. Tüm bu veriler ışığında hata tahmin yönteminin gerçek hata oranına oldukça yakın sonuçlar verdiği söylenebilir. xxxii Parkinson veri kümesi kullanılarak öznitelik oluşturmak için Fast Fourier Dönüşümü (FFD), Dalgacık dönüşümü (Haar, sym2, coif2, db2, db3, db4, db5, db6, db7, dmey, bio3.3 ve gaus2) ve Hilbert-Huang Dönüşümü (HHD) kullanılmıştır. Bu sinyal dönüşüm yöntemleri içerisinden HHD ile oluşturulmuş öznitelik kümesi üzerinde hem VIBES algoritması hem de diğer Makine Öğrenmesi algoritmaları yüksek doğruluk oranları vermiştir. Daubechies (db3) dalgacığı kullanılarak elde edilen öznitelik kümesi ikinci en iyi sınıflandırma doğruluğu veren sinyal dönüşüm yöntemi olmuştur. HHD kullanılarak oluşturulan Parkinson veri kümesine VIBES(KA) algoritmasının (özniteliklerin bağımsızlığı varsayımına); 2-katlı çapraz doğrulama, 5- katlı çapraz doğrulama, 10-katlı çapraz doğrulama ve Leave-One-Out-Çapraz- Doğrulama (LOOÇD) testlerinin 10 kere uygulanması sonucunda sırasıyla %95.4545±1.0785, %95.9394±1.3717, %95.4545±0.7693 ve %97.5758±0.0000 ortalama sınıflandırma doğrulukları elde edilmiştir. Bu testlerin ortalama sınıflandırma doğruluğu oranı ise %96.1061‘dir. Bu deneylerin sonucunda LOOÇD yöntemi kullanılarak elde edilen topluluk hipotezi model olarak seçilmiştir. Bu model 14 temel hipotezden oluşmaktadır. Sonuç olarak literatürde daha önce yapılan 6 çalışmadan daha yüksek oranda sınıflandırma doğruluğu elde edilmiştir.

Show full item record