Abstract:
Bu tez çalışması Parkinson Hastalığı (PH) verilerine Makine Öğrenmesi
algoritmalarının uygulanması üzerinedir. Bu amaçla özgün olarak yeni bir Makine
Öğrenmesi algoritması tasarımına gidildi. Bu tasarım sonucunda; karar kaynaştırma
ve sınıflandırıcı seçimi yöntemlerine dayalı olarak VIBES isminde yeni bir topluluk
öğrenme algoritması geliştirilmiştir. VIBES algoritması ve diğer Makine Öğrenmesi
algoritmaları UCI veritabanından seçilen 33 adet benchmark veri kümesine ve
PhysioNet veritabanından elde edilen Parkinson verikümesine uygulandı.
VIBES algoritması iki varsayımdan birinin tercih edilmesine göre çalışmaktadır. Bu
varsayımlar: Özniteliklerin birbirlerine bağımlı olduğu ve bağımsız olduğu
varsayımlardır. Bu varsayımlara göre 33 benchmark veri kümesi üzerindeki ortalama
doğruluk oranları sırasıyla %89.80 ve %88.22‘dir. Benchmark veri kümeleri
üzerindeki ikinci en iyi ortalamaya sahip öğrenme algoritması %87.76 doğruluk
oranıyla Rotation Forest algoritmasıdır. Her iki topluluk öğrenme algoritması için
kullanılan ortak temel öğrenici Random Forests (RF) algoritmasıdır. VIBES
algoritmasında topluluk birleştirme yöntemi için çoğunluk oylama yöntemi
kullanılmış ve sadece ikili sınıflandırma problemleri için çoğunluk oylama
yönteminin diğer yöntemlere göre daha iyi olduğu sadece teorik olarak gösterilmiştir.
VIBES(RF) algoritmasında hipotez arama algoritması olarak optimize edilmiş ileri
yönlü bir arama yöntemi ve Genetik Algoritmalar (GA) yöntemi kullanılmıştır. 33
adet benchmark veri kümesi üzerindeki sonuçlara göre optimize edilmiş ileri yönlü
arama algoritması ortalama %89.6963 doğruluk oranı ve ortalama 3.2359 saniyelik
arama zamanı ile GA yöntemine göre daha iyi sonuç vermiştir. GA yöntemiyle,
%89.4184 doğruluk oranı ve ortalama 127.6958 saniyelik arama zamanı elde
edilmiştir. Buna göre doğruluk oranları arasında çok ciddi bir fark olmamasına
rağmen optimize edilmiş ileri yönlü arama algoritması GA‘ya göre daha az sürede
aramalar gerçekleştirerek topluluğu oluşturmuştur. VIBES(RF) algoritmasında
özniteliklerin enformasyon miktarını ölçmek için iki yöntem kullanılmıştır. Bunlar:
ReliefF ve Shannon entropidir. Bu iki algoritmanın ortalama doğruluk oranları
sırasıyla %89.8153 ve %89.0519‘dur. Bu iki sonuç istatistiksel açıdan önemli bir
farka sahip olmadığı ve Shannon entropi diğer yönteme kıyasla daha hızlı çalıştığı
için enformasyon ölçüm yöntemi olarak Shannon entropi, özniteliklerin bilgi miktarı
ölçümü için varsayılan metot olarak ayarlanmıştır. Bu tez çalışmasında, çoğunluk
oylamalı topluluk öğrenicilerde oluşturulan topluluğun gerçek hata oranını tahmin
etmek için de veri uyarlamalı bir yöntem geliştirilmiştir. Bu yönteme göre 33 adet
benchmark veri kümesi üzerinde özniteliklerin bağımlılığı varsayımına göre gerçek
ve tahmini hata oranları arasındaki fark %0.575‘tir. Özniteliklerin bağımsızlığı
varsayımına göre gerçek ve tahmini hata oranlarının farkı ise %1.655‘tir. Böylelikle
her iki varsayımın ortalama hata oranı %1.115 olur. Tüm bu veriler ışığında hata
tahmin yönteminin gerçek hata oranına oldukça yakın sonuçlar verdiği söylenebilir.
xxxii
Parkinson veri kümesi kullanılarak öznitelik oluşturmak için Fast Fourier Dönüşümü
(FFD), Dalgacık dönüşümü (Haar, sym2, coif2, db2, db3, db4, db5, db6, db7, dmey,
bio3.3 ve gaus2) ve Hilbert-Huang Dönüşümü (HHD) kullanılmıştır. Bu sinyal
dönüşüm yöntemleri içerisinden HHD ile oluşturulmuş öznitelik kümesi üzerinde
hem VIBES algoritması hem de diğer Makine Öğrenmesi algoritmaları yüksek
doğruluk oranları vermiştir. Daubechies (db3) dalgacığı kullanılarak elde edilen
öznitelik kümesi ikinci en iyi sınıflandırma doğruluğu veren sinyal dönüşüm yöntemi
olmuştur. HHD kullanılarak oluşturulan Parkinson veri kümesine VIBES(KA)
algoritmasının (özniteliklerin bağımsızlığı varsayımına); 2-katlı çapraz doğrulama, 5-
katlı çapraz doğrulama, 10-katlı çapraz doğrulama ve Leave-One-Out-Çapraz-
Doğrulama (LOOÇD) testlerinin 10 kere uygulanması sonucunda sırasıyla
%95.4545±1.0785, %95.9394±1.3717, %95.4545±0.7693 ve %97.5758±0.0000
ortalama sınıflandırma doğrulukları elde edilmiştir. Bu testlerin ortalama
sınıflandırma doğruluğu oranı ise %96.1061‘dir. Bu deneylerin sonucunda LOOÇD
yöntemi kullanılarak elde edilen topluluk hipotezi model olarak seçilmiştir. Bu
model 14 temel hipotezden oluşmaktadır. Sonuç olarak literatürde daha önce yapılan
6 çalışmadan daha yüksek oranda sınıflandırma doğruluğu elde edilmiştir.