Nano'nun Günlüğü…

Ideallerimi gerceklestirmek icin arastiriyorum, Unutmamak icin yaziyorum!

  • Bulundugunuz Sayfa: 
  • Ana Sayfa
  • CART (Classification & Regression Trees)

CART (Classification & Regression Trees)

Gönderim Haziran 2nd, 2014

patregSiniflandirma ve regrasyon agaclari olarak bilinen bu modelin temelinde tek degiskenli ikili kararlarin bir hiyerarsisini icermektedir. Yaygin olarak kullanilan bu istatistiksel prosedur, verileri iki alt kumeye ayirmaktadir. CART agaclari kesin bir heterojenlige (impurity) sahiptirler ve bu heterojenlik iki degerli (binary) agaclar yardimiyla optimize edilerek homojen hale getirilmektedir.

CART (Classification & Regression Trees)

Siniflandirma ve regrasyon agaclari olarak bilinen bu modelin temelinde tek degiskenli ikili kararlarin bir hiyerarsisini icermektedir. Yaygin olarak kullanilan bu istatistiksel prosedur, verileri iki alt kumeye ayirmaktadir. Her bir alt kume icerisindeki veriler bir onceki alt kumeye ait verilerden biraz daha fazla homejen bir yapiya sahip olmaktadir. Birbirini devam eden bu surecler en optimize edilmis haldeki homojenlik kriterini veya durma kosullarini saglayincaya kadar kendini surekli tekrar edecektir. Tum bu sureclerde en iyi seceneklerin secilmesine ozen gosterilmektedir buna bagli olarakta bolunme kriterleri kullanilmaktadir. Kisaca ozetleyecek olursak, CART agaclari kesin bir heterojenlige (impurity) sahiptirler ve bu heterojenlik iki degerli (binary) agaclar yardimiyla optimize edilerek homojen hale getirilmektedir. Hedef, ayni veya yakin sonuc cikti degerlerinin oldugu alt gruplar yaratilmasidir.
CART algoritmalarina ornek verecek olursak; Twoing ve Gini algoritmalari.
CART agacini olustururken en iyi dallara ayirma kriterini secmek icin Entropy’den faydalanilmaktadir. Bu kriteri en iyi sekilde sonuclandirmak icin ise kullanilan formul ;

W(s/t) : Herhangi bir t dugumundeki s dallari
t : Dallanmanin yapilacagi dugumler
C : Kriteri
L : Agacin sol yani
R : Agacin sag yani
PL ve PR : Egitim seti icerisindeki bir verinin agacin solunda yada saginda olma olasiligi
P(Cj / tL) ve P(Cj / tR) : Verilerin bulundugu Cj sinifindaki bir kaydin agactaki yerinin solunda yada saginda olma olasiligi.

Bu formule dayanaraktan soylenebilecek kural ;
– Dallanmalar en buyuk kritere gore gerceklestiriliyorsa Twoing algoritmasi, en kucuk kriterlere gore gerceklestiriliyorsa Gini algoritmasinin kullanilmasi tavsiye ediliyor. Gini algoritmasindaki amac; her zaman her adimda en buyuk veri kumelemesinin olusturulmasidir. Bu kumelemeler sonuclandiginda ilgilenilmeyen dallar budanabilir. Twoing algoristmasindaki amac ise; her zaman ana dugum ve yavru dugumlerin cogunlugunun yarisi uzerinde calisma hedefidir. Gini algoritmasina gore daha yavas calisacak ve veriler uzerinde daha dengeli bir tavir sergilemis olacaktir.

CART Agaclari uzerinde calisirken minimum sayidaki n dugumu belirlenir. n dugumunun sayisini belirlerken genellikle veri setinin yuzde 10’u kadar bir deger secilir. Aksi bir degerin secilmesi algoritmayi ya hizlandirir yada yavaslatir ve bu test analiz sonuclarini yanlis degerlendirmis olur.

CART yaklasiminda, siniflar arasi ayrim maksimize edilirken, sinif icerisindeki varyasyonun minimize edilmesi bir kural olarak benimsenmistir. Hem kategorik hem de surekli bagimli degiskenlerin modellenmesi soz konusudur. Bagimli degiskenler eger kategorik ise yontem Siniflandirma Agaci (CT – Classification Tree), surekli ise Regresyon Agaci (Regression Tree) ismini almaktadir.

Siniflandirma Agaci (CT) : Siniflandirma agaci genelde turlerin dagilimi modellenmesi icin kullanilmaktadir. Bu sebepten bagimli degisken Var/Yok veya Evet/Hayir gibi ikili kategorileri icermektedir. Ikili bagimli degiskenlerinin homojenligine karar verirken Gini katisiklik olcumu kullanilir. Herhangi bir t dugumu icin g(t) fonksiyonu soyledir;

Buradaki i ve j egitim setindeki hedef (bagimli) degiskenin kategorileridir. Egerki ikili kategorilerden olusan bir yontem kullaniliyorsa formul esitligi asagidaki gibi degisecektir;

Herhangi bir t dugumune gelen bir ornegin s olarak bilinmesi ile, hem sol taraf ayrimini (tl) hem de sag taraf (tg) ayrimini gerceklestirecektir.

Burada, t dugumundeki durumlarin oranini belirtirken sag taraftaki Pr, sol taraftaki Pl degerleri belirlenir.

Regresyon Agaci (RT) : Regresyon agac mantiginda siniflara yer yoktur. Buna bagli olarak Gini indeksleme de kullanilmaz. Agac olusturulurken ikiye ayrilan sonuclarda dugumlerin tahmini toplam varyansin minimize edilerek hesaplanmasi gerekiyor. Agac olusturulurken her bir dugum icin yapilmasi gereken minimizasyon yani azaltma islemi icin gerekli formul asagidadir;

Burada yine, Pl ile sol dugum Pr ile sag dugum olasiliklari hesaplanmak istenmistir. Egitim setindeki degiskenlerin sayisini M ile ifade etmistir. Var(Yl) ve Var(Yr) karsilikli sag ve sol alt dugumlerin verktorlerini temsil etmektedir. Artiklarin karelerinin azaltma algoritmasina gore asagidaki formulde;

P(k|t) dugumunun t icerisinde bulundugu sinifin k’nin kosullarina bagli ozelliklerini, K sinif sayisi ve k sinif sayisi indeksi ile t dugum indeksini belirtmistir.

Regresyon Analizi :

Bir veya birden fazla kullanilan bagimsiz degiskenler ile bagimli degiskenlerin arasindaki iliskiyi kiyaslamak icin Regresyon analiz yontemi kullanilmaktadir. Iki yonteme sahiptir;
I ) Tek degiskenli regresyon analiz modeli
II ) Cok degiskenli regresyon analiz modeli

I ) Tek degiskenli regresyon analiz modeli : Bir bagimli degisken ve bir bagimsiz degisken arasindaki iliskiyi analiz eder. Bu iki iliski arasinda temsili olarak bir dogrusallik ifade vardir ve bu bir dogrunun denklemi formulu ile ifade edilir. y = a + bx + e denklemi kullanilabilir.
II ) Cok degiskenli regresyon analiz modeli : Bir bagimli degisken ve birden fazla bagimsiz degisken arasindaki iliskiyi analiz eder.

Keyifli Calismalar Dilerim.

Etiketler: , , , , , , , , ,
Bulundugu Konu Etiketleri Akademik, Matlab, Oruntu Tanima/ Pattern Recognition, Yazilim |

Lutfen Yorumlarinizi Burdan Ulastiriniz!...

You must be Kullanici Adiniz : to post a comment.

Istatistik

  • 1 Uye
  • 334 Yazi
  • 16 Yorum Var