Özet:
Bu tezin amacı, veri madenciliğinin bir alt dalı olan metin madenciliği kapsamında günümüzün en önemli sorunlarından olan metin sınıflama algoritmalarının matematiksel modelinin incelenmesi ve bir uygulamasının yapılmasıdır. Literatürde bu konu ile ilgili bir çok çalışma yapılmıştır. Tez çalışmasında bu çalışmalar incelenmiş ve sonuçlar yorumlanmıştır. Tez çerçevesinde ilk önce metin madenciliği ve metin sınıflama problemi tanıtılacaktır. Ardından metin sınıflama probleminin matematiksel ifadesi üzerinde durulacaktır. Metin sınıflama problemi uygulanmadan önce problemde kullanılacak olan metinsel verilerin üzerinde yapılan ön işlem aşamaları incelenecektir. Ön işlem aşamalarından sonra metinlerden bilgi çıkarımı, vektör uzay modeli ve metinlerin doğru sınıflandırılma yüzdesinin arttırılmasına yönelik geliştirilen özellik seçim algoritmaları ele alınacaktır. Bunun yanı sıra metin sınıflama için geliştirilmiş olan sınıflama algoritmalarından bahsedilecek, bu algoritmaların olumlu ve olumsuz yönleri üzerinde durulacak ve algoritmalar kıyaslanacaktır. Tezin son bölümünde ise algoritma performanslarının sayısal sonuçları yer alacaktır. Elde edilen sonuçlardan yola çıkarak özellik seçim algoritmalarının sınıflama yüzdesini ne ölçüde etkilediği tartışılacaktır. Sonuçlar tablolar yardımı ile yorumlanacak ve öneriler sunulacaktır.