Hüseyin TURGUT'un Yüksek Lisans Tezinden Alıntıdır...Veri Madenciliği
Bilgi çağında, her türlü karar biriminin en önemli malzemesi
veri ve bilgidir. Ekonomik birim olarak firma açısından rekabet avantajı
sayılabilecek bilgiyi incelemek, modellemek ve karar destek sistemlerinde
kullanabilmek için güçlü araçlara ihtiyaç vardır. Kuramsal tabana oturtulmuş
bilgi destek sistemleri, bilişim teknolojilerinde, özellikle son yıllardaki hem
yazılım hem de donanım açısından gelişmelere paralel olarak, büyük miktardaki
verileri işleme ve çıktı olarak elde edilen bilgiyi karar destek sistemlerinde
kullanabilme olanağına kavuşmuştur (Çakır, 2005).
Bilgisayar fiyatlarının ucuzlaması ile sayısal teknoloji daha
yaygın olarak kullanılmaktadır. Veriler doğrudan sayısal olarak toplanmakta ve
saklanmaktadır. Bunun sonucu olarak ayrıntılı ve doğru bilgiye ulaşılmaktadır (Alpaydın,
2000). Örneğin eskiden süper marketteki kasa sadece basit bir toplama
makinesinden ibarettir. Müşterinin o anda satın almış olduğu malların toplamını
hesaplamak için kullanılmaktadır. Günümüzde ise kasa yerine kullanılan satış
noktası terminalleri sayesinde bu hareketin bütün detayları saklanabilmektedir.
Saklanan bu binlerce malın ve binlerce müşterinin hareket verileri sayesinde her
malın zaman içindeki hareketlerine ve eğer müşteriler bir müşteri numarası ile
kodlanmışsa bir müşterinin zaman içindeki verilerine ulaşmak ve analiz etmek
mümkün olabilmektedir. Bütün bunlar marketlerde kullanılan barkot, bilgisayar
destekli veri toplama ve işleme cihazları sayesinde mümkün olmaktadır (Aydoğan,
2003).
Verilen market örneğinde olduğu gibi ticaret, tıp, askeri
güvenlik, iletişim benzeri birçok alanında yakın teknolojilerin kullanılması ile
veri hacminin yaklaşık olarak her yirmi ayda iki katına çıktığı tahmin
edilmektedir (Frawley et al., 1992; Kayaalp, 2007).
Veri madenciliği, verideki trendleri, ilişkileri ve profilleri
belirlemek için veriyi sınıflandıran bir analitik araç ve bilgisayar yazılım
paketidir. Spesifik veri madenciliği yazılımları; kümeleme, doğrusal regresyon,
sinir ağları, bayes ağları, görselleştirme ve ağaç tabanlı modeller gibi pek çok
modeli içermektedir. Veri madenciliği uygulamalarında yıllar boyu istatistiksel
yöntemler kullanılmıştır. Bununla birlikte, bugünün veri madenciliği
teknolojisinde eski yöntemlerin tersine büyük veri kümelerindeki trend ve
ilişkileri kısa zamanda saptayabilmek için yüksek hızlı bilgisayarlar
kullanılmaktadır. Böylece veri madenciliği, gizli trendleri minimum çaba ve
emekle ortaya çıkarmaktadır (Akbulut, 2006).
Literatürde veri madenciliği ile ilgili olarak aşağıda yer
alan farklı tanımlar ile karşılaşılmaktadır:
·
Jacobs (1999), veri madenciliğini, ham verinin tek başına
sunamadığı bilgiyi çıkaran veri analizi süreci olarak tanımlamıştır.
·
Davis (1999), veri madenciliğinin büyük hacimli verilerdeki
örüntüleri araştıran matematiksel algoritmaları kullandığını söylemiştir. Davis
(1999)’e göre veri madenciliği hipotezleri keşfeder, sonuçları birleştirmek için
insan yeteneğini kullanmaktadır. Veri madenciliğinin bir bilim olmadığı, aynı
zamanda bir sanat olduğu da söylenmektedir.
·
DuMouchel (1999), veri madenciliğinin geniş veritabanlarındaki
birliktelikleri araştırdığını belirtmiştir.
·
Hand (1998), veri madenciliğini istatistik, veritabanı
teknolojisi, örüntü tanıma, makine öğrenme ile etkileşimli yeni bir disiplin ve
geniş veritabanlarında önceden tahmin edilemeyen ilişkilerin ikincil analizi
olarak tanımlamıştır.
·
Kitler ve Wang (1998), veri madenciliğini oldukça tahminci anahtar
değişkenlerin binlerce potansiyel değişkenden izole edilmesini sağlama yeteneği
olarak tanımlamışlardır.
·
Bransten (1999), veri madenciliğinin insanın asla bulmayı hayal
bile edemeyeceği trendlerin keşfedilmesini sağladığını belirtmiştir.
Sonuç olarak veri madenciliği, önceden bilinmeyen ilişki ve
trendlerin bulunması için bugünün endüstrisinde yaratılan büyük miktarlardaki
veriyi analiz eden bir yoldur. Yüksek güçlü bilgisayarlarla gereken yazılımlara
kolay ve düşük fiyatlarla ulaşılabilmesi bu teknolojinin işlemesini mümkün
kılmıştır. Internet ise birçok noktadaki verinin toplanmasını sağlamaktadır.
Bilgisayar üzerinde çalışma aynı zamanda emek ve zaman tasarrufunu sağlamaktadır
(Akbulut, 2006).
Şekil 2.1.
Veri madenciliğinin aşamaları
Şekil 2.2.
Veri madenciliği ve iş zekası
Şekil 2.1 (Baykal, 2007)’de veri madenciliğine ait aşamalar,
Şekil 2.2 (Koyuncugil ve Özgülbaş, 2009)’de ise veri kaynağı ile karar
arasındaki ilişki belirtilmiştir. Süreç bu aşamalara uygun olarak
sürdürülmelidir. Buradaki veri ambarı, organizasyonun ihtiyaçları ile uyumlu
büyük miktarlardaki verinin kolay erişilebilir bir yapıda tutulmasını sağlayan
bilgisayar tabanlı depolama sistemidir (Bayram, 2001). Veri ambarları
organizasyonel veriye kolay bir şekilde ulaşılmasını sağlayan yapılardır. Veri
ambarları 1990’lı yıllarda ortaya çıkmıştır. Veri ambarları veriyi
kullanılabilir trend, ilişki ve profillerde sınıflandırmazlar, sadece potansiyel
bilgiye sahip veritabanlarıdır. Veride saklı bilgiyi keşfetmeyi sağlayan ise
veri madenciliği gibi tekniklerdir. Veri ambarından veriyi çekebilmek için hangi
verinin gerekli olduğunu ve bu verinin nerede olduğunu tespit etmek önemlidir.
Çoğunlukla gerekli veri, farklı sistemler üzerinde olup, farklı formatlardadır.
Bu nedenle, ilk aşamada veri temizleme ve düzenleme işlemi
gerçekleştirilmelidir. Veri ambarının yaratıcısı W.H. Immon’a göre veri ambarı
verinin temizlendiği, birleştirildiği ve yeniden düzenlendiği merkezi ve entegre
bir depodur (Restivo, 1999; Akbulut, 2006).
Temel olarak veri madenciliği ve gelişimini beş ana faktör
etkilemektedir. Bunlar (Akpınar, 2000):
1. Veri: Veri madenciliğinin gelişmesindeki en önemli
faktördür. Son yirmi yılda sayısal verinin hızla artması, veri madenciliğindeki
gelişmeleri hızlandırmıştır. Verilerin bu üstel artışına karşın, verilerle
uğraşan bilim adamları, mühendisler ve istatistikçilerin sayısı aynı oranda
artamamıştır. Problemin çözümü, verileri analiz etme yöntemlerinin ve
tekniklerinin geliştirilmesine bağlı olmaktadır.
2. Donanım: Veri madenciliği, sayısal ve istatistiksel olarak
büyük veri kümeleri üzerinde yoğun işlemler yapmak için planlanmıştır. Gelişen
bellek kapasiteleri ve artan işlemci hızları sayesinde, son birkaç yıla kadar
madencilik yapılamayacak kadar büyük veri ambarları üzerinde çalışmaya olanak
sağlamıştır.
3. Bilgisayar ağları: Yeni nesil internet teknolojileri, çok
yüksek hızlarda veri transferine izin vermektedir. Bilgisayar ağları
aracılığıyla, dağıtık veri tabanlarına ulaşmak, verileri analiz etmek ve farklı
algoritmaları kullanmak mümkün olmaktadır. 2000’li yılların başlarında hayal
olarak görünen kavramlar günümüzde kullanılabilen teknolojilerdir.
4. Bilimsel hesaplamalar: Günümüz bilim adamları ve
mühendisleri, simülasyonu bilimin üçüncü yolu olarak görmekteler. Veri
madenciliği ve bilgi keşfi; teori, deney ve simülasyonu birbirine bağlamada
önemli bir rol almaktadır.
5. Ticari eğilimler: Günümüzde, işletmeler rekabet ortamında
varlıklarını koruyabilmek için daha hızlı hareket etmek, daha yüksek kalitede
hizmet sunmak, bütün bunları yaparken de minimum maliyeti ve en az insan gücünü
göz önünde bulundurmak zorundadır. Veri madenciliği sayesinde müşterilerin ve
müşteri faaliyetlerinin yarattığı fırsatlar daha kolay tespit edilebilmekte ve
riskler daha açık görülebilmektedir.
2.2.2. Veri madenciliği ile yapılabilecekler
Günümüzde veri madenciliğinin kullanım alanları aşağıdakiler
gibi sayılabilir (Akpınar, 2000).
1. Pazarlama alanında; müşteri sınıflandırmada, müşterilerin
demografik özellikleri arasındaki bağlantıların kurulmasında, çeşitli pazarlama
kampanyalarında, mevcut müşterilerin elde tutulması için geliştirilecek
pazarlama stratejilerinin oluşturulmasında, pazar sepeti analizinde, çapraz
satış analizleri, müşteri değerleme, müşteri ilişkileri yönetiminde, çeşitli
müşteri analizlerinde, satış tahminlerinde kullanılmaktadır.
2. Bankacılık alanında; farklı finansal göstergeler arasındaki
gizli ilişkilerin bulunmasında, kredi kartı dolandırıcılıklarının tespitinde,
müşteri sınıflandırmada, kredi taleplerinin değerlendirilmesinde, usulsüzlük
tespiti, risk analizleri, risk yönetiminde kullanılmaktadır.
3. Sigortacılık alanında; yeni poliçe talep edecek
müşterilerin tahmin edilmesinde, sigorta dolandırıcılıklarının tespitinde,
riskli müşteri tipinin belirlenmesinde kullanılmaktadır.
4. Perakendecilik alanında; satış noktası veri analizleri,
alış-veriş sepeti analizleri, tedarik ve mağaza yerleşiminin en uygun yerleşime
sokulmasında kullanılmaktadır.
5. Borsa alanında; hisse senedi fiyat tahmini, genel piyasa
analizleri, alım-satım stratejilerinin en uygun şekle sokulmasında
kullanılmaktadır.
6. Telekomünikasyon alanında; kalite ve iyileştirme
analizlerinde, hisse tespitlerinde, hatların yoğunluk tahminlerinde
kullanılmaktadır.
7. Tıp ve medikal alanında; test sonuçlarının tahmini, ürün
geliştirme, tıbbi teşhis, tedavi sürecinin belirlenmesinde kullanılmaktadır.
8. Endüstri alanında; kalite kontrol analizlerinde, lojistik,
üretim süreçlerinin enuygun şekle sokulmasında kullanılmaktadır.
9. Bilim ve mühendislik alanında; ampirik veriler üzerinde
modeller kurarak bilimsel ve teknik problemlerin çözümlenmesinde
kullanılmaktadır.
Veri madenciliğinin asıl amacı, veri yığınlarından anlamlı
bilgiler elde etmek ve bunu eyleme dönüştürecek kararlar için kullanmak olduğu
dikkate alınarak kullanım alanlarını özelleştirmektir (Akpınar, 2000). Bir
işletme kendi müşterisiyken rakibine giden müşterileriyle ilgili analizler
yaparak rakiplerini tercih eden müşterilerinin özelliklerini elde edebilir ve
bundan yola çıkarak gelecek dönemlerde kaybetme olasılığı olan müşterilerin
kimler olabileceği yolunda tahminlerde bulunarak onları kaybetmemek,
kaybettiklerini geri kazanmak için strateji geliştirebilmektedir. Bunun gibi
amaçlar için şu işlemler yapılabilir:
1. Ürün veya hizmette hangi özelliklerin ne derecede müşteri
memnuniyetini etkilediği, hangi özelliklerinden dolayı müşterini bunları tercih
ettiği ortaya çıkarılabilir.
2. Ürün talebi bazında müşteri profillerini belirleyerek,
müşteri segmentasyonuna gitmek ve çapraz satış olanakları yaratmakta
kullanılabilir.
3. Piyasada oluşabilecek değişikliklere mevcut müşteri
portföyünün vereceği tepkinin firma üzerinde yaratabileceği etkinin tespitinde
kullanılabilir.
4. Bir ürün veya hizmetle ilgili bir kampanya programı
oluşturmak için hedef kitlenin seçiminden başlayarak bunun hedef kitleye hangi
kanallardan sunulacağı kararına kadar olan süreçte veri madenciliği
kullanılabilir.
5. Operasyonel süreçte oluşabilecek olası kayıpların veya
suiistimallerin tespitinde kullanılabilir.
6. Kurum teknik kaynaklarının en uygun şekilde kullanılmasını
sağlamakta kullanılabilir.
7. Firmanın finansal yapısının, makro ekonomik değişmeler
karşısındaki duyarlılığı ve oluşabilecek risklerin tespitinde kullanabilir.
8. Geçmiş ve mevcut yapı analiz edilerek geleceğe yönelik
tahminlerde bulunulabilir. Özellikle ciro, karlılık, pazar payı, gibi
analizlerde veri madenciliği çok rahat kullanılabilir.
9. Tıbbi veriler değerlendirilerek teşhis koymada ve koyulan
teşhis neticesinde hastanın verilerine uygun izlenilecek tedavinin seçilmesinde
kullanılabilir (Akpınar, 2000).
Çizelge 2.5 (Akbulut, 2006)’de 2003
yılında veri madenciliğinin sektörler bazında kullanımına ilişkin bir
araştırmanın sonuçları yer almaktadır (Kdnuggets, 2003). Bu çizelgede
araştırmaya katılan toplam 421 şirketin 51 adedinin bankacılık alanında veri
madenciliğinin kullandığı görülmektedir.
Çizelge 2.5. Veri madenciliğinin
uygulandığı alanlar
Alan - adet |
Yüzde |
Bankacılık - 51 |
12 |
Bioteknoloji Genetik -11 |
3 |
Kredi Skorlama -35 |
8 |
CRM – 52 |
12 |
Doğrudan Pazarlama -34 |
8 |
e-ticaret -11 |
3 |
Eğlence - 4 |
1 |
Sahtekarlık -31 |
7 |
Şans oyunları -2 |
0,01 |
Kamu -12 |
3 |
Sigortacılık -24 |
6 |
Yatırım -5 |
1 |
Sağlık – 15 |
4 |
Tıp - 12 |
3 |
Veri madenciliği sürecinin gereksinimleri aşağıdaki
belirtilebilir (Akbulut, 2006):
·
Erişilebilir veri,
·
Etkin erişim yöntemleri,
·
Açık problem tanımı,
·
Etkin algoritmalar,
·
Yüksek performanslı uygulama sunucusu,
·
Sonuç oluşturmada esneklik.
Veri madenciliğinin diğer bir gereksinimi temizlenmiş veridir.
Veri madenciliğinde kullanılacak verilerden yanlış sonuçlar üretmeye yol
açabilecek aykırı değerler temizlenmelidir (Jacobs, 1999). Doğru veri mevcut
değilse ve verinin limitleri bilinmiyorsa; kullanılan yazılımın yanlış sonuçlar
üretmesi kaçınılmazdır (Akbulut, 2006).
Veri madenciliği, girdi olarak kullanılacak ham veriyi
veritabanlarından alır. Bu da veritabanlarının dinamik, eksiksiz, geniş ve net
veri içermemesi durumunda sorunlar doğurur (Aydoğan, 2003). Diğer sorunlar ise
verinin konu ile uyumsuzluğundan doğabilir. Sorunların sınıflandırılmasıyla
oluşan başlıca nedenler aşağıdaki gibidir (Akbulut, 2006):
1. Sınırlı bilgi: Veritabanları genel olarak veri madenciliği
dışındaki amaçlar için tasarlanmışlardır ve öğrenme görevini kolaylaştıracak
bazı özellikleri baraındırmayabilir.
2. Gürültü ve kayıp değerler: Veri özellikleri ya da
sınıflarındaki hatalara gürültü adı verilir. Veri tabanlarındaki eksik bilgi ve
bu yanlışlardan dolayı veri madenciliği amacına tam olarak ulaşmayabilir. Bu tip
bir bilgi yanlışlığı ölçüm hatalarından ya da öznel yaklaşımlardan
kaynaklanabilmektedir.
3. Belirsizlik: Yanlışlıkların şiddeti ve verideki gürültünün
derecesi ile ilgilidir. Veri tahmini bir keşif sisteminde önemli bir husustur.
4. Ebat, güncellemeler ve konu dışı sahalar: Veri
tabanlarındaki bilgiler, veri eklendikçe ya da silindikçe değişebilmektedir.
Veri madenciliği perspektifinden bakıldığında, kuralların hala aynı kalıp
kalmadığı ve istikrarlılığı problemi ortaya çıkmaktadır. Öğrenme sistemi, bazı
verilerin zamanla değişmesine ve keşif sistemindeki verinin zamansızlığına
rağmen zamana duyarlı olmalıdır.
Farklı algoritmaları bünyesinde bulunduran ve farklı işletim
sistemleri üzerinde çalışabilen birçok veri madenciliği yazılımı bulunmaktadır.
Çizelge 2.6 (Akbulut, 2006) ve Çizelge 2.7 (Kdnuggets, 2011)’de bu yazılımların
çalıştığı platform ve algoritma sayıları verilmiştir.
Çizelge 2.6. Veri madenciliği
yazılımları ve çalıştıkları platformlar
Çizelge 2.7. 2010 ve 2011 yıllarında kullanılan veri
madenciliği yazılımları
RapidMiner (305) |
11 Ants Analytics (62) |
Oracle Data Miner (8) |
Hadoop Map/Reduce (19) |
R (257) |
Microsoft SQL Server
(54) |
Predixion (6) |
Mathematica (18) |
Excel (240) |
Other free software (45) |
Centrifuge (3) |
Revolution Computing
(15) |
SAS (150) |
Zementis (41) |
Viscovery (1) |
KXEN (15) |
Your own code (134) |
Other commercial
software (35) |
Data Applied (1) |
Orange (14) |
KNIME (134) |
Tableau (29) |
Clarabridge (3) |
Miner3D (14) |
Weka (Pentaho) (130) |
C4.5/C5.0/See5 (21) |
JMP (63) |
XLSTAT (10) |
Salford (117) |
TIBCO Spotfire / S+ /
Miner (19) |
SAS Enterprise Miner
(78) |
NoSQL databases (10) |
Statistica (94) |
WordStat (5) |
Angoss (9) |
Stata (9) |
IBM SPSS Modeler (91) |
Megaputer Polyanalyst/TextAnalyst
(4) |
Grapheur (3) |
Other cloud-based tools
(9) |
MATLAB (79) |
Portrait Software (3) |
IBM SPSS Statistics (79) |
Bayesia (9) |
Ne kadar etkin olursa olsun hiç bir veri madenciliği
algoritmasının, üzerinde inceleme yapılan işin ve verilerin özelliklerinin
bilinmemesi durumunda fayda sağlaması mümkün değildir. Bu nedenle tüm
aşamalardan önce işe ve veriye ait özelliklerinin anlaşılması gereklidir.
Şekil 2.3.
Veri madenciliği süreci
Şekil 2.3 (Resvito, 1999)’de
de veri madenciliği sürecinin beş ana maddeye ayrıldığı görülmektedir. Bu
aşamalar aşağıda verilmiştir (Restivo, 1999):
1. Problemin Tanımlanması,
2. Verilerin Hazırlanması,
3. Modelin Kurulması ve değerlendirilmesi,
4. Modelin Kullanılması,
5. Modelin İzlenmesi.
Veri madenciliği çalışmalarında başarılı olmanın en önemli
şartı, projenin hangi amaç için yapılacağının açık bir şekilde tanımlanmasıdır.
İlgili amaç konuya ait problem üzerine odaklanmış ve açık bir dille ifade
edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği
tanımlanmalıdır. Ayrıca yanlış tahminlerde katlanılacak olan maliyetlere ve
doğru tahminlerde kazanılacak faydalara ilişkin tahminlere de bu aşamada yer
verilmelidir (Domouchel, 1999).
Bu aşamada mevcut iş probleminin bir sonuç üretilmesi
durumunda nasıl çözüleceğinin, üretilecek olan sonucun fayda - maliyet
analizinin başka bir deyişle üretilen bilginin amaç için değerinin doğru analiz
edilmesi gerekmektedir.
Analistin bu konuda üretilen sayısal veri boyutlarını, proje
için yeterlilik düzeyini iyi analiz etmesi gerekmektedir. Ayrıca analist,
konunun ve işin süreçleri hakkında da bilgi edinmelidir (Domouchel, 1999).
Veri madenciliğinin en önemli aşamalarından biri olan verinin
hazırlanması (veri ambarının oluşturulması) aşaması, analistin toplam zaman ve
enerjisinin %50- %75’ini harcamasına neden olmaktadır. Bu aşamada işin mevcut
bilgi sistemleri üzerinde ürettiği sayısal bilginin iyi analiz edilmesi, veriler
ile mevcut iş problemi arasında ilişkinin uygun olması gerekliliği
unutulmamalıdır. Proje kapsamında kullanılacak sayısal verilerin, hangi iş
süreçleri ile yaratıldığı da bu veriler kullanılmadan analiz edilmelidir. Bu
sayede analist veri kalitesi hakkında fikir sahibi olabilmektedir. Verilerin
hazırlanması aşaması kendi içerisinde toplama, birleştirme ve temizleme,
dönüştürme adımlarından meydana gelmektedir (Domouchel, 1999).
Veri toplama; tanımlanan problem için gerekli olduğu düşünülen
verilerin ve bu verilerin toplanacağı veri kaynaklarının belirlenmesi adımıdır.
Verilerin toplanmasında analist, kendi veri kaynaklarının dışındaki nüfus
sayımı, hava durumu, merkez bankası kara listesi gibi veri tabanlarından veya
veri pazarlayan kuruluşların veri tabanlarından faydalanılabilmektedir (Domouchel,
1999).
Veri birleştirme ve temizleme; bu adımda toplanan verilerde
bulunan farklılıklar giderilmeye çalışılır. Hatalı veya analizin yanlış
yönlenmesine sebep olabilecek verilerin temizlenmesine çalışılır. Genellikle
yanlış veri girişinden veya bir kereye özgü bir olayın gerçekleşmesinden
kaynaklanan verilerin, önemli bir uyarıcı enformasyon içerip içermediği kontrol
edildikten sonra veri kümesinden atılması tercih edilir. Ancak basit yöntemlerle
ve baştan savma olarak yapılacak sorun giderme işlemlerinin, ileriki aşamalarda
daha büyük sorunların kaynağı olacağı unutulmamalıdır (Domouchel, 1999).
Veri dönüştürme; kullanılacak model ve algoritma çerçevesinde
verilerin tanımlama veya gösterim şeklinin de değiştirilmesi gerekebilir.
Örneğin; kredi riski uygulamasında iş tiplerinin, gelir seviyesi ve yaş gibi
değişkenlerin kodlanarak gruplanmasının gerekliliği söz konusudur (Domouchel,
1999).
Tanımlanan problem için en uygun modelin bulunabilmesi,
olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle
veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele
varılıncaya kadar yinelenen bir süreçtir (Domouchel, 1999).
Bir modelin doğruluğunun test edilmesinde kullanılan en basit
yöntem basit geçerlilik testidir. Bu yöntemde tipik olarak verilerin % 5 ile %33
arasındaki bir kısmı test verileri olarak ayrılır ve kalan kısım üzerinde
modelin öğrenimi gerçekleştirildikten sonra, bu veriler üzerinde test işlemi
yapılmaktadır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının,
tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay
sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır.
Doğruluk oranı ile hata oranının toplamı 1’dir (Domouchel, 1999).
Önemli diğer bir değerlendirme ise ölçüt modelin
anlaşılabilirliğidir. Bazı uygulamalarda doğruluk oranlarındaki küçük artışlar
çok önemli olsa da, birçok işletme uygulamasında ilgili kararın niçin
verildiğinin yorumlanabilmesi çok daha büyük önem taşıyabilir. Çok ender olarak
yorumlanamayacak kadar karmaşıklaşsalar da, genel olarak karar ağacı ve kural
temelli sistemler model tahmininin altında yatan nedenleri daha başarılı şekilde
ortaya koyabilmektedir (Domouchel, 1999).
Kurulan ve geçerliliği kabul edilen model doğrudan bir
uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak da
kullanılabilir. Kurulan modeller risk analizi, kredi değerlendirme,
dolandırıcılık tespiti gibi işletme uygulamalarında doğrudan kullanılabileceği
gibi, promosyon planlaması simülasyonuna entegre edilebilir veya tahmin edilen
envanter düzeyleri yeniden sipariş noktasının altına düştüğünde otomatik olarak
sipariş verilmesini sağlayacak bir uygulamanın içine de gömülebilmektedir (Domouchel,
1999).
Zaman içerisinde bütün sistemlerin özelliklerinde ve
dolayısıyla ürettikleri verilerde ortaya çıkan değişikliklerle kurulan
modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesini
gerektirecektir. Tahmin edilen ve gözlenen değişkenler arasındaki farklılığı
gösteren grafikler, model sonuçlarının izlenmesinde kullanılan yararlı bir
yöntemdir (Domouchel, 1999).
Bilgi çağında, daha önce de belirtildiği gibi her türlü karar
biriminin en önemli girdisi bilgidir. Ekonomik birim olarak firma açısından
rekabet avantajı sayılabilecek bilgiyi incelemek, modellemek ve karar destek
sistemlerinde kullanabilmek için güçlü araçlara ihtiyaç vardır (Çakır, 2005).
Kuramsal tabana oturtulmuş bilgi destek sistemleri, bilişim teknolojilerinde,
özellikle son yıllardaki hem yazılım hem de donanım açısından gelişmelere
paralel olarak, büyük miktardaki verileri işleme ve çıktı olarak elde edilen
bilgiyi karar destek sistemlerinde kullanabilme olanağına kavuşmuştur (Çakır,
2005).
İnsan ve makine uzman, veri madenciliğinin birbirini
tamamlayan en önemli bileşenleridir. İnsan uzman veri tabanının hazırlanması,
problemin tanımlanması ve hedeflerin belirlenmesinde aktif olan etkendir. Makine
uzman ise verileri, hedeflerle uyuşan örüntüleri saptamak amacıyla taramak ve bu
örüntülere uygun kuralları öğrenmekten sorumludur (Çakır, 2005).
Veri madenciliğinde veri elektronik ortamda saklanmakta,
verideki örüntüler otomatik olarak aranmakta, doğrulanmakta ve tahmin veya
sınıflandırma amacıyla kullanılmak üzere kurallar öğrenilmektedir. İnsan uzmanın
bilgi çıkarma sürecindeki diğer bir sorumluluğuysa makine uzmanının öğrendiği
bilginin incelenmesi, sorgulanması, sınanması ve tutarsız veya anlamsız
bilgilerin ayıklanması, sorgulama ve sınama sonucunda veri tabanının
düzenlenmesi, hatalı bilgi ve verilerin düzeltilmesidir. Veri madenciliğinin
asıl amacı düşünüldüğünde, insan uzmanı, makine uzmanını bilgi işleme yeteneğine
ve kapasitesine dayanarak sürece olabildiğince az dahil etmeli ve değerli bir
kaynak olarak zamanın daha önemli alanlarda kullanılabilmesini sağlamalıdır. (Weiss
and Indurkhya, 1998).
Makine öğrenmesi, yapay zekanın veri madenciliği ve
istatistikle ilintili bir dalıdır. Veri madenciliğinde olduğu gibi, makine
öğrenmesinde de, analize konu olan alana ait veriler, örnekler, daha açık bir
ifadeyle, örneklere ait özellikleri tanımlayan öznitelik değerleri olarak
sisteme iletilir ve makine uzman ya da programın bu verilere ait örüntüyü ve
yapıyı öğrenmesi istenir. Öğrenme sürecinin en önemli özelliği, veri setine
eklenen her yeni bilgi için, makine uzmanın önceki veri yapılarını öğrenmiş
olarak, örüntüdeki değişmelerin ayırımına varması ve bu değişimlerin getirdiği
bilginin kural setine eklemesinin varsayılmış olmasıdır. Böylece, makine uzmanın
yeni durumlarla karşılaştığında, en azından potansiyel performansının
artırılması amaçlanmaktadır.
Makine öğrenmesi yöntemleri, büyük veri setlerinde rahatlıkla
kullanılabilen ve daha çok bilgiyi kolaylıkla işlemeye yatkın güçlü
yöntemlerdir. Bu buluşsal tahmin yöntemleri, istatistiksel yöntemlerden farklı
olarak, sıklıkla güçlü ampirik sonuçlar üretebilmektedir (Frank and Witten,1998;
Çakır, 2005). Öğrenme yöntemlerinin çoğunda, “öğrenilen problemin” yapısal
tanımları araştırılmaktadır (İkizler, 2002). Bu tanımlar, genellikle oldukça
karmaşık ve karar ağaçlarının öğrendiğine benzer kural setleri biçiminde ifade
edilmektedir. Ancak yapay sinir ağları gibi yöntemler böyle tanımlar yapmazlar.
Makine öğrenmesi uygulamalarında tanımlar, genellikle algoritmanın yeni
örnekleri sınıflandırma performansından daha önemlidir. Tanımların kuramsal
anlamlılık koşulu sağlandığında, yüksek sınıflandırma performansı algoritmanın
tercih edilmesinde ikinci düzeyde aranacak ölçüttür (Witten and Frank, 2000;
Çakır, 2005).
Veri madenciliği ve makine öğrenmesi yöntemlerinin temel
özellikleri şöyle özetlenebilir (Çakır, 2005):
1. Her iki yöntem de kuramsal olmaktan çok ampirik
öğrenme/sınıflandırma problemleriyle ilgilenir.
2. Verideki yapısal örüntüleri bulmak ve tanımlamak, bu veriyi
açıklayacak aracı, yani algoritmayı ve ilintili kural kümesini (kümelerini)
bulmak ve bu bilgiyi tahmin veya sınıflandırma amacıyla kullanmak makine
öğrenmesinin asıl amacıdır.
3. Veri seti örneklerden oluşmaktadır. Her iki yöntemin
çıktısı, yeni örnekler üzerinde yapılan tahmin/sınıflandırma ya da öğrenilen
kurallardır.
4. Elde edilen bilginin, tanım alanı bağlamında
kuramsallaştırılması önemli bir hedeftir.
5. Makine öğrenmesi ve veri madenciliği yöntemlerinde, veriden
bilgi çıkarma yarım ya da tam otomatik süreçlerdir.
6. Karar destek sistemleri açısından, her iki yöntemde de,
makine uzmanın bilgi işleme kapasitesine dayanılarak, insan uzmanın bu alandaki
eksiklileri giderilmek ve rekabet avantajı sağlamak amaçlanmaktadır.
Veri madenciliği tekniklerini işlevlerine göre aşağıdaki gibi
üç temel grupta sıralamak da uygun olacaktır (Akbulut, 2006):
1. Sınıflama (Classification),
2. Kümeleme (Clustering),
3. Birliktelik kuralları ve sıralı örüntüler (Association
rules and sequential patterns).
Gerek tanımlayıcı gerekse tahmin edici modellerde yoğun olarak
kullanılan belli başlı istatistiksel yöntemler; sınıflama (classification) ve
regresyon (regression), kümeleme (clustering), birliktelik kuralları (association
rules) ve ardışık zamanlı örüntüler (sequential patterns), bellek tabanlı
yöntemler, yapay sinir ağları ve karar ağaçları olarak gruplandırılabilir.
Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları
ve ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir (Domouchel, 1999).
Sınıflama, verinin önceden belirlenen çıktılara uygun olarak
ayrıştırılmasını sağlayan bir tekniktir. Çıktılar, önceden bilindiği için
sınıflama, veri kümesini denetimli olarak öğrenir (Giudici, 2003). Mevcut
verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri
madenciliği teknikleri içerisinde en yaygın kullanıma sahip olan sınıflama ve
regresyon modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin
kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli
lojistik regresyon (multinomial logistic regression) gibi kategorik değerlerin
de tahmin edilmesine olanak sağlayan tekniklerle, her iki model giderek
birbirine yaklaşmakta ve bunun bir sonucu olarak aynı tekniklerden
yararlanılması mümkün olmaktadır. Sınıflama ve regresyon modellerinde kullanılan
başlıca teknikler aşağıdaki gibi sıralanabilir (Akpınar, 2000):
1. Diskriminant analizi (Discriminant Analysis),
2. Naïve-Bayes,
3. Karar Ağaçları (Decision Trees),
4. Yapay Sinir Ağları (Artificial Neural Networks),
5. Kaba kümeler,
6. Genetik Algoritmalar (Genetic Algorithms),
7. Bellek Temelli Nedenleme (Memory Based Reasoning),
8. Regresyon analizi (Regression Analysis).
Belirtilen bu tekniklerden ilki olan diskriminant analizi, bir
dizi gözlemi önceden tanımlanmış sınıflara atayan bir tekniktir. Model, ait
oldukları sınıfı bilinen gözlem kümesi üzerine kurulur. Bu küme, öğrenme kümesi
olarak da adlandırılır. Öğrenme kümesine dayalı olarak, diskriminant fonksiyonu
olarak bilinen doğrusal fonksiyonların bir kümesi oluşturulur. Diskriminant
fonksiyonu, yeni gözlemlerin ait olduğu sınıfı belirlemek için kullanılır. Yeni
bir gözlem söz konusu olduğunda için tüm diskriminant fonksiyonları hesaplanır
ve yeni gözlem diskriminant fonksiyonunun değerinin en yüksek olduğu sınıfa
atanır.
Naive bayes, hedef değişkenle bağımsız değişkenler arasındaki
ilişkiyi analiz eden tahmine yönelik ve tanımlayıcı bir sınıflama algoritmasıdır
(Hudairy, 2004; Akbulut, 2006). Naive Bayes, sürekli veri ile çalışmaz. Bu
nedenle sürekli değerleri içeren bağımlı ya da bağımsız değişkenler kategorik
hale getirilmelidir. Örneğin; bağımsız değişkenlerden biri yaş ise, sürekli
değerler “<20” “21-30”, “31-40” gibi yaş aralıklarına dönüştürülmelidir.
Naive Bayes, modelin öğrenilmesi esnasında, her çıktının
öğrenme kümesinde kaç kere meydana geldiğini hesaplar. Bulunan bu değer,
öncelikli olasılık olarak adlandırılır. Örneğin; bir banka kredi kartı
başvurularını “iyi” ve “kötü” risk sınıflarında gruplandırmak istemektedir. İyi
risk çıktısı toplam 5 vaka içinde 2 kere meydana geldiyse iyi risk için
öncelikli olasılık 0,4’tür. Bu durum, “Kredi kartı için başvuran biri hakkında
hiçbir şey bilinmiyorsa, bu kişi 0,4 olasılıkla iyi risk grubundadır” olarak
yorumlanır. Naive Bayes aynı zamanda her bağımsız değişken ve bağımlı değişken
kombinasyonuna ait meydana gelme sıklığını bulur. Bu sıklıklar öncelikli
olasılıklarla birleştirilmek suretiyle tahminde kullanılır (Akbulut, 2006).
Karar ağaçları, yaygın olarak kullanılan sınıflama
algoritmalarından biridir. Karar ağacı yapılarında, her düğüm bir nitelik
üzerinde gerçekleştirilen testi, her dal bu testin çıktısını, her yaprak düğüm
ise sınıfları temsil eder. En üstteki düğüm kök düğüm olarak adlandırılır. Karar
ağaçları, kök düğümden yaprak düğüme doğru çalışır (Wei and Chiu, 2002).
En yaygın kullanılan karar ağacı algoritmaları (Rakotomalala,
1991) şunlardır:
1. A limited search induction tree algorithm (Catlett, 1991),
2. ID3-IV (Quinlan, 2004),
3. GID3 (Cheng et al, 1988; Dan et al, 2010),
4. ASSISTANT 86 (Cestnik et al.,1987),
5. CHAID (Kass, 1980),
6. C&RT (Classification and Regression Trees) (Rakotomalala,
2005),
7. Improved CHAID (Tschuprow Goodness of Split) (Quinlan,
1992),
8. C4.5 (Quinlan, 1992; Kohavi and Quinlan,2002),
9. Improved C4.5 (Zighed et al, 2000; Taneja, 2001; Corchado
and Yin, 2009),
10. Cost sensitive C4.5 (Bradford et al., 1998; Drummond and
Holte, 2000; Chauchat et al, 2001),
Yapay sinir ağları, insan beyninin özelliklerinden olan
öğrenme yolu ile yeni bilgiler türetebilme, yeni bilgiler oluşturabilme ve
keşfedebilme gibi yetenekleri herhangi bir yardım almadan otomatik olarak
gerçekleştirmek amacı ile geliştirilen bilgisayar sistemleridir. Bu yetenekleri
geleneksel programlama yöntemleri ile gerçekleştirmek oldukça zordur veya mümkün
değildir. Bu nedenle yapay sinir ağlarının, programlanması çok zor veya mümkün
olmayan olaylar için geliştirilmiş adaptif bilgi işleme ile ilgilenen bir
bilgisayar bilim dalı olduğu söylenebilir (Öztemel, 2003).
Diğer bir tanıma göre yapay sinir ağları; insan beyninden
esinlenerek geliştirilmiş, ağırlıklı bağlantılar aracılığıyla birbirine bağlanan
ve her biri kendi belleğine sahip işlem elemanlarından oluşan paralel ve
dağıtılmış bilgi işleme yapılarıdır. Bir başka deyişle biyolojik sinir ağlarını
taklit eden bilgisayar programlarıdır (Elmas, 2003).
Yapılan tanımların bazı ortak noktaları bulunmaktadır.
Bunların en başında yapay sinir ağlarının birbirine hiyerarşik olarak bağlı ve
paralel çalışabilen yapay sinir hücrelerinden oluşmaları gelmektedir. Proses
elemanları da denilen bu hücrelerin birbirlerine bağlandıkları ve her
bağlantının bir değerinin olduğu kabul edilmektedir.
Bilginin öğrenme yolu ile elde edildiği ve proses
elemanlarının bağlantı değerlerinde saklandığı, dolayısıyla dağıtık bir
hafızanın söz konusu olduğu da ortak noktalardan birisini oluşturmaktadır.
Proses elemanlarının birbirleri ile bağlanmaları sonucunda oluşan ağa, yapay
sinir ağı adı verilmektedir (Çuhadar, 2006). Bu teknik, veritabanındaki
örüntüleri, sınıflandırma ve tahminde kullanılmak üzere genelleştirmektedir.
Yapay sinir ağları algoritmaları, sayısal veriler üzerinde çalışırlar (Akbulut,
2006).
Kaba küme teorisi 1970’li yıllarda Pawlak tarafından
geliştirilmiştir. Kaba küme teorisinde bir yaklaştırma uzayı ve bir kümenin alt
ve üst yaklaştırmaları vardır. Yaklaştırma uzayı, ilgilenilen alanı ayrı
kategorilerde sınıflandırır. Alt yakınlaştırma belirli bir altkümeye ait olduğu
kesin olarak bilinen nesnelerin tanımıdır. Üst yakınlaştırma ise alt kümeye ait
olması olası nesnelerin tanımıdır. Alt ve üst sınırlar arasında tanımlanan
herhangi bir nesne ise “kaba küme” olarak adlandırılır (Pawlak, 1999).
Genetik algoritma, rassal arama tekniklerini kullanarak çözüm
bulmaya çalışan, parametre kodlama esasına dayalı bir arama tekniğidir (Goldberg,
1989). Genetik algoritma, pek çok problem türü için uygun parametreler ile
çalışıldığı takdirde optimuma yakın çözümler verir. Genetik algoritmanın çalışma
yöntemi Darwin’in Doğal Seçim prensibine dayanır. Genetik algoritmada amaç,
doğal sistemlerin uyum sağlama özelliğini dikkate alarak yapay sistemleri
tasarlamaktır (Croce et al, 1995; Engin ve Fığlalı, 2002).
Algoritma ilk olarak popülasyon adı verilen bir çözüm kümesi
(öğrenme veri kümesi) ile başlatılmaktadır. Bir popülasyondan alınan sonuçlar
bir öncekinden daha iyi olacağı beklenen yeni bir popülasyon oluşturmak için
kullanılmaktadır. Evrim süreci tamamlandığında bağımlılık kuralları veya sınıf
modelleri ortaya konmuş olacaktır (Shah and Kursak, 2004).
Bir problemin genetik algoritma ile çözümünde takip edilecek
işlem adımları aşağıdaki gibidir (Croce et al., 1995):
1. Arama uzayındaki bütün muhtemel çözümler, dizi olarak
kodlanır. Her bir dizi, arama uzayında belirli bir bölgeye tekabül eder.
2. Genellikle rassal bir çözüm seti seçilir ve başlangıç
popülasyonu olarak kabul edilir.
3. Her bir dizi için bir uygunluk değeri hesaplanır; bulunan
uygunluk değerleri dizilerin çözüm kalitesini gösterir.
4. Bir grup dizi (kromozom) belirli bir olasılık değerine göre
rassal olarak seçilip üreme işlemi gerçekleştirilir.
5. Üreme işleminde çeşitli genetik operatörler kullanılabilir.
Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte
1950’li yıllarda önerilmiş olmasına rağmen o yıllarda gerektirdiği hesaplama ve
bellek yüzünden kullanılamamıştır. Ancak günümüzde bilgisayarların ucuzlaması ve
kapasitelerinin artmasıyla, özellikle de çok işlemcili sistemlerin
yaygınlaşmasıyla kullanılabilir duruma gelmiştir (Orhunbilge, 2002).
Örnek tabanlı yönteme en iyi örnek en yakın k komşu
algoritmasıdır. En yakın komşu yaklaşımı, x noktasının sınıfını, x noktasına en
yakın olan noktanın sınıfı olarak belirleme yaklaşımıdır. Sınıfı belirlenen
nokta ile komşu nokta aynı sınıfa ait değiller ise hata söz konusudur. Bu
yaklaşım sadece en yakın komşu ile sınıflandırma yapar, önceden sınıflandırılmış
diğer noktaları önemsemez (Orhunbilge, 2002). Temel yaklaşımı, sınıflandırılmak
istenen örneğe en yakın örnekleri bulmak olarak özetlenebilir ve aşağıdaki
şekilde tanımlanabilir (Tan vd., 2005):
1. Bütün örnekler n-boyutlu uzayda bir noktaya karşı
düşürülür.
2. Nesneler arasındaki uzaklık (Öklid uzaklığı) belirlenir.
3. Öğrenilen fonksiyon ayrık değerli veya gerçel değerli
olabilir.
4. Ayrık değerli fonksiyonlarda k-komşu algoritması
Xq örneğine en yakın k
öğrenme örneğinde en çok görülen sınıf değerini verir.
5. Sürekli değerli fonksiyonlarda en yakın k öğrenme örneğinin
ortalaması alınmaktadır.
Regresyon analizi, herhangi bir değişkenin (bağımlı değişken),
bir veya birden fazla değişkenle (bağımsız veya açıklayıcı değişken) arasındaki
ilişkinin matematik bir fonksiyon şeklinde yazılmasıdır. Bu fonksiyona regresyon
denklemi adı verilmektedir. Regresyon denklemi yardımıyla bağımlı değişken ile
bağımsız değişkenler arasındaki ilişkiyi kuran parametrelerin değerleri tahmin
edilir (Orhunbilge, 2002; Çuhadar, 2006).
Regresyon analizi, kullanılan bağımsız değişken sayısına göre
sınıflandırılmış şu şekildedir:
1. Basit regresyon analizi (Tek bağımsız değişken),
2. Çoklu Regresyon analizi ( Birden çok bağımsız değişken).
Fonksiyon tipine göre sınıflandırılması aşağıdaki gibidir:
1. Doğrusal regresyon analizi,
2. Doğrusal olmayan (eğrisel) regresyon analizi.
Verilerin kaynağına göre sınıflandırıldığında şu gruplara
ayrılır:
1. Ana kütle verileriyle regresyon analizi,
2. Örnek verileriyle regresyon analizi; olmak üzere üç ana
grupta toplanabilir.
Ana kütle (evren) için basit doğrusal regresyon denklemi
aşağıdaki gibi yazılır;
Bu denklemde
b0,
x = 0 olduğunda regresyon doğrusunun dikey ekseni kestiği noktayı
göstermektedir.
b1
doğrusal fonksiyonun eğimi, yani bağımsız değişken x’deki bir
birimlik değişmenin bağımlı değişken Y’de (Y cinsinden) ne kadarlık bir değişme
meydana getirdiğini gösteren regresyon katsayısıdır.
e
ise, rassal (tesadüfi) hata terimidir. Artık veya kalıntı (residual) adı da
verilmektedir.
e
= Y
- Yˆ ’dir. Yˆ, tahmini
bağımlı değişkenin değerini göstermektedir. Gerçek hayat uygulamalarında
b0
ve
b1
değerleri bilinmiyorsa, ana kütleden örnekler alınarak bunların
tahmincileri olan b0
ve b1
kullanılarak 2.1 nolu denklem,
olarak yazılır. Ana kütle ve örnek için çoklu doğrusal
regresyon denklemleri ise sırasıyla,
Y =
b0
+b1
x
1+b2
x 2
+ ... +b
n
x
n +e
|
(2.3) |
Y = b0
+ b1
x1
+ b2
x2
+ b
n x n +
e |
(2.4) |
şeklinde ifade edilmektedir (Kalaycı, 2003).
Kümeleme, veriyi sınıflara veya kümelere ayırma işlemidir.
Aynı kümedeki elemanlar birbirleriyle benzerlik gösterirlerken, başka kümelerin
elemanlarından farklıdırlar. Kümeleme veri madenciliği, istatistik, biyoloji ve
makine öğrenimi gibi pek çok alanda kullanılır. Kümeleme modelinde, sınıflama
modelinde olan veri sınıfları yoktur. Verilerin herhangi bir sınıfı
bulunmamaktadır. Sınıflama modelinde, verilerin sınıfları bilinmekte ve yeni bir
veri geldiğinde bu verinin hangi sınıftan olabileceği tahmin edilmektedir. Oysa
kümeleme modelinde, sınıfları bulunmayan veriler gruplar halinde kümelere
ayrılırlar. Bazı uygulamalarda kümeleme modeli, sınıflama modelinin bir önişlemi
gibi görev alabilmektedir (Ramkumar and Swami, 1998; Özekes, 2003; Baykal,
2006).
Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu
grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan
sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir
planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre
gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme
aynı zamanda Web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da
kullanılabilir (Seidman, 2001). Veri kümeleme güçlü bir gelişme göstermektedir.
Veri tabanlarında toplanan veri miktarının artmasıyla orantılı olarak, kümeleme
analizi son zamanlarda veri madenciliği araştırmalarında aktif bir konu haline
gelmiştir (Özekes, 2003; Baykal, 2006).
Literatürde çok sayıda kümeleme algoritması bulunmaktadır.
Kullanılacak olan kümeleme algoritmasının seçimi veri tipine ve amaca bağlıdır.
Genel olarak başlıca kümeleme yöntemleri şu şekilde sınıflandırılabilir (Özekes,
2003; Baykal, 2006; Han et al., 2011):
1. Bölme yöntemleri (Partitioning methods)
2. Hiyerarşik yöntemler (Hierarchical methods)
3. Yoğunluk tabanlı yöntemler (Density-based methods)
4. Izgara tabanlı yöntemler (Grid-based methods)
5. Model tabanlı yöntemler (Model-based methods)
Bölme yöntemlerinde, n veri tabanındaki nesne sayısı ve
k oluşturulacak küme sayısı olarak kabul edilirler. Bölme algoritması n adet
nesneyi, k adet kümeye bölmektedir (k_n). Kümeler tarafsız bölme kriteri olarak
nitelendirilen bir kritere uygun oluşturulduğundan aynı kümedeki nesneler
birbirlerine benzerken, farklı kümedeki nesnelerden daha farklıdırlar (Han et
al., 2011).
En iyi bilinen ve en çok kullanılan bölme yöntemleri k-means
yöntemi, k-medoids yöntemi ve bunların varyasyonlarıdır (Fayyad, 1998). k-means
yöntemi, ilk önce n adet nesneden rastgele k adet nesne seçer ve bu nesnelerin
her biri, bir kümenin merkezini veya orta noktasını temsil eder. Geriye kalan
nesnelerden her biri kendisine en yakın olan küme merkezine göre kümelere
dağılırlar. Yani bir nesne hangi kümenin merkezine daha yakın ise o kümeye
yerleşir. Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o
kümenin yeni merkezi olur. Bu işlem tüm nesneler kümelere yerleşinceye kadar
devam eder (Han et al, 2011).
K-means yöntemi, sadece kümenin ortalaması tanımlanabildiği
durumlarda kullanılabilir (Saleeb, 2001). Kullanıcıların k değerini, yani
oluşacak küme sayısını belirtme gerekliliği bir dezavantaj olarak görülebilir.
Esas önemli olan dezavantaj ise dışarıda kalanlar (outliers) olarak adlandırılan
nesnelere karşı olan duyarlılıktır (Han et al., 2011). Değeri çok büyük olan bir
nesne, dahil olacağı kümenin ortalamasını ve merkez noktasını büyük bir derecede
değiştirebilir. Bu değişiklik kümenin hassasiyetini bozabilir. Bu sorunu
gidermek için kümedeki nesnelerin ortalamasını almak yerine, kümede ortaya en
yakın noktada konumlanmış olan nesne anlamındaki medoid kullanılabilir. Bu işlem
k-medoids yöntemi ile gerçekleştirilir. k-medoids kümeleme yönteminin temel
stratejisi ilk olarak n adet nesnede, merkezi temsili bir medoid olan k adet
küme bulmaktır. Geriye kalan nesneler, kendilerine en yakın olan medoide göre k
adet kümeye yerleşirler. Bu bölünmelerin ardından kümenin ortasına en yakın olan
nesneyi bulmak için medoid, medoid olmayan her nesne ile yer değiştirir. Bu
işlem en verimli medoid bulunana kadar devam eder duyarlılıktır (Han et al.,
2011).
Kümeleme modellerinde amaç üyelerinin birbirlerine çok
benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması
ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir. Kümeleme
analizinde; veri tabanındaki kayıtların hangi kümelere ayrılacağı veya
kümelemenin hangi değişken özelliklerine göre yapılacağı konunun uzmanı olan bir
kişi tarafından belirtilebileceği gibi veri tabanındaki kayıtların hangi
kümelere ayıracağını geliştirilen bilgisayar programları da yapabilmektedir (Akpınar,
2000).
Birliktelik kuralları, büyük veri kümeleri arasında
birliktelik ilişkileri bulurlar (Han and Fu, 1999). Toplanan ve depolanan
verinin her geçen gün gittikçe büyümesi yüzünden, şirketler veritabanlarındaki
birliktelik kurallarını ortaya çıkarmak istemektedirler. Büyük miktardaki
mesleki işlem kayıtlarından ilginç birliktelik ilişkilerini keşfetmek,
şirketlerin karar alma işlemlerini daha verimli hale getirmektedir. Birliktelik
kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu işlem,
müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri
bularak müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip
birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları
bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında daha etki
satış stratejileri geliştirebilirler. Örneğin bir müşterinin süt satın alıyorsa,
aynı alışverişte sütle birlikte ekmek de alma olasılığı bilgisi ışığında rafları
düzenleyen market yöneticileri, ürünlerindeki satış oranını arttırabilirler. Bir
marketin müşterilerinin süt ile birlikte ekmek satın alan oranı yüksekse, market
yöneticileri süt ile ekmek raflarını yan yana koyarak ekmek satışlarını
arttırabilirler. Örneğin bir A ürününü satın alan müşteriler aynı zamanda B
ürününü da satın alıyorlarsa, bu durum 2.5 nolu denklemdeki Birliktelik Kuralı
ile gösterilir (Zaki, 1999; Özekes, 2003):
A => B [destek = %2, güven = %60] |
(2.5) |
Buradaki destek ve güven ifadeleri, kuralın ilginçlik
ölçüleridir. Sırasıyla, keşfedilen kuralın kullanışlığını ve doğruluğunu
gösterirler. 2.5 nolu denklemdeki Birliktelik Kuralı için %2 oranındaki bir
destek değeri, analiz edilen tüm alışverişlerden %2'sinde A ile B ürünlerinin
birlikte satıldığını belirtir. %60 oranındaki güven değeri ise A ürününü satın
alan müşterilerinin %60'ının aynı alışverişte B ürününü de satın aldığını ortaya
koyar.
Kullanıcı tarafından minimum destek eşik değeri ve minimum
güven eşik değeri belirlenir ve bu değerleri asan birliktelik kuralları dikkate
alınır. Büyük veri tabanlarında birliktelik kuralları bulunurken, şu iki işlem
basamağı takip edilir (Zaki, 1999):
1. Sık tekrarlanan öğeler bulunur. Bu öğelerin her biri en az,
önceden belirlenen minimum destek sayısı kadar sık tekrarlanırlar.
2. Sık tekrarlanan öğelerden güçlü birliktelik kuralları
oluşturulur. Bu kurallar minimum destek ve minimum güven değerlerini
karşılamalıdır. Sık tekrarlanan öğeleri bulmak için kullanılan en temel yöntem
Apriori Algoritmasıdır (Özekes, 2003). Birliktelik analizi, bir veri kümesindeki
kayıtlar arasındaki bağlantıları arayan denetimsiz (unsupervised) veri
madenciliği şeklidir. Birliktelik analizi çoğu zaman perakende sektöründe
süpermarket müşterilerinin satın alma davranışlarını ortaya koymak için
kullanıldığından “pazar sepeti analizi” olarak da adlandırılmaktadır (Özekes,
2003; Baykal, 2006).
Tıp alanında bilginin kullanım şeklinde meydana gelen
değişiklikler sağlık bakım hizmetini verenleri etkilemiş, sağlık bakım
hizmetinin verilmesinde bilgisayar kullanımı, bilginin paylaşım-ekip
yaklaşımını, veri ve bilgi temelli uygulama gibi kavramlar yaygınlaşmaya
başlamıştır. Bilgisayarlar, hasta bakım hizmetlerinin desteklenmesi ve sağlık
bakım hizmetlerinin kalitesinin değerlendirilmesi gibi doğrudan sağlık bakım
hizmetlerinin sunulmasındaki kullanımının yanı sıra, teşhis koyma, tedavi
süreçleri, yönetim, planlama ve tıbbi araştırmalar gibi yönetsel ve akademik
fonksiyonların yerine getirilmesinde de daha sıklıkla kullanılmaya başlanmıştır
(Kaya vd., 2003; Albayrak, 2008).
Tıp alanında bulunan mevcut veri oldukça fazla ve hayati öneme
sahiptir. Hastane bilgi sistemleri sayesinde bu veriler düzenli olarak
tutulmaktadır. Hayati öneme sahip olan bu verilerden daha fazla yaralanmak
mümkündür. Hastane Bilgi sistemlerinden veya diğer tıbbi veri toplayan
sistemlerden alınan veriler üzerinde yapılan veri madenciliği çalışmaları hem
uzmanlar için hem hastane yönetimi için hem de hastaların daha kaliteli bir
hizmet almalarında etkin rol oynamaktadır (Kaya vd., 2003).
Tıbbi veriler üzerinde çalışma yapmak bu verileri iyi
tanımakla mümkündür. Tıbbi verilerin yorumlanmasında uzmanların önemli bir rolü
vardır. Bu nedenle uzman görüşleri ile işlemler arasındaki bağlantı iyi
kurulmalıdır. Tıp alanında belirli bir standardın olmaması ve var olan
standartlar arasında tam bir uyumun olmaması nedeniyle bu alanında bir veri
ambarının oluşturulması oldukça zor bir işlemdir. Çeşitli standartlar arasında
farklı kodlama sistemleri mevcut durumdadır. Bu nedenle veri ambarı oluştururken
farklı kaynaklardan toplanan veriler arasındaki standart uyum da göz önüne
alınmalıdır (Kaya vd., 2003).
Tıp alanındaki terimlerin hem karışık hem de birbirine yakın
ifadelerde olması veri ambarı oluşumunu negatif yönde etkilemektedir. Tıp
alanındaki veri, genellikle farklı kaynaklarda toplanmaktadır. Örneğin hastanın
laboratuar ile ilgili verileri ile hastanın teşhis bilgileri farklı kaynak,
farklı şekil ve farklı düzenlerde tutulmaktadır (Kaya vd., 2003).
Tıbbi verilerin veri madenciliğinde etkin olarak
kullanılabilmesi için bu verilerin özelliklerinin çok iyi bilinmesi ve yapılan
işlemlerin bu özellikleri dikkate alınarak yapılması gerekmektedir. Bunlar (Torrence
and Compo, 1998; Baykal, 2007):
1. Çok sayıda yordam, görüntülemeyi bir tanı aracı olarak
kullanmaktadır. Bu nedenle, görüntülerden oluşan veritabanlarında etkin bir veri
madenciliği gerçekleştirebilmek için yöntemler geliştirmek gerekmektedir. Bu da
sayısal veritabanlarındaki veri madenciliğinden hem daha farklı, hem de daha
zordur.
2. Tıbbi veritabanları, her zaman heterojendir. Örneğin, bir
organa ait görüntü, her zaman, hekimin yorumu (klinik izlenim, tanı) gibi, başka
klinik bilgilerle bir aradadır. Bu durum, bu tür verilerin çözümlemesi için yeni
araçlar ve yüksek kapasiteli veri depolama aygıtları gerektirir.
3. Hekimler, görüntüler, sinyaller ya da diğer klinik
bilgilerle ilgili yorumlarını, standartlaştırılması çok güç olan serbest
metinler olarak yazmaktadır. Örneğin aynı hastalık açıklanırken bile farklı
adlar kullanılmaktadır. Tıbbi kavramlar arasındaki ilişkileri açıklamak için de
farklı dilbilgisi yapıları kullanılmaktadır.
4. Verinin sahibi bilinmemektedir. Her yıl milyarlarca baytlık
tıbbi veri üretilmekte, bu veriler, heterojen veritabanlarında saklanmakta ve
sağlık kurumları tarafından ortak bir biçim ya da ilkeye göre düzenlenmeden
yayılmaktadır. Hastaya ait bilgilerin sahibinin kim olduğu sorusu hala
yanıtlanmamıştır. Bu verilerin hastalar mı, hekimler mi yoksa sigorta
kurumlarına mı ait olduğu kesin olarak bilinmemektedir.
5. Hekimlere ya da sağlık hizmeti veren diğer kişilere yönelik
davalardır. Örneğin, hekimler gereksiz testler yüzünden dava konusu
olabilmektedir. Böyle bir ortamda da hekimler ya da sağlık hizmeti veren diğer
kişiler, verilerini bu veriler üzerinde çalışacak olan kişi ya da kurumlara
aktarmakta gönülsüz davranmaktadır.
6. Gizlilik, güvenlik ve hasta mahremiyetiyle ilgili konular
önemlidir. Veri Internet üzerinden elektronik olarak aktarıldığından, güvenli
değildir. Bu nedenle veri bir kurum içinde bir birimden diğerine aktarılacak
olsa da dikkatli bir biçimde şifrelenmelidir.
7. Tıptaki temel veri yapıları, fiziksel bilimlerin birçok
alanıyla karşılaştırıldığında, matematiksel olarak karakterize edilmeye pek
uygun değildir. Veri madencisinin bilgiyi düzenleyebileceği, kümeleme, gerileme
modelleri ya da dizi çözümlemeleri gibi karşılaştırılabilir yapılar yoktur.
8. Tıp öncelikle insan sağlığıyla ilgili bir etkinlik, ikincil
olarak bir araştırma kaynağıdır. Genel olarak tıp alanında bilgi toplama ya da
bazı bilgilerin toplanması hasta yararı içindir.
|