MENÜ

  •     Ana Sayfa     Demans Anasayfa

  •     Veri Madenciliği     VM Hakkında Bilgi

  •     Demans    Demans Hakkında Bilgi

  •     UYGULAMA    VM ile Demans Teşhisi

  •     Testler    Çalışmada Uygulanan Testler

  •     Kullanım Politikaları    Kulllanım Şartları

  • hturgut.com - VERİ MADENCİLİĞİ NEDİR
    Hüseyin TURGUT'un Yüksek Lisans Tezinden Alıntıdır...

    Veri Madenciliği

     

    Bilgi çağında, her türlü karar biriminin en önemli malzemesi veri ve bilgidir. Ekonomik birim olarak firma açısından rekabet avantajı sayılabilecek bilgiyi incelemek, modellemek ve karar destek sistemlerinde kullanabilmek için güçlü araçlara ihtiyaç vardır. Kuramsal tabana oturtulmuş bilgi destek sistemleri, bilişim teknolojilerinde, özellikle son yıllardaki hem yazılım hem de donanım açısından gelişmelere paralel olarak, büyük miktardaki verileri işleme ve çıktı olarak elde edilen bilgiyi karar destek sistemlerinde kullanabilme olanağına kavuşmuştur (Çakır, 2005).

     

    Bilgisayar fiyatlarının ucuzlaması ile sayısal teknoloji daha yaygın olarak kullanılmaktadır. Veriler doğrudan sayısal olarak toplanmakta ve saklanmaktadır. Bunun sonucu olarak ayrıntılı ve doğru bilgiye ulaşılmaktadır (Alpaydın, 2000). Örneğin eskiden süper marketteki kasa sadece basit bir toplama makinesinden ibarettir. Müşterinin o anda satın almış olduğu malların toplamını hesaplamak için kullanılmaktadır. Günümüzde ise kasa yerine kullanılan satış noktası terminalleri sayesinde bu hareketin bütün detayları saklanabilmektedir. Saklanan bu binlerce malın ve binlerce müşterinin hareket verileri sayesinde her malın zaman içindeki hareketlerine ve eğer müşteriler bir müşteri numarası ile kodlanmışsa bir müşterinin zaman içindeki verilerine ulaşmak ve analiz etmek mümkün olabilmektedir. Bütün bunlar marketlerde kullanılan barkot, bilgisayar destekli veri toplama ve işleme cihazları sayesinde mümkün olmaktadır (Aydoğan, 2003).

     

    Verilen market örneğinde olduğu gibi ticaret, tıp, askeri güvenlik, iletişim benzeri birçok alanında yakın teknolojilerin kullanılması ile veri hacminin yaklaşık olarak her yirmi ayda iki katına çıktığı tahmin edilmektedir (Frawley et al., 1992; Kayaalp, 2007).

     

    Veri madenciliği, verideki trendleri, ilişkileri ve profilleri belirlemek için veriyi sınıflandıran bir analitik araç ve bilgisayar yazılım paketidir. Spesifik veri madenciliği yazılımları; kümeleme, doğrusal regresyon, sinir ağları, bayes ağları, görselleştirme ve ağaç tabanlı modeller gibi pek çok modeli içermektedir. Veri madenciliği uygulamalarında yıllar boyu istatistiksel yöntemler kullanılmıştır. Bununla birlikte, bugünün veri madenciliği teknolojisinde eski yöntemlerin tersine büyük veri kümelerindeki trend ve ilişkileri kısa zamanda saptayabilmek için yüksek hızlı bilgisayarlar kullanılmaktadır. Böylece veri madenciliği, gizli trendleri minimum çaba ve emekle ortaya çıkarmaktadır (Akbulut, 2006).

     

    Literatürde veri madenciliği ile ilgili olarak aşağıda yer alan farklı tanımlar ile karşılaşılmaktadır:

    ·        Jacobs (1999), veri madenciliğini, ham verinin tek başına sunamadığı bilgiyi çıkaran veri analizi süreci olarak tanımlamıştır.

    ·        Davis (1999), veri madenciliğinin büyük hacimli verilerdeki örüntüleri araştıran matematiksel algoritmaları kullandığını söylemiştir. Davis (1999)’e göre veri madenciliği hipotezleri keşfeder, sonuçları birleştirmek için insan yeteneğini kullanmaktadır. Veri madenciliğinin bir bilim olmadığı, aynı zamanda bir sanat olduğu da söylenmektedir.

    ·        DuMouchel (1999), veri madenciliğinin geniş veritabanlarındaki birliktelikleri araştırdığını belirtmiştir.

    ·        Hand (1998), veri madenciliğini istatistik, veritabanı teknolojisi, örüntü tanıma, makine öğrenme ile etkileşimli yeni bir disiplin ve geniş veritabanlarında önceden tahmin edilemeyen ilişkilerin ikincil analizi olarak tanımlamıştır.

    ·        Kitler ve Wang (1998), veri madenciliğini oldukça tahminci anahtar değişkenlerin binlerce potansiyel değişkenden izole edilmesini sağlama yeteneği olarak tanımlamışlardır.

    ·        Bransten (1999), veri madenciliğinin insanın asla bulmayı hayal bile edemeyeceği trendlerin keşfedilmesini sağladığını belirtmiştir.

     

    Sonuç olarak veri madenciliği, önceden bilinmeyen ilişki ve trendlerin bulunması için bugünün endüstrisinde yaratılan büyük miktarlardaki veriyi analiz eden bir yoldur. Yüksek güçlü bilgisayarlarla gereken yazılımlara kolay ve düşük fiyatlarla ulaşılabilmesi bu teknolojinin işlemesini mümkün kılmıştır. Internet ise birçok noktadaki verinin toplanmasını sağlamaktadır. Bilgisayar üzerinde çalışma aynı zamanda emek ve zaman tasarrufunu sağlamaktadır (Akbulut, 2006).

     

     

     

     

    Şekil 2.1. Veri madenciliğinin aşamaları

     

     

    Şekil 2.2. Veri madenciliği ve iş zekası

     

    Şekil 2.1 (Baykal, 2007)’de veri madenciliğine ait aşamalar, Şekil 2.2 (Koyuncugil ve Özgülbaş, 2009)’de ise veri kaynağı ile karar arasındaki ilişki belirtilmiştir. Süreç bu aşamalara uygun olarak sürdürülmelidir. Buradaki veri ambarı, organizasyonun ihtiyaçları ile uyumlu büyük miktarlardaki verinin kolay erişilebilir bir yapıda tutulmasını sağlayan bilgisayar tabanlı depolama sistemidir (Bayram, 2001). Veri ambarları organizasyonel veriye kolay bir şekilde ulaşılmasını sağlayan yapılardır. Veri ambarları 1990’lı yıllarda ortaya çıkmıştır. Veri ambarları veriyi kullanılabilir trend, ilişki ve profillerde sınıflandırmazlar, sadece potansiyel bilgiye sahip veritabanlarıdır. Veride saklı bilgiyi keşfetmeyi sağlayan ise veri madenciliği gibi tekniklerdir. Veri ambarından veriyi çekebilmek için hangi verinin gerekli olduğunu ve bu verinin nerede olduğunu tespit etmek önemlidir. Çoğunlukla gerekli veri, farklı sistemler üzerinde olup, farklı formatlardadır. Bu nedenle, ilk aşamada veri temizleme ve düzenleme işlemi gerçekleştirilmelidir. Veri ambarının yaratıcısı W.H. Immon’a göre veri ambarı verinin temizlendiği, birleştirildiği ve yeniden düzenlendiği merkezi ve entegre bir depodur (Restivo, 1999; Akbulut, 2006).

     

    2.2.1. Veri madenciliğinin gelişimini etkileyen faktörler

     

    Temel olarak veri madenciliği ve gelişimini beş ana faktör etkilemektedir. Bunlar (Akpınar, 2000):

     

    1. Veri: Veri madenciliğinin gelişmesindeki en önemli faktördür. Son yirmi yılda sayısal verinin hızla artması, veri madenciliğindeki gelişmeleri hızlandırmıştır. Verilerin bu üstel artışına karşın, verilerle uğraşan bilim adamları, mühendisler ve istatistikçilerin sayısı aynı oranda artamamıştır. Problemin çözümü, verileri analiz etme yöntemlerinin ve tekniklerinin geliştirilmesine bağlı olmaktadır.

     

    2. Donanım: Veri madenciliği, sayısal ve istatistiksel olarak büyük veri kümeleri üzerinde yoğun işlemler yapmak için planlanmıştır. Gelişen bellek kapasiteleri ve artan işlemci hızları sayesinde, son birkaç yıla kadar madencilik yapılamayacak kadar büyük veri ambarları üzerinde çalışmaya olanak sağlamıştır.

     

    3. Bilgisayar ağları: Yeni nesil internet teknolojileri, çok yüksek hızlarda veri transferine izin vermektedir. Bilgisayar ağları aracılığıyla, dağıtık veri tabanlarına ulaşmak, verileri analiz etmek ve farklı algoritmaları kullanmak mümkün olmaktadır. 2000’li yılların başlarında hayal olarak görünen kavramlar günümüzde kullanılabilen teknolojilerdir.

     

    4. Bilimsel hesaplamalar: Günümüz bilim adamları ve mühendisleri, simülasyonu bilimin üçüncü yolu olarak görmekteler. Veri madenciliği ve bilgi keşfi; teori, deney ve simülasyonu birbirine bağlamada önemli bir rol almaktadır.

     

    5. Ticari eğilimler: Günümüzde, işletmeler rekabet ortamında varlıklarını koruyabilmek için daha hızlı hareket etmek, daha yüksek kalitede hizmet sunmak, bütün bunları yaparken de minimum maliyeti ve en az insan gücünü göz önünde bulundurmak zorundadır. Veri madenciliği sayesinde müşterilerin ve müşteri faaliyetlerinin yarattığı fırsatlar daha kolay tespit edilebilmekte ve riskler daha açık görülebilmektedir.

     

    2.2.2. Veri madenciliği ile yapılabilecekler

     

    Günümüzde veri madenciliğinin kullanım alanları aşağıdakiler gibi sayılabilir (Akpınar, 2000).

     

    1. Pazarlama alanında; müşteri sınıflandırmada, müşterilerin demografik özellikleri arasındaki bağlantıların kurulmasında, çeşitli pazarlama kampanyalarında, mevcut müşterilerin elde tutulması için geliştirilecek pazarlama stratejilerinin oluşturulmasında, pazar sepeti analizinde, çapraz satış analizleri, müşteri değerleme, müşteri ilişkileri yönetiminde, çeşitli müşteri analizlerinde, satış tahminlerinde kullanılmaktadır.

     

    2. Bankacılık alanında; farklı finansal göstergeler arasındaki gizli ilişkilerin bulunmasında, kredi kartı dolandırıcılıklarının tespitinde, müşteri sınıflandırmada, kredi taleplerinin değerlendirilmesinde, usulsüzlük tespiti, risk analizleri, risk yönetiminde kullanılmaktadır.

     

    3. Sigortacılık alanında; yeni poliçe talep edecek müşterilerin tahmin edilmesinde, sigorta dolandırıcılıklarının tespitinde, riskli müşteri tipinin belirlenmesinde kullanılmaktadır.

     

    4. Perakendecilik alanında; satış noktası veri analizleri, alış-veriş sepeti analizleri, tedarik ve mağaza yerleşiminin en uygun yerleşime sokulmasında kullanılmaktadır.

     

    5. Borsa alanında; hisse senedi fiyat tahmini, genel piyasa analizleri, alım-satım stratejilerinin en uygun şekle sokulmasında kullanılmaktadır.

     

    6. Telekomünikasyon alanında; kalite ve iyileştirme analizlerinde, hisse tespitlerinde, hatların yoğunluk tahminlerinde kullanılmaktadır.

     

    7. Tıp ve medikal alanında; test sonuçlarının tahmini, ürün geliştirme, tıbbi teşhis, tedavi sürecinin belirlenmesinde kullanılmaktadır.

     

    8. Endüstri alanında; kalite kontrol analizlerinde, lojistik, üretim süreçlerinin enuygun şekle sokulmasında kullanılmaktadır.

     

    9. Bilim ve mühendislik alanında; ampirik veriler üzerinde modeller kurarak bilimsel ve teknik problemlerin çözümlenmesinde kullanılmaktadır.

     

    Veri madenciliğinin asıl amacı, veri yığınlarından anlamlı bilgiler elde etmek ve bunu eyleme dönüştürecek kararlar için kullanmak olduğu dikkate alınarak kullanım alanlarını özelleştirmektir (Akpınar, 2000). Bir işletme kendi müşterisiyken rakibine giden müşterileriyle ilgili analizler yaparak rakiplerini tercih eden müşterilerinin özelliklerini elde edebilir ve bundan yola çıkarak gelecek dönemlerde kaybetme olasılığı olan müşterilerin kimler olabileceği yolunda tahminlerde bulunarak onları kaybetmemek, kaybettiklerini geri kazanmak için strateji geliştirebilmektedir. Bunun gibi amaçlar için şu işlemler yapılabilir:

     

    1. Ürün veya hizmette hangi özelliklerin ne derecede müşteri memnuniyetini etkilediği, hangi özelliklerinden dolayı müşterini bunları tercih ettiği ortaya çıkarılabilir.

     

    2. Ürün talebi bazında müşteri profillerini belirleyerek, müşteri segmentasyonuna gitmek ve çapraz satış olanakları yaratmakta kullanılabilir.

     

    3. Piyasada oluşabilecek değişikliklere mevcut müşteri portföyünün vereceği tepkinin firma üzerinde yaratabileceği etkinin tespitinde kullanılabilir.

     

    4. Bir ürün veya hizmetle ilgili bir kampanya programı oluşturmak için hedef kitlenin seçiminden başlayarak bunun hedef kitleye hangi kanallardan sunulacağı kararına kadar olan süreçte veri madenciliği kullanılabilir.

     

    5. Operasyonel süreçte oluşabilecek olası kayıpların veya suiistimallerin tespitinde kullanılabilir.

     

    6. Kurum teknik kaynaklarının en uygun şekilde kullanılmasını sağlamakta kullanılabilir.

     

    7. Firmanın finansal yapısının, makro ekonomik değişmeler karşısındaki duyarlılığı ve oluşabilecek risklerin tespitinde kullanabilir.

     

    8. Geçmiş ve mevcut yapı analiz edilerek geleceğe yönelik tahminlerde bulunulabilir. Özellikle ciro, karlılık, pazar payı, gibi analizlerde veri madenciliği çok rahat kullanılabilir.

     

    9. Tıbbi veriler değerlendirilerek teşhis koymada ve koyulan teşhis neticesinde hastanın verilerine uygun izlenilecek tedavinin seçilmesinde kullanılabilir (Akpınar, 2000).

     

    Çizelge 2.5 (Akbulut, 2006)’de 2003 yılında veri madenciliğinin sektörler bazında kullanımına ilişkin bir araştırmanın sonuçları yer almaktadır (Kdnuggets, 2003). Bu çizelgede araştırmaya katılan toplam 421 şirketin 51 adedinin bankacılık alanında veri madenciliğinin kullandığı görülmektedir.

     

    Çizelge 2.5. Veri madenciliğinin uygulandığı alanlar

     

    Alan - adet

    Yüzde

    Bankacılık - 51

    12

    Bioteknoloji Genetik -11

    3

    Kredi Skorlama -35

    8

    CRM – 52

    12

    Doğrudan Pazarlama -34

    8

    e-ticaret -11

    3

    Eğlence - 4

    1

    Sahtekarlık -31

    7

    Şans oyunları -2

    0,01

    Kamu -12

    3

    Sigortacılık -24

    6

    Yatırım -5

    1

    Sağlık – 15

    4

    Tıp - 12

    3

     

    2.2.3. Veri madenciliğinin gereksinimleri

     

    Veri madenciliği sürecinin gereksinimleri aşağıdaki belirtilebilir (Akbulut, 2006):

    ·        Erişilebilir veri,

    ·        Etkin erişim yöntemleri,

    ·        Açık problem tanımı,

    ·        Etkin algoritmalar,

    ·        Yüksek performanslı uygulama sunucusu,

    ·        Sonuç oluşturmada esneklik.

    Veri madenciliğinin diğer bir gereksinimi temizlenmiş veridir. Veri madenciliğinde kullanılacak verilerden yanlış sonuçlar üretmeye yol açabilecek aykırı değerler temizlenmelidir (Jacobs, 1999). Doğru veri mevcut değilse ve verinin limitleri bilinmiyorsa; kullanılan yazılımın yanlış sonuçlar üretmesi kaçınılmazdır (Akbulut, 2006).

     

    2.2.4. Veri madenciliği uygulamalarında karşılaşılan problemler

     

    Veri madenciliği, girdi olarak kullanılacak ham veriyi veritabanlarından alır. Bu da veritabanlarının dinamik, eksiksiz, geniş ve net veri içermemesi durumunda sorunlar doğurur (Aydoğan, 2003). Diğer sorunlar ise verinin konu ile uyumsuzluğundan doğabilir. Sorunların sınıflandırılmasıyla oluşan başlıca nedenler aşağıdaki gibidir (Akbulut, 2006):

     

    1. Sınırlı bilgi: Veritabanları genel olarak veri madenciliği dışındaki amaçlar için tasarlanmışlardır ve öğrenme görevini kolaylaştıracak bazı özellikleri baraındırmayabilir.

     

    2. Gürültü ve kayıp değerler: Veri özellikleri ya da sınıflarındaki hatalara gürültü adı verilir. Veri tabanlarındaki eksik bilgi ve bu yanlışlardan dolayı veri madenciliği amacına tam olarak ulaşmayabilir. Bu tip bir bilgi yanlışlığı ölçüm hatalarından ya da öznel yaklaşımlardan kaynaklanabilmektedir.

     

    3. Belirsizlik: Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir. Veri tahmini bir keşif sisteminde önemli bir husustur.

     

    4. Ebat, güncellemeler ve konu dışı sahalar: Veri tabanlarındaki bilgiler, veri eklendikçe ya da silindikçe değişebilmektedir. Veri madenciliği perspektifinden bakıldığında, kuralların hala aynı kalıp kalmadığı ve istikrarlılığı problemi ortaya çıkmaktadır. Öğrenme sistemi, bazı verilerin zamanla değişmesine ve keşif sistemindeki verinin zamansızlığına rağmen zamana duyarlı olmalıdır.

     

    2.2.5. Veri madenciliği yazılımları

     

    Farklı algoritmaları bünyesinde bulunduran ve farklı işletim sistemleri üzerinde çalışabilen birçok veri madenciliği yazılımı bulunmaktadır. Çizelge 2.6 (Akbulut, 2006) ve Çizelge 2.7 (Kdnuggets, 2011)’de bu yazılımların çalıştığı platform ve algoritma sayıları verilmiştir.

     

    Çizelge 2.6. Veri madenciliği yazılımları ve çalıştıkları platformlar

     


    Çizelge 2.7. 2010 ve 2011 yıllarında kullanılan veri madenciliği yazılımları

     

    RapidMiner (305)

    11 Ants Analytics (62)

    Oracle Data Miner (8)

    Hadoop Map/Reduce (19)

    R (257)

    Microsoft SQL Server (54)

    Predixion (6)

    Mathematica (18)

    Excel (240)

    Other free software (45)

    Centrifuge (3)

    Revolution Computing (15)

    SAS (150)

    Zementis (41)

    Viscovery (1)

    KXEN (15)

    Your own code (134)

    Other commercial software (35)

    Data Applied (1)

    Orange (14)

    KNIME (134)

    Tableau (29)

    Clarabridge (3)

    Miner3D (14)

    Weka (Pentaho) (130)

    C4.5/C5.0/See5 (21)

    JMP (63)

    XLSTAT (10)

    Salford (117)

    TIBCO Spotfire / S+ / Miner (19)

    SAS Enterprise Miner (78)

    NoSQL databases (10)

    Statistica (94)

    WordStat (5)

    Angoss (9)

    Stata (9)

    IBM SPSS Modeler (91)

    Megaputer Polyanalyst/TextAnalyst (4)

    Grapheur (3)

    Other cloud-based tools (9)

    MATLAB (79)

    Portrait Software (3)

    IBM SPSS Statistics (79)

    Bayesia (9)

    2.2.6. Veri madenciliği süreci

     

    Ne kadar etkin olursa olsun hiç bir veri madenciliği algoritmasının, üzerinde inceleme yapılan işin ve verilerin özelliklerinin bilinmemesi durumunda fayda sağlaması mümkün değildir. Bu nedenle tüm aşamalardan önce işe ve veriye ait özelliklerinin anlaşılması gereklidir.

     

    Şekil 2.3. Veri madenciliği süreci

     

    Şekil 2.3 (Resvito, 1999)’de de veri madenciliği sürecinin beş ana maddeye ayrıldığı görülmektedir. Bu aşamalar aşağıda verilmiştir (Restivo, 1999):

    1. Problemin Tanımlanması,

    2. Verilerin Hazırlanması,

    3. Modelin Kurulması ve değerlendirilmesi,

    4. Modelin Kullanılması,

    5. Modelin İzlenmesi.

     

    2.2.6.1. Problemin tanımlanması

     

    Veri madenciliği çalışmalarında başarılı olmanın en önemli şartı, projenin hangi amaç için yapılacağının açık bir şekilde tanımlanmasıdır. İlgili amaç konuya ait problem üzerine odaklanmış ve açık bir dille ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Ayrıca yanlış tahminlerde katlanılacak olan maliyetlere ve doğru tahminlerde kazanılacak faydalara ilişkin tahminlere de bu aşamada yer verilmelidir (Domouchel, 1999).

     

    Bu aşamada mevcut iş probleminin bir sonuç üretilmesi durumunda nasıl çözüleceğinin, üretilecek olan sonucun fayda - maliyet analizinin başka bir deyişle üretilen bilginin amaç için değerinin doğru analiz edilmesi gerekmektedir.

     

    Analistin bu konuda üretilen sayısal veri boyutlarını, proje için yeterlilik düzeyini iyi analiz etmesi gerekmektedir. Ayrıca analist, konunun ve işin süreçleri hakkında da bilgi edinmelidir (Domouchel, 1999).

     

    2.2.6.2. Verilerin hazırlanması

     

    Veri madenciliğinin en önemli aşamalarından biri olan verinin hazırlanması (veri ambarının oluşturulması) aşaması, analistin toplam zaman ve enerjisinin %50- %75’ini harcamasına neden olmaktadır. Bu aşamada işin mevcut bilgi sistemleri üzerinde ürettiği sayısal bilginin iyi analiz edilmesi, veriler ile mevcut iş problemi arasında ilişkinin uygun olması gerekliliği unutulmamalıdır. Proje kapsamında kullanılacak sayısal verilerin, hangi iş süreçleri ile yaratıldığı da bu veriler kullanılmadan analiz edilmelidir. Bu sayede analist veri kalitesi hakkında fikir sahibi olabilmektedir. Verilerin hazırlanması aşaması kendi içerisinde toplama, birleştirme ve temizleme, dönüştürme adımlarından meydana gelmektedir (Domouchel, 1999).

     

    Veri toplama; tanımlanan problem için gerekli olduğu düşünülen verilerin ve bu verilerin toplanacağı veri kaynaklarının belirlenmesi adımıdır. Verilerin toplanmasında analist, kendi veri kaynaklarının dışındaki nüfus sayımı, hava durumu, merkez bankası kara listesi gibi veri tabanlarından veya veri pazarlayan kuruluşların veri tabanlarından faydalanılabilmektedir (Domouchel, 1999).

     

    Veri birleştirme ve temizleme; bu adımda toplanan verilerde bulunan farklılıklar giderilmeye çalışılır. Hatalı veya analizin yanlış yönlenmesine sebep olabilecek verilerin temizlenmesine çalışılır. Genellikle yanlış veri girişinden veya bir kereye özgü bir olayın gerçekleşmesinden kaynaklanan verilerin, önemli bir uyarıcı enformasyon içerip içermediği kontrol edildikten sonra veri kümesinden atılması tercih edilir. Ancak basit yöntemlerle ve baştan savma olarak yapılacak sorun giderme işlemlerinin, ileriki aşamalarda daha büyük sorunların kaynağı olacağı unutulmamalıdır (Domouchel, 1999).

     

    Veri dönüştürme; kullanılacak model ve algoritma çerçevesinde verilerin tanımlama veya gösterim şeklinin de değiştirilmesi gerekebilir. Örneğin; kredi riski uygulamasında iş tiplerinin, gelir seviyesi ve yaş gibi değişkenlerin kodlanarak gruplanmasının gerekliliği söz konusudur (Domouchel, 1999).

     

    2.2.6.3. Modelin kurulması ve değerlendirilmesi

     

    Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir (Domouchel, 1999).

     

    Bir modelin doğruluğunun test edilmesinde kullanılan en basit yöntem basit geçerlilik testidir. Bu yöntemde tipik olarak verilerin % 5 ile %33 arasındaki bir kısmı test verileri olarak ayrılır ve kalan kısım üzerinde modelin öğrenimi gerçekleştirildikten sonra, bu veriler üzerinde test işlemi yapılmaktadır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır. Doğruluk oranı ile hata oranının toplamı 1’dir (Domouchel, 1999).

     

    Önemli diğer bir değerlendirme ise ölçüt modelin anlaşılabilirliğidir. Bazı uygulamalarda doğruluk oranlarındaki küçük artışlar çok önemli olsa da, birçok işletme uygulamasında ilgili kararın niçin verildiğinin yorumlanabilmesi çok daha büyük önem taşıyabilir. Çok ender olarak yorumlanamayacak kadar karmaşıklaşsalar da, genel olarak karar ağacı ve kural temelli sistemler model tahmininin altında yatan nedenleri daha başarılı şekilde ortaya koyabilmektedir (Domouchel, 1999).

     

    2.2.6.4. Modelin kullanılması

     

    Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak da kullanılabilir. Kurulan modeller risk analizi, kredi değerlendirme, dolandırıcılık tespiti gibi işletme uygulamalarında doğrudan kullanılabileceği gibi, promosyon planlaması simülasyonuna entegre edilebilir veya tahmin edilen envanter düzeyleri yeniden sipariş noktasının altına düştüğünde otomatik olarak sipariş verilmesini sağlayacak bir uygulamanın içine de gömülebilmektedir (Domouchel, 1999).

     

    2.2.6.5. Modelin izlenmesi

     

    Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan değişikliklerle kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesini gerektirecektir. Tahmin edilen ve gözlenen değişkenler arasındaki farklılığı gösteren grafikler, model sonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir (Domouchel, 1999).

     

    2.2.7. Veri madenciliği ve makine öğrenmesi kuramı

     

    Bilgi çağında, daha önce de belirtildiği gibi her türlü karar biriminin en önemli girdisi bilgidir. Ekonomik birim olarak firma açısından rekabet avantajı sayılabilecek bilgiyi incelemek, modellemek ve karar destek sistemlerinde kullanabilmek için güçlü araçlara ihtiyaç vardır (Çakır, 2005). Kuramsal tabana oturtulmuş bilgi destek sistemleri, bilişim teknolojilerinde, özellikle son yıllardaki hem yazılım hem de donanım açısından gelişmelere paralel olarak, büyük miktardaki verileri işleme ve çıktı olarak elde edilen bilgiyi karar destek sistemlerinde kullanabilme olanağına kavuşmuştur (Çakır, 2005).

     

    İnsan ve makine uzman, veri madenciliğinin birbirini tamamlayan en önemli bileşenleridir. İnsan uzman veri tabanının hazırlanması, problemin tanımlanması ve hedeflerin belirlenmesinde aktif olan etkendir. Makine uzman ise verileri, hedeflerle uyuşan örüntüleri saptamak amacıyla taramak ve bu örüntülere uygun kuralları öğrenmekten sorumludur (Çakır, 2005).

     

    Veri madenciliğinde veri elektronik ortamda saklanmakta, verideki örüntüler otomatik olarak aranmakta, doğrulanmakta ve tahmin veya sınıflandırma amacıyla kullanılmak üzere kurallar öğrenilmektedir. İnsan uzmanın bilgi çıkarma sürecindeki diğer bir sorumluluğuysa makine uzmanının öğrendiği bilginin incelenmesi, sorgulanması, sınanması ve tutarsız veya anlamsız bilgilerin ayıklanması, sorgulama ve sınama sonucunda veri tabanının düzenlenmesi, hatalı bilgi ve verilerin düzeltilmesidir. Veri madenciliğinin asıl amacı düşünüldüğünde, insan uzmanı, makine uzmanını bilgi işleme yeteneğine ve kapasitesine dayanarak sürece olabildiğince az dahil etmeli ve değerli bir kaynak olarak zamanın daha önemli alanlarda kullanılabilmesini sağlamalıdır. (Weiss and Indurkhya, 1998).

     

    Makine öğrenmesi, yapay zekanın veri madenciliği ve istatistikle ilintili bir dalıdır. Veri madenciliğinde olduğu gibi, makine öğrenmesinde de, analize konu olan alana ait veriler, örnekler, daha açık bir ifadeyle, örneklere ait özellikleri tanımlayan öznitelik değerleri olarak sisteme iletilir ve makine uzman ya da programın bu verilere ait örüntüyü ve yapıyı öğrenmesi istenir. Öğrenme sürecinin en önemli özelliği, veri setine eklenen her yeni bilgi için, makine uzmanın önceki veri yapılarını öğrenmiş olarak, örüntüdeki değişmelerin ayırımına varması ve bu değişimlerin getirdiği bilginin kural setine eklemesinin varsayılmış olmasıdır. Böylece, makine uzmanın yeni durumlarla karşılaştığında, en azından potansiyel performansının artırılması amaçlanmaktadır.

     

    Makine öğrenmesi yöntemleri, büyük veri setlerinde rahatlıkla kullanılabilen ve daha çok bilgiyi kolaylıkla işlemeye yatkın güçlü yöntemlerdir. Bu buluşsal tahmin yöntemleri, istatistiksel yöntemlerden farklı olarak, sıklıkla güçlü ampirik sonuçlar üretebilmektedir (Frank and Witten,1998; Çakır, 2005). Öğrenme yöntemlerinin çoğunda, “öğrenilen problemin” yapısal tanımları araştırılmaktadır (İkizler, 2002). Bu tanımlar, genellikle oldukça karmaşık ve karar ağaçlarının öğrendiğine benzer kural setleri biçiminde ifade edilmektedir. Ancak yapay sinir ağları gibi yöntemler böyle tanımlar yapmazlar. Makine öğrenmesi uygulamalarında tanımlar, genellikle algoritmanın yeni örnekleri sınıflandırma performansından daha önemlidir. Tanımların kuramsal anlamlılık koşulu sağlandığında, yüksek sınıflandırma performansı algoritmanın tercih edilmesinde ikinci düzeyde aranacak ölçüttür (Witten and Frank, 2000; Çakır, 2005).

     

    Veri madenciliği ve makine öğrenmesi yöntemlerinin temel özellikleri şöyle özetlenebilir (Çakır, 2005):

    1. Her iki yöntem de kuramsal olmaktan çok ampirik öğrenme/sınıflandırma problemleriyle ilgilenir.

    2. Verideki yapısal örüntüleri bulmak ve tanımlamak, bu veriyi açıklayacak aracı, yani algoritmayı ve ilintili kural kümesini (kümelerini) bulmak ve bu bilgiyi tahmin veya sınıflandırma amacıyla kullanmak makine öğrenmesinin asıl amacıdır.

    3. Veri seti örneklerden oluşmaktadır. Her iki yöntemin çıktısı, yeni örnekler üzerinde yapılan tahmin/sınıflandırma ya da öğrenilen kurallardır.

    4. Elde edilen bilginin, tanım alanı bağlamında kuramsallaştırılması önemli bir hedeftir.

    5. Makine öğrenmesi ve veri madenciliği yöntemlerinde, veriden bilgi çıkarma yarım ya da tam otomatik süreçlerdir.

    6. Karar destek sistemleri açısından, her iki yöntemde de, makine uzmanın bilgi işleme kapasitesine dayanılarak, insan uzmanın bu alandaki eksiklileri giderilmek ve rekabet avantajı sağlamak amaçlanmaktadır.

     

    2.2.8. Veri madenciliğinde kullanılan yöntemler

     

    Veri madenciliği tekniklerini işlevlerine göre aşağıdaki gibi üç temel grupta sıralamak da uygun olacaktır (Akbulut, 2006):

    1. Sınıflama (Classification),

    2. Kümeleme (Clustering),

    3. Birliktelik kuralları ve sıralı örüntüler (Association rules and sequential patterns).

    Gerek tanımlayıcı gerekse tahmin edici modellerde yoğun olarak kullanılan belli başlı istatistiksel yöntemler; sınıflama (classification) ve regresyon (regression), kümeleme (clustering), birliktelik kuralları (association rules) ve ardışık zamanlı örüntüler (sequential patterns), bellek tabanlı yöntemler, yapay sinir ağları ve karar ağaçları olarak gruplandırılabilir. Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir (Domouchel, 1999).

     

    2.2.8.1. Sınıflama ve regresyon modelleri

     

    Sınıflama, verinin önceden belirlenen çıktılara uygun olarak ayrıştırılmasını sağlayan bir tekniktir. Çıktılar, önceden bilindiği için sınıflama, veri kümesini denetimli olarak öğrenir (Giudici, 2003). Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği teknikleri içerisinde en yaygın kullanıma sahip olan sınıflama ve regresyon modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli lojistik regresyon (multinomial logistic regression) gibi kategorik değerlerin de tahmin edilmesine olanak sağlayan tekniklerle, her iki model giderek birbirine yaklaşmakta ve bunun bir sonucu olarak aynı tekniklerden yararlanılması mümkün olmaktadır. Sınıflama ve regresyon modellerinde kullanılan başlıca teknikler aşağıdaki gibi sıralanabilir (Akpınar, 2000):

    1. Diskriminant analizi (Discriminant Analysis),

    2. Naïve-Bayes,

    3. Karar Ağaçları (Decision Trees),

    4. Yapay Sinir Ağları (Artificial Neural Networks),

    5. Kaba kümeler,

    6. Genetik Algoritmalar (Genetic Algorithms),

    7. Bellek Temelli Nedenleme (Memory Based Reasoning),

    8. Regresyon analizi (Regression Analysis).

     

    Belirtilen bu tekniklerden ilki olan diskriminant analizi, bir dizi gözlemi önceden tanımlanmış sınıflara atayan bir tekniktir. Model, ait oldukları sınıfı bilinen gözlem kümesi üzerine kurulur. Bu küme, öğrenme kümesi olarak da adlandırılır. Öğrenme kümesine dayalı olarak, diskriminant fonksiyonu olarak bilinen doğrusal fonksiyonların bir kümesi oluşturulur. Diskriminant fonksiyonu, yeni gözlemlerin ait olduğu sınıfı belirlemek için kullanılır. Yeni bir gözlem söz konusu olduğunda için tüm diskriminant fonksiyonları hesaplanır ve yeni gözlem diskriminant fonksiyonunun değerinin en yüksek olduğu sınıfa atanır.

     

    Naive bayes, hedef değişkenle bağımsız değişkenler arasındaki ilişkiyi analiz eden tahmine yönelik ve tanımlayıcı bir sınıflama algoritmasıdır (Hudairy, 2004; Akbulut, 2006). Naive Bayes, sürekli veri ile çalışmaz. Bu nedenle sürekli değerleri içeren bağımlı ya da bağımsız değişkenler kategorik hale getirilmelidir. Örneğin; bağımsız değişkenlerden biri yaş ise, sürekli değerler “<20” “21-30”, “31-40” gibi yaş aralıklarına dönüştürülmelidir.

     

    Naive Bayes, modelin öğrenilmesi esnasında, her çıktının öğrenme kümesinde kaç kere meydana geldiğini hesaplar. Bulunan bu değer, öncelikli olasılık olarak adlandırılır. Örneğin; bir banka kredi kartı başvurularını “iyi” ve “kötü” risk sınıflarında gruplandırmak istemektedir. İyi risk çıktısı toplam 5 vaka içinde 2 kere meydana geldiyse iyi risk için öncelikli olasılık 0,4’tür. Bu durum, “Kredi kartı için başvuran biri hakkında hiçbir şey bilinmiyorsa, bu kişi 0,4 olasılıkla iyi risk grubundadır” olarak yorumlanır. Naive Bayes aynı zamanda her bağımsız değişken ve bağımlı değişken kombinasyonuna ait meydana gelme sıklığını bulur. Bu sıklıklar öncelikli olasılıklarla birleştirilmek suretiyle tahminde kullanılır (Akbulut, 2006).

     

    Karar ağaçları, yaygın olarak kullanılan sınıflama algoritmalarından biridir. Karar ağacı yapılarında, her düğüm bir nitelik üzerinde gerçekleştirilen testi, her dal bu testin çıktısını, her yaprak düğüm ise sınıfları temsil eder. En üstteki düğüm kök düğüm olarak adlandırılır. Karar ağaçları, kök düğümden yaprak düğüme doğru çalışır (Wei and Chiu, 2002).

     

    En yaygın kullanılan karar ağacı algoritmaları (Rakotomalala, 1991) şunlardır:

    1. A limited search induction tree algorithm (Catlett, 1991),

    2. ID3-IV (Quinlan, 2004),

    3. GID3 (Cheng et al, 1988; Dan et al, 2010),

    4. ASSISTANT 86 (Cestnik et al.,1987),

    5. CHAID (Kass, 1980),

    6. C&RT (Classification and Regression Trees) (Rakotomalala, 2005),

    7. Improved CHAID (Tschuprow Goodness of Split) (Quinlan, 1992),

    8. C4.5 (Quinlan, 1992; Kohavi and Quinlan,2002),

    9. Improved C4.5 (Zighed et al, 2000; Taneja, 2001; Corchado and Yin, 2009),

    10. Cost sensitive C4.5 (Bradford et al., 1998; Drummond and Holte, 2000; Chauchat et al, 2001),

     

    Yapay sinir ağları, insan beyninin özelliklerinden olan öğrenme yolu ile yeni bilgiler türetebilme, yeni bilgiler oluşturabilme ve keşfedebilme gibi yetenekleri herhangi bir yardım almadan otomatik olarak gerçekleştirmek amacı ile geliştirilen bilgisayar sistemleridir. Bu yetenekleri geleneksel programlama yöntemleri ile gerçekleştirmek oldukça zordur veya mümkün değildir. Bu nedenle yapay sinir ağlarının, programlanması çok zor veya mümkün olmayan olaylar için geliştirilmiş adaptif bilgi işleme ile ilgilenen bir bilgisayar bilim dalı olduğu söylenebilir (Öztemel, 2003).

     

    Diğer bir tanıma göre yapay sinir ağları; insan beyninden esinlenerek geliştirilmiş, ağırlıklı bağlantılar aracılığıyla birbirine bağlanan ve her biri kendi belleğine sahip işlem elemanlarından oluşan paralel ve dağıtılmış bilgi işleme yapılarıdır. Bir başka deyişle biyolojik sinir ağlarını taklit eden bilgisayar programlarıdır (Elmas, 2003).

     

    Yapılan tanımların bazı ortak noktaları bulunmaktadır. Bunların en başında yapay sinir ağlarının birbirine hiyerarşik olarak bağlı ve paralel çalışabilen yapay sinir hücrelerinden oluşmaları gelmektedir. Proses elemanları da denilen bu hücrelerin birbirlerine bağlandıkları ve her bağlantının bir değerinin olduğu kabul edilmektedir.

     

    Bilginin öğrenme yolu ile elde edildiği ve proses elemanlarının bağlantı değerlerinde saklandığı, dolayısıyla dağıtık bir hafızanın söz konusu olduğu da ortak noktalardan birisini oluşturmaktadır. Proses elemanlarının birbirleri ile bağlanmaları sonucunda oluşan ağa, yapay sinir ağı adı verilmektedir (Çuhadar, 2006). Bu teknik, veritabanındaki örüntüleri, sınıflandırma ve tahminde kullanılmak üzere genelleştirmektedir. Yapay sinir ağları algoritmaları, sayısal veriler üzerinde çalışırlar (Akbulut, 2006).

     

    Kaba küme teorisi 1970’li yıllarda Pawlak tarafından geliştirilmiştir. Kaba küme teorisinde bir yaklaştırma uzayı ve bir kümenin alt ve üst yaklaştırmaları vardır. Yaklaştırma uzayı, ilgilenilen alanı ayrı kategorilerde sınıflandırır. Alt yakınlaştırma belirli bir altkümeye ait olduğu kesin olarak bilinen nesnelerin tanımıdır. Üst yakınlaştırma ise alt kümeye ait olması olası nesnelerin tanımıdır. Alt ve üst sınırlar arasında tanımlanan herhangi bir nesne ise “kaba küme” olarak adlandırılır (Pawlak, 1999).

     

    Genetik algoritma, rassal arama tekniklerini kullanarak çözüm bulmaya çalışan, parametre kodlama esasına dayalı bir arama tekniğidir (Goldberg, 1989). Genetik algoritma, pek çok problem türü için uygun parametreler ile çalışıldığı takdirde optimuma yakın çözümler verir. Genetik algoritmanın çalışma yöntemi Darwin’in Doğal Seçim prensibine dayanır. Genetik algoritmada amaç, doğal sistemlerin uyum sağlama özelliğini dikkate alarak yapay sistemleri tasarlamaktır (Croce et al, 1995; Engin ve Fığlalı, 2002).

     

    Algoritma ilk olarak popülasyon adı verilen bir çözüm kümesi (öğrenme veri kümesi) ile başlatılmaktadır. Bir popülasyondan alınan sonuçlar bir öncekinden daha iyi olacağı beklenen yeni bir popülasyon oluşturmak için kullanılmaktadır. Evrim süreci tamamlandığında bağımlılık kuralları veya sınıf modelleri ortaya konmuş olacaktır (Shah and Kursak, 2004).

     

    Bir problemin genetik algoritma ile çözümünde takip edilecek işlem adımları aşağıdaki gibidir (Croce et al., 1995):

    1. Arama uzayındaki bütün muhtemel çözümler, dizi olarak kodlanır. Her bir dizi, arama uzayında belirli bir bölgeye tekabül eder.

    2. Genellikle rassal bir çözüm seti seçilir ve başlangıç popülasyonu olarak kabul edilir.

    3. Her bir dizi için bir uygunluk değeri hesaplanır; bulunan uygunluk değerleri dizilerin çözüm kalitesini gösterir.

    4. Bir grup dizi (kromozom) belirli bir olasılık değerine göre rassal olarak seçilip üreme işlemi gerçekleştirilir.

    5. Üreme işleminde çeşitli genetik operatörler kullanılabilir.

     

    Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte 1950’li yıllarda önerilmiş olmasına rağmen o yıllarda gerektirdiği hesaplama ve bellek yüzünden kullanılamamıştır. Ancak günümüzde bilgisayarların ucuzlaması ve kapasitelerinin artmasıyla, özellikle de çok işlemcili sistemlerin yaygınlaşmasıyla kullanılabilir duruma gelmiştir (Orhunbilge, 2002).

     

    Örnek tabanlı yönteme en iyi örnek en yakın k komşu algoritmasıdır. En yakın komşu yaklaşımı, x noktasının sınıfını, x noktasına en yakın olan noktanın sınıfı olarak belirleme yaklaşımıdır. Sınıfı belirlenen nokta ile komşu nokta aynı sınıfa ait değiller ise hata söz konusudur. Bu yaklaşım sadece en yakın komşu ile sınıflandırma yapar, önceden sınıflandırılmış diğer noktaları önemsemez (Orhunbilge, 2002). Temel yaklaşımı, sınıflandırılmak istenen örneğe en yakın örnekleri bulmak olarak özetlenebilir ve aşağıdaki şekilde tanımlanabilir (Tan vd., 2005):

    1. Bütün örnekler n-boyutlu uzayda bir noktaya karşı düşürülür.

    2. Nesneler arasındaki uzaklık (Öklid uzaklığı) belirlenir.

    3. Öğrenilen fonksiyon ayrık değerli veya gerçel değerli olabilir.

    4. Ayrık değerli fonksiyonlarda k-komşu algoritması Xq örneğine en yakın k öğrenme örneğinde en çok görülen sınıf değerini verir.

    5. Sürekli değerli fonksiyonlarda en yakın k öğrenme örneğinin ortalaması alınmaktadır.

     

    Regresyon analizi, herhangi bir değişkenin (bağımlı değişken), bir veya birden fazla değişkenle (bağımsız veya açıklayıcı değişken) arasındaki ilişkinin matematik bir fonksiyon şeklinde yazılmasıdır. Bu fonksiyona regresyon denklemi adı verilmektedir. Regresyon denklemi yardımıyla bağımlı değişken ile bağımsız değişkenler arasındaki ilişkiyi kuran parametrelerin değerleri tahmin edilir (Orhunbilge, 2002; Çuhadar, 2006).

     

    Regresyon analizi, kullanılan bağımsız değişken sayısına göre sınıflandırılmış şu şekildedir:

    1. Basit regresyon analizi (Tek bağımsız değişken),

    2. Çoklu Regresyon analizi ( Birden çok bağımsız değişken).

     

    Fonksiyon tipine göre sınıflandırılması aşağıdaki gibidir:

    1. Doğrusal regresyon analizi,

    2. Doğrusal olmayan (eğrisel) regresyon analizi.

     

    Verilerin kaynağına göre sınıflandırıldığında şu gruplara ayrılır:

    1. Ana kütle verileriyle regresyon analizi,

    2. Örnek verileriyle regresyon analizi; olmak üzere üç ana grupta toplanabilir.

     

    Ana kütle (evren) için basit doğrusal regresyon denklemi aşağıdaki gibi yazılır;

     

    Y = b0 +b1  x +e   

    (2.1)

     

     

    Bu denklemde b0, x = 0 olduğunda regresyon doğrusunun dikey ekseni kestiği noktayı göstermektedir. b1 doğrusal fonksiyonun eğimi, yani bağımsız değişken x’deki bir birimlik değişmenin bağımlı değişken Y’de (Y cinsinden) ne kadarlık bir değişme meydana getirdiğini gösteren regresyon katsayısıdır. e ise, rassal (tesadüfi) hata terimidir. Artık veya kalıntı (residual) adı da verilmektedir. e = Y - Yˆ ’dir. Yˆ, tahmini bağımlı değişkenin değerini göstermektedir. Gerçek hayat uygulamalarında b0  ve b1 değerleri bilinmiyorsa, ana kütleden örnekler alınarak bunların tahmincileri olan b0 ve b1 kullanılarak 2.1 nolu denklem,

     

    y = b0  + b1 x + e                      

    (2.2)

    olarak yazılır. Ana kütle ve örnek için çoklu doğrusal regresyon denklemleri ise sırasıyla,

     

    Y = b0 +b1   x 1+b2 x 2 + ... +b n   x n  +e    

    (2.3)

     

    Y = b0 + b1 x1 + b2  x +  b n x n  + e  

    (2.4)

     

    şeklinde ifade edilmektedir (Kalaycı, 2003).

     

    2.2.8.2. Kümeleme modelleri

     

    Kümeleme, veriyi sınıflara veya kümelere ayırma işlemidir. Aynı kümedeki elemanlar birbirleriyle benzerlik gösterirlerken, başka kümelerin elemanlarından farklıdırlar. Kümeleme veri madenciliği, istatistik, biyoloji ve makine öğrenimi gibi pek çok alanda kullanılır. Kümeleme modelinde, sınıflama modelinde olan veri sınıfları yoktur. Verilerin herhangi bir sınıfı bulunmamaktadır. Sınıflama modelinde, verilerin sınıfları bilinmekte ve yeni bir veri geldiğinde bu verinin hangi sınıftan olabileceği tahmin edilmektedir. Oysa kümeleme modelinde, sınıfları bulunmayan veriler gruplar halinde kümelere ayrılırlar. Bazı uygulamalarda kümeleme modeli, sınıflama modelinin bir önişlemi gibi görev alabilmektedir (Ramkumar and Swami, 1998; Özekes, 2003; Baykal, 2006).

     

    Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme aynı zamanda Web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir (Seidman, 2001). Veri kümeleme güçlü bir gelişme göstermektedir. Veri tabanlarında toplanan veri miktarının artmasıyla orantılı olarak, kümeleme analizi son zamanlarda veri madenciliği araştırmalarında aktif bir konu haline gelmiştir (Özekes, 2003; Baykal, 2006).

    Literatürde çok sayıda kümeleme algoritması bulunmaktadır. Kullanılacak olan kümeleme algoritmasının seçimi veri tipine ve amaca bağlıdır. Genel olarak başlıca kümeleme yöntemleri şu şekilde sınıflandırılabilir (Özekes, 2003; Baykal, 2006; Han et al., 2011):

    1. Bölme yöntemleri (Partitioning methods)

    2. Hiyerarşik yöntemler (Hierarchical methods)

    3. Yoğunluk tabanlı yöntemler (Density-based methods)

    4. Izgara tabanlı yöntemler (Grid-based methods)

    5. Model tabanlı yöntemler (Model-based methods)

     

    Bölme yöntemlerinde, n veri tabanındaki nesne sayısı ve k oluşturulacak küme sayısı olarak kabul edilirler. Bölme algoritması n adet nesneyi, k adet kümeye bölmektedir (k_n). Kümeler tarafsız bölme kriteri olarak nitelendirilen bir kritere uygun oluşturulduğundan aynı kümedeki nesneler birbirlerine benzerken, farklı kümedeki nesnelerden daha farklıdırlar (Han et al., 2011).

     

    En iyi bilinen ve en çok kullanılan bölme yöntemleri k-means yöntemi, k-medoids yöntemi ve bunların varyasyonlarıdır (Fayyad, 1998). k-means yöntemi, ilk önce n adet nesneden rastgele k adet nesne seçer ve bu nesnelerin her biri, bir kümenin merkezini veya orta noktasını temsil eder. Geriye kalan nesnelerden her biri kendisine en yakın olan küme merkezine göre kümelere dağılırlar. Yani bir nesne hangi kümenin merkezine daha yakın ise o kümeye yerleşir. Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o kümenin yeni merkezi olur. Bu işlem tüm nesneler kümelere yerleşinceye kadar devam eder (Han et al, 2011).

     

    K-means yöntemi, sadece kümenin ortalaması tanımlanabildiği durumlarda kullanılabilir (Saleeb, 2001). Kullanıcıların k değerini, yani oluşacak küme sayısını belirtme gerekliliği bir dezavantaj olarak görülebilir. Esas önemli olan dezavantaj ise dışarıda kalanlar (outliers) olarak adlandırılan nesnelere karşı olan duyarlılıktır (Han et al., 2011). Değeri çok büyük olan bir nesne, dahil olacağı kümenin ortalamasını ve merkez noktasını büyük bir derecede değiştirebilir. Bu değişiklik kümenin hassasiyetini bozabilir. Bu sorunu gidermek için kümedeki nesnelerin ortalamasını almak yerine, kümede ortaya en yakın noktada konumlanmış olan nesne anlamındaki medoid kullanılabilir. Bu işlem k-medoids yöntemi ile gerçekleştirilir. k-medoids kümeleme yönteminin temel stratejisi ilk olarak n adet nesnede, merkezi temsili bir medoid olan k adet küme bulmaktır. Geriye kalan nesneler, kendilerine en yakın olan medoide göre k adet kümeye yerleşirler. Bu bölünmelerin ardından kümenin ortasına en yakın olan nesneyi bulmak için medoid, medoid olmayan her nesne ile yer değiştirir. Bu işlem en verimli medoid bulunana kadar devam eder duyarlılıktır (Han et al., 2011).

     

    Kümeleme modellerinde amaç üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir. Kümeleme analizinde; veri tabanındaki kayıtların hangi kümelere ayrılacağı veya kümelemenin hangi değişken özelliklerine göre yapılacağı konunun uzmanı olan bir kişi tarafından belirtilebileceği gibi veri tabanındaki kayıtların hangi kümelere ayıracağını geliştirilen bilgisayar programları da yapabilmektedir (Akpınar, 2000).

     

    2.2.8.3. Birliktelik kuralları ve ardışık örüntüler

     

    Birliktelik kuralları, büyük veri kümeleri arasında birliktelik ilişkileri bulurlar (Han and Fu, 1999). Toplanan ve depolanan verinin her geçen gün gittikçe büyümesi yüzünden, şirketler veritabanlarındaki birliktelik kurallarını ortaya çıkarmak istemektedirler. Büyük miktardaki mesleki işlem kayıtlarından ilginç birliktelik ilişkilerini keşfetmek, şirketlerin karar alma işlemlerini daha verimli hale getirmektedir. Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu işlem, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında daha etki satış stratejileri geliştirebilirler. Örneğin bir müşterinin süt satın alıyorsa, aynı alışverişte sütle birlikte ekmek de alma olasılığı bilgisi ışığında rafları düzenleyen market yöneticileri, ürünlerindeki satış oranını arttırabilirler. Bir marketin müşterilerinin süt ile birlikte ekmek satın alan oranı yüksekse, market yöneticileri süt ile ekmek raflarını yan yana koyarak ekmek satışlarını arttırabilirler. Örneğin bir A ürününü satın alan müşteriler aynı zamanda B ürününü da satın alıyorlarsa, bu durum 2.5 nolu denklemdeki Birliktelik Kuralı ile gösterilir (Zaki, 1999; Özekes, 2003):

     

    A => B [destek = %2, güven = %60]

    (2.5)

     

    Buradaki destek ve güven ifadeleri, kuralın ilginçlik ölçüleridir. Sırasıyla, keşfedilen kuralın kullanışlığını ve doğruluğunu gösterirler. 2.5 nolu denklemdeki Birliktelik Kuralı için %2 oranındaki bir destek değeri, analiz edilen tüm alışverişlerden %2'sinde A ile B ürünlerinin birlikte satıldığını belirtir. %60 oranındaki güven değeri ise A ürününü satın alan müşterilerinin %60'ının aynı alışverişte B ürününü de satın aldığını ortaya koyar.

     

    Kullanıcı tarafından minimum destek eşik değeri ve minimum güven eşik değeri belirlenir ve bu değerleri asan birliktelik kuralları dikkate alınır. Büyük veri tabanlarında birliktelik kuralları bulunurken, şu iki işlem basamağı takip edilir (Zaki, 1999):

    1. Sık tekrarlanan öğeler bulunur. Bu öğelerin her biri en az, önceden belirlenen minimum destek sayısı kadar sık tekrarlanırlar.

    2. Sık tekrarlanan öğelerden güçlü birliktelik kuralları oluşturulur. Bu kurallar minimum destek ve minimum güven değerlerini karşılamalıdır. Sık tekrarlanan öğeleri bulmak için kullanılan en temel yöntem Apriori Algoritmasıdır (Özekes, 2003). Birliktelik analizi, bir veri kümesindeki kayıtlar arasındaki bağlantıları arayan denetimsiz (unsupervised) veri madenciliği şeklidir. Birliktelik analizi çoğu zaman perakende sektöründe süpermarket müşterilerinin satın alma davranışlarını ortaya koymak için kullanıldığından “pazar sepeti analizi” olarak da adlandırılmaktadır (Özekes, 2003; Baykal, 2006).

     

     

     

    2.2.9. Tıbbi verilerle veri madenciliği

     

    Tıp alanında bilginin kullanım şeklinde meydana gelen değişiklikler sağlık bakım hizmetini verenleri etkilemiş, sağlık bakım hizmetinin verilmesinde bilgisayar kullanımı, bilginin paylaşım-ekip yaklaşımını, veri ve bilgi temelli uygulama gibi kavramlar yaygınlaşmaya başlamıştır. Bilgisayarlar, hasta bakım hizmetlerinin desteklenmesi ve sağlık bakım hizmetlerinin kalitesinin değerlendirilmesi gibi doğrudan sağlık bakım hizmetlerinin sunulmasındaki kullanımının yanı sıra, teşhis koyma, tedavi süreçleri, yönetim, planlama ve tıbbi araştırmalar gibi yönetsel ve akademik fonksiyonların yerine getirilmesinde de daha sıklıkla kullanılmaya başlanmıştır (Kaya vd., 2003; Albayrak, 2008).

     

    Tıp alanında bulunan mevcut veri oldukça fazla ve hayati öneme sahiptir. Hastane bilgi sistemleri sayesinde bu veriler düzenli olarak tutulmaktadır. Hayati öneme sahip olan bu verilerden daha fazla yaralanmak mümkündür. Hastane Bilgi sistemlerinden veya diğer tıbbi veri toplayan sistemlerden alınan veriler üzerinde yapılan veri madenciliği çalışmaları hem uzmanlar için hem hastane yönetimi için hem de hastaların daha kaliteli bir hizmet almalarında etkin rol oynamaktadır (Kaya vd., 2003).

     

    2.2.9.1. Tıbbi verilerle veri ambarının oluşturulması

     

    Tıbbi veriler üzerinde çalışma yapmak bu verileri iyi tanımakla mümkündür. Tıbbi verilerin yorumlanmasında uzmanların önemli bir rolü vardır. Bu nedenle uzman görüşleri ile işlemler arasındaki bağlantı iyi kurulmalıdır. Tıp alanında belirli bir standardın olmaması ve var olan standartlar arasında tam bir uyumun olmaması nedeniyle bu alanında bir veri ambarının oluşturulması oldukça zor bir işlemdir. Çeşitli standartlar arasında farklı kodlama sistemleri mevcut durumdadır. Bu nedenle veri ambarı oluştururken farklı kaynaklardan toplanan veriler arasındaki standart uyum da göz önüne alınmalıdır (Kaya vd., 2003).

     

     

    Tıp alanındaki terimlerin hem karışık hem de birbirine yakın ifadelerde olması veri ambarı oluşumunu negatif yönde etkilemektedir. Tıp alanındaki veri, genellikle farklı kaynaklarda toplanmaktadır. Örneğin hastanın laboratuar ile ilgili verileri ile hastanın teşhis bilgileri farklı kaynak, farklı şekil ve farklı düzenlerde tutulmaktadır (Kaya vd., 2003).

     

    2.2.9.2. Tıbbi verilerin özellikleri

     

    Tıbbi verilerin veri madenciliğinde etkin olarak kullanılabilmesi için bu verilerin özelliklerinin çok iyi bilinmesi ve yapılan işlemlerin bu özellikleri dikkate alınarak yapılması gerekmektedir. Bunlar (Torrence and Compo, 1998; Baykal, 2007):

     

    1. Çok sayıda yordam, görüntülemeyi bir tanı aracı olarak kullanmaktadır. Bu nedenle, görüntülerden oluşan veritabanlarında etkin bir veri madenciliği gerçekleştirebilmek için yöntemler geliştirmek gerekmektedir. Bu da sayısal veritabanlarındaki veri madenciliğinden hem daha farklı, hem de daha zordur.

     

    2. Tıbbi veritabanları, her zaman heterojendir. Örneğin, bir organa ait görüntü, her zaman, hekimin yorumu (klinik izlenim, tanı) gibi, başka klinik bilgilerle bir aradadır. Bu durum, bu tür verilerin çözümlemesi için yeni araçlar ve yüksek kapasiteli veri depolama aygıtları gerektirir.

     

    3. Hekimler, görüntüler, sinyaller ya da diğer klinik bilgilerle ilgili yorumlarını, standartlaştırılması çok güç olan serbest metinler olarak yazmaktadır. Örneğin aynı hastalık açıklanırken bile farklı adlar kullanılmaktadır. Tıbbi kavramlar arasındaki ilişkileri açıklamak için de farklı dilbilgisi yapıları kullanılmaktadır.

     

    4. Verinin sahibi bilinmemektedir. Her yıl milyarlarca baytlık tıbbi veri üretilmekte, bu veriler, heterojen veritabanlarında saklanmakta ve sağlık kurumları tarafından ortak bir biçim ya da ilkeye göre düzenlenmeden yayılmaktadır. Hastaya ait bilgilerin sahibinin kim olduğu sorusu hala yanıtlanmamıştır. Bu verilerin hastalar mı, hekimler mi yoksa sigorta kurumlarına mı ait olduğu kesin olarak bilinmemektedir.

     

    5. Hekimlere ya da sağlık hizmeti veren diğer kişilere yönelik davalardır. Örneğin, hekimler gereksiz testler yüzünden dava konusu olabilmektedir. Böyle bir ortamda da hekimler ya da sağlık hizmeti veren diğer kişiler, verilerini bu veriler üzerinde çalışacak olan kişi ya da kurumlara aktarmakta gönülsüz davranmaktadır.

     

    6. Gizlilik, güvenlik ve hasta mahremiyetiyle ilgili konular önemlidir. Veri Internet üzerinden elektronik olarak aktarıldığından, güvenli değildir. Bu nedenle veri bir kurum içinde bir birimden diğerine aktarılacak olsa da dikkatli bir biçimde şifrelenmelidir.

     

    7. Tıptaki temel veri yapıları, fiziksel bilimlerin birçok alanıyla karşılaştırıldığında, matematiksel olarak karakterize edilmeye pek uygun değildir. Veri madencisinin bilgiyi düzenleyebileceği, kümeleme, gerileme modelleri ya da dizi çözümlemeleri gibi karşılaştırılabilir yapılar yoktur.

     

    8. Tıp öncelikle insan sağlığıyla ilgili bir etkinlik, ikincil olarak bir araştırma kaynağıdır. Genel olarak tıp alanında bilgi toplama ya da bazı bilgilerin toplanması hasta yararı içindir.