Makine Öğrenimi Rehberi ve hızlı başlangıç

makine öğrenimi rehberi

Bu makine öğrenimi rehberi sayesinde tabularınızı yıkacaksınız.Makine Öğrenimi’nin yalnızca uzmanlara özel olduğu ve programlama bilgisi az olan kişiler için uygun olmadığına dair yaygın bir düşünce vardır. Ancak, çalışacağınız “kişi” aslında bir makinedir ve makineler kendi başlarına karar veremez. Sizin göreviniz, bu makinelere düşünmeyi öğretmektir. İlk başta bunun imkânsız olduğunu düşünebilirsiniz; ama bu rehberle birlikte Makine Öğrenimi’nin aslında düşündüğünüzden çok daha kolay olduğunu göreceksiniz ve makine öğrenimine hızlı başlangıç yapacaksınız.

Tarihteki pek çok sistemde olduğu gibi — Newton’un hareket yasaları, arz-talep kanunları gibi — Makine Öğrenimi’ne ait fikirler ve kavramlar da ulaşılabilir ve karmaşık değildir. Makine Öğrenimi’ni öğrenirken karşılaşacağınız başlıca zorluklar ise; bazı formüller, özel terimler ve daha önce hiç duymamış olabileceğiniz teknik ifadelerdir. Şimdi makine öğrenimi rehberi ilk adım olarak neyi kabul ediyor bakalım.

Veri Kümesi Seçimi

Neredeyse her veri kümesi Makine Öğrenimi için kullanılabilir, ancak verimli bir model oluşturmak için verinizin iyi yapılandırılmış olması gerekir. Makine öğrenimi rehberi için ilk adım doğru veri kümesi seçmektir.

Veri kümeleri söz konusu olduğunda, iyi etiketlenmiş ve çok sayıda algoritmaya uygun veri kümeleriyle çalışmak, model oluşturma sürecini oldukça kolaylaştırır. Ancak, işin başında basit algoritmalarla çalışmak en iyisidir, çünkü veri hacmi arttıkça bu algoritmaların sınıflandırma süreci daha da kolaylaşır. Örneğin; milyarlarca özelliği olan düzenlenmiş lojistik regresyon bile yüksek performans gösterebilir.

Daha karmaşık algoritmalar — GBRT (Gradient Boosted Regression Tree), derin sinir ağları, rastgele ormanlar gibi — basit platformlara kıyasla daha iyi performans sağlar, fakat bu algoritmaların eğitimi ve kullanımı daha maliyetlidir. Büyük veriyle çalışırken genellikle lineer perceptron gibi algoritmalar kullanılır. Bu tür algoritmalarda her zaman stokastik gradyan inişi gerekir.

Özellik seçimi (feature selection) bu noktada hayati öneme sahiptir. Özellik seçimi bir bilimden çok bir sanat gibidir. Süreç karmaşık olabilir; fakat işe yaramayan özellikleri ayıklayarak başlamanız, seçenekleri daraltmanıza yardımcı olur.

makine öğrenimi rehberi

Model Seçimi

Makine öğrenimi rehberi için ilk adım doğru veri kümesi seçmekti bu adımdan sonra da en uygun model seçimi geliyor. İhtiyacınıza en uygun modeli bulmak için şu kriterleri göz önünde bulundurun:

  • Doğruluk (Accuracy): Yüksek doğruluk önemlidir ancak her zaman en doğru olanı seçmek gerekmez. Bazen modelin yüksek yanlılık (bias) veya yüksek varyans (variance) üretmesi gibi sorunlar oluşabilir. Bu durumda yaklaşık sonuçlar yeterli olabilir ve bu da işlem süresini azaltır ve aşırı öğrenmenin (overfitting) önüne geçer.
  • Eğitim Süresi (Training Time): Her algoritmanın modeli eğitmek için ihtiyaç duyduğu süre farklıdır. Eğitim süresi genellikle doğrulukla ilişkilidir. Daha fazla süre, daha iyi doğruluk sağlayabilir. Bazı algoritmalar ise daha hassastır ve daha uzun süreli eğitime ihtiyaç duyar.
  • Lineer Sınıflandırma (Linear Classification): Birçok Makine Öğrenimi algoritmasında lineer sınıflandırma yaklaşımı görülür. Lineer regresyon veya destek vektör makineleri bu gruba dahildir. Genellikle basit ve hızlı oldukları için bu algoritmalarla başlanır.
  • Parametre Sayısı: Parametreler, algoritmanın davranışını etkileyen sayısal ayarlardır. Örneğin; iterasyon sayısı, hata toleransı, modelin varyant seçenekleri gibi. Parametre sayısı arttıkça deneme-yanılma süreci de artar.

Modeli Eğitmek

En uygun modeli seçtikten sonra makine öğrenimi rehberi için sıra modeli eğitmeye geliyor. Modeli eğitmek yüksek doğruluk elde etmek için bir modeli eğitirken tekrarlama kaçınılmazdır. İlk adım, projenize en uygun modeli seçmektir. Daha önce avantaj ve dezavantajlarını konuşmuştuk.

Veri Setini Test ve Eğitim için Ayırmak (Data Partitioning):
“Veri bölme” süreci olarak da adlandırılır. Hangi veri noktalarının eğitim ve test veri kümelerine ayrılacağını seçmenize yardımcı olacak çeşitli araçlar ve dillerden çeşitli seçenekler bulabilirsiniz.

Python kullanıyorsanız, scikit-learn kütüphanesinden train_test_split paketini içe aktarabilir ve verilerinizin ne kadarının eğitim için kullanılacağını belirleyebilirsiniz.

makine öğrenimi rehberi

R kullananlar için, aşağıda veri kümelerini bölmeye yönelik bir örnek verilmiştir.

makine öğrenimi rehberi

Çapraz Doğrulama ile Önyargıyı Azaltmak (Cross-Validation):
Çapraz doğrulama (Cross Validation – CV), Makine Öğrenimi modellerinin etkinliğini değerlendirmek ve elimizde sınırlı veri varsa bir modeli eğitmek için kullanılır. Çapraz Doğrulama dediğimizde çoğunlukla K-Katlı Çapraz Doğrulama (K-Fold Cross Validation) kastedilir.

K-Fold yöntemi, veri kümesini rastgele k katmana (fold) böler ve k-1 (k eksi 1) tanesini eğitim, k’nıncı katmanı ise doğrulama (test) için kullanır. Bu işlem, her bir K katmanı test kümesi olarak kullanılana kadar tekrar edilir ve kaydedilen skorların ortalaması alınır.

makine öğrenimi rehberi

Bu nedenle, Çapraz Doğrulama, çok fazla gürültü (noise) yakalamayan, yani daha düşük varyans ve önyargıya (bias) sahip, gerçekten doğru bir model için size güvence sağlayabilir. Özellikle aşırı öğrenmeyi (overfitting) azaltmanız gereken durumlarda modelinizin etkinliğini izlemek istiyorsanız, çapraz doğrulama güvenilir bir tekniktir.

İstenen Doğruluk Elde Edilene Kadar Bu Adımları Tekrarlayın

Verileri Toplayın ve Test Edin

Makine öğrenimi rehberi için en önemli şey doğruluk elde etmektir. Öğrenmek ve rahatça çalışmak için temel veri kümelerini arıyorsanız, uzmanlar 1936 yılında İngiliz istatistikçi Ronald Fisher tarafından tanıtılan Iris Çiçeği Veri Kümesi gibi çok değişkenli veri kümelerini önerir. Bu veri kümesi, üç farklı iris türü üzerinden dört ölçülen özelliği inceler. Her tür için 50 örnek içerir.

Veri kümesini edindikten sonra şu adımları izleyin:

KNIME Kullanarak Tahmin Modeli

İlk olarak KNIME Analytics Platform’unuzu açın ve yeni bir iş akışı oluşturun.

makine öğrenimi rehberi

Sol üst pencerede, KNIME Explorer, tüm projelerinizi (iş akışları) ve ilgili veri kümelerini gösterir. Sol altta ise model kurmak için ihtiyaç duyduğunuz tüm araçları bulabilirsiniz. KNIME, günlük çalışmalarda sıklıkla kullanılan Kümeleme, Sinir Ağı ve Doğrusal Regresyon gibi hemen her makine öğrenimi modelini içerir.

makine öğrenimi rehberi

Platforma alıştıktan sonra modeli kurmaya başlayalım. KNIME’ın avantajlarından biri, yalnızca Düğüm Deposu’ndan bir düğüm sürüklemekle kalmayıp, veri dosyasını da doğrudan yerel klasörünüzden platforma sürükleyebilmenizdir. KNIME dosyanızı otomatik olarak tanır ve okur. Bu örnekte iris veri kümesini kullandık.

Dosyayı KNIME’a sürükledikten sonra, veri kümesinin bilgilerini gösteren bir açılır pencere görürsünüz. Her şey doğruysa Tamam’a tıklayın.

makine öğrenimi rehberi

Ana ekrana döndüğünüzde, Dosya Düğümüne sağ tıklayın ve Veri Kümesini içe aktarmayı tamamlamak için Yürüt (Execute) seçeneğini seçin.

makine öğrenimi rehberi

Sonra, veri kümesini eğitim ve test veri kümelerine ayırmanız gerekir. Eğitim oranını Göreli (Relative) seçeneğinden değiştirebilirsiniz. Bu örnekte %70 eğitim ve %30 test oranı seçildi.

makine öğrenimi rehberi

Veri kümesini böldükten sonra, eğitim için uygun modelleri seçin. Düğüm Deposu’ndan Analytics and Mining’e tıklayarak tüm modelleri görebilirsiniz. Bu örnekte Karar Ağacı (Decision Tree) ve Rastgele Orman (Random Forest) seçildi. Eğitim verilerini kullandığınızı belirtmek için her öğrenici düğümü yukarı ok ile bağlamayı unutmayın.

makine öğrenimi rehberi

Model düğümlerini çalıştırmadan önce, her modelin parametre ayarlarını kontrol etmelisiniz. Bunun için model düğümüne sağ tıklayın ve yapılandır (configure) seçeneğini seçin. Açılan pencerede hedef sütun (bağımlı değişken) ve bağımsız değişkenleri değiştirebilirsiniz. Tamam’a tıklayın.

makine öğrenimi rehberi

Her öğrenici düğümünü çalıştırarak eğitimi tamamladıktan sonra, her birine karşılık gelen tahminleyicileri eklemelisiniz ve tahminleyici düğümünü hem öğrenici düğümüne hem de ayırma düğümüne bağlamalısınız.

makine öğrenimi rehberi

Yürütmeyi tamamladıktan sonra, skorlayıcı (scorer) düğümüne sağ tıklayın ve Doğruluk İstatistikleri (Accuracy Statistics) seçeneğini seçin. Açılan yeni pencerede, tablo üzerinden Random Forest modelimizin doğruluğunun %97,8 olduğunu görebilirsiniz. Harika iş!

makine öğrenimi rehberi

Bu örnekte size yalnızca basit bir iş akışıyla temel tahmin modelleri gösterdik, ancak KNIME daha karmaşık iş akışlarıyla gelişmiş modeller kurmanıza olanak tanır.

iPullRank Yaklaşımı: Üç C

Makine öğrenimi rehberi sayesinde nasıl hızı bir başlangıç yapacağımzı anladık şimdi ise iPullrank yaklaşımını inceleyelim.

iPullRank olarak temel stratejilerimizi üç C üzerine kuruyoruz: Customers (Müşteriler), Content (İçerik), Components (Bileşenler). Her biri eşit derecede önemlidir ve tüm stratejilerimiz bu üç alana özel olarak odaklanır.

Customers (Müşteriler):
Her stratejimizin ana odağı, organik aramayla ilgili pazarlama segmentasyonudur. Başarılı bir SEO kampanyasında müşterinizi anlamak hayati önem taşır.

Content (İçerik):
iPullRank’te hedefimiz her zaman “10x içerik” üretmektir. Yani her içerik (blog yazısı, infografik, interaktif vb.) piyasadakilerin en az 10 katı değer sunmalıdır.

Components (Bileşenler):
Tüm çıktılarımızın teknik yönü rakipsizdir ve hepsi veriyle desteklenir.

2014’te kurulduğumuzdan bu yana onlarca kurumsal şirketle çalıştık ve 1 milyar doların üzerinde ek gelir sağladık.

Kurumsal SEO’nun önemi hakkında bilinçli bir karar vermeye hazırsanız, uzman SEO, içerik stratejisi, analiz ve pazarlama ekibimizle iletişime geçin. Size ihtiyacınız olan sonuçları nasıl sağlayacağımızı anlatalım.

iPullRank, SEO, içerik stratejisi, çözüm mimarisi, pazarlama otomasyonu, sosyal medya, ölçümleme ve optimizasyon alanlarında uzmanlaşmış çevik ve sonuç odaklı bir dijital pazarlama ajansıdır. New York’ta bulunuyoruz ve hem yerel hem de uluslararası müşterilerle gurur duyduğumuz projeler yaratıyoruz.

SEO’nun geleceği hakkında daha fazla bilgi almak isterseniz, 50 Teknik başlıklı kaynaklarımıza ve SEO’da Tahminleme ve Yatırım Getirisi raporlarımıza göz atabilir ya da SEO hedeflerinize ulaşmanız için bizimle iletişime geçebilirsiniz.

Bu yazılarda ilginizi çekebilir

Eşsiz Satış Vaadi
Jack trout ve Al rise’ın Positioning kitabından bir vurgu ile...
Makine Öğrenimi Genel Analiz
Verinin Konuştuğu Yeni Dil Dijital evren hızla genişliyor. Her saniye...
Başarılı Bir Makine Öğrenimi Kullanım Örneği
Artık Makine Öğreniminin genel çerçevesini, temel kavramlarını ve pazarlamayla ilişkili...