Makine Öğrenimi ile ilgili konulara daha derinlemesine girdikçe, karşımıza bol miktarda teknik terim çıkıyor. Bu terimler, alandaki profesyonellerin nasıl konuştuklarını anlamamıza ve Makine Öğrenimine derinlemesine girdikçe sıkça karşılaşacağımız kavramlara aşina olmamıza yardımcı olur.
Amacımız, teknik detaylara fazla girmeden konular hakkında anlam kazandırmak. Zamanınızın değerli olduğunu biliyoruz, bu yüzden Makine Öğrenimi dilini öğrenmeye harcadığınız zamanın karşılığını, uygulama ve kullanım örneklerine geçtiğimizde fazlasıyla alacağınızdan eminiz.
Denetimli ve Denetimsiz Öğrenme ve Yeniden Bakış
Makine öğrenimi ve temelleri bloğumuzda denetimli ve denetimsiz öğrenme kavramlarına yüzeysel olarak değinmiştik; ancak bu konular oldukça önemli ve daha derinlemesine incelenmeyi hak ediyor.

Denetimli Makine Öğrenimi
Daha önce de tartıştığımız gibi, denetimli Makine Öğrenimi sürecinde insan etkileşimi bulunur. Uygulamada en çok kullanılan Makine Öğrenimi türü budur. Bu türü anlamanın en kolay yolu, bir girdi değişkeni (x) ve bir çıktı değişkeni (y) olduğunu hayal etmektir. Girdiyi çıktıya bağlayan bir eşleme fonksiyonunu öğrenmek için bir algoritma kullanırsınız. Bu senaryoda insanlar, girdiyi, istenen çıktıyı ve algoritmayı sağlar.
Denetimli öğrenmeyi iki problem türü üzerinden inceleyebiliriz:
- Sınıflandırma (Classification) – Sınıflandırma problemlerinin çıktı değişkeni cinsiyet veya yaş grubu gibi kategorik olur. Bu tür problemler için yaygın bir model Destek Vektör Makineleri’dir (SVM). İsmi kulağa garip gelse de, SVM aslında sınıflar arasında en geniş sınırı oluşturacak şekilde çizilen doğrusal bir karar çizgisidir.

- Regresyon (Regression) – Regresyon problemlerinde ise çıktı değişkenleri süreklidir. Bu tür problemlerin yaygın biçimi doğrusal regresyonlardır. Doğrusal regresyon modelleri, bağımlı bir değişken (örneğin satışlar) üzerindeki bağımsız değişkenlerin etkisini, kareler toplamı hatasını minimize eden “en iyi uyum” ile hesaplamaya çalışır. Daha karmaşık senaryolar için doğrusal modeller birleştirilerek daha gelişmiş regresyon modelleri elde edilir.


Denetimsiz Makine Öğrenimi
Denetimli öğrenmenin aksine, denetimsiz öğrenmede yalnızca (x) verisi girilir. Bu modelde doğru cevap yoktur ve “öğretmen”e gerek yoktur. Denetimsiz Makine Öğreniminin iki ana türü vardır: kümeleme ve ilişkilendirme.
- Kümeleme (Clustering) – Bu tür, verileri birbirine yakın gruplar halinde bölmeye çalışan teknikleri tanımlar. Örneğin, müşterilerin satın alma davranışlarına göre gruplandırılması kümeleme örneğidir.

- İlişkilendirme (Association) – Bu tür, veriler arasındaki bağlantıları keşfetmek için kurallar oluşturan teknikleri tanımlar. Örneğin, “X ürününü satın alan kişiler genellikle Y ürününü de satın alır” gibi kurallar çıkarılır.
Yarı Denetimli Makine Öğrenimi
Ama durun… Denetimli ve denetimsiz öğrenme dışında bir de üçüncü bir tür daha var: Yarı denetimli Makine Öğrenimi. Bu türü, yukarıdaki iki modelin bir hibriti olarak düşünebilirsiniz. Genellikle büyük bir (x) veri kümeniz olur, ancak yalnızca (y) verisinin bir kısmı kesin ve öğretilebilir durumdadır. Bu tür öğrenme, regresyon ve sınıflandırma modellerinde kullanılabilir; ayrıca tahmin üretmek için de tercih edilebilir.
Sınıflandırıcılar (Classifiers)
- Karar Ağaçları (Decision Trees): Bir kök düğümden başlayarak dallara ayrılan ve her dalda “temizlik” yani veri safiyetine göre karar verilen bir yapıdadır. Kullanıcı, kökten başlayarak her dalda yöneltilen sorulara göre bir sonraki dala geçer ve en sonunda ulaştığı yaprak düğümdeki etiket, o örneğin sınıfı olur. Bu, sezgisel olarak en anlaşılır model türüdür.
- Yedeklenmiş Hata Tahmini (Backed-up Error Estimate): Karar ağaçlarını budamak ve her dalın temizlik düzeyini korumak için, dalın kalması ya da budanması durumundaki hata tahminlerinin karşılaştırılması gerekir. Bu işlem, her bir dalın hata tahminini, o dalın alt düğümlere sınıflandırma ihtimalleriyle çarpar ve sonuçları toplar. Bu toplam, söz konusu dal düğümü için yedeklenmiş hata tahmini olur.
- Naive Bayes: Bayes Teoremi’ne ve öznitelikler arasındaki naif bağımsızlık varsayımlarına dayanır. Bayes çıkarımı, bir şey doğruysa başka bir şeyin doğru olma olasılığına odaklanır. Örneğin, bir kişinin boyu ve kilosu verildiğinde bu kişinin cinsiyetini tahmin etmek için kullanılabilir.
- Rastgele Orman (Random Forest): Tek bir karar ağacına dayanan modelin aksine, rastgele orman modeli birden çok karar ağacının gücünü kullanır. Her ağaç rastgele bir öznitelik alt kümesi ile eğitilir ve sonuçta tüm ağaçların çıktıları birleştirilerek nihai sonuç elde edilir.

Pekiştirmeli Öğrenme
Bir önceki bölümde tartıştığımız gibi, pekiştirmeli öğrenme sinir ağı gelişimi içeren Makine Öğrenimi evrimidir. Bu tür öğrenme, birden fazla katmanı birleştirerek zeki modeller oluşturmada kullanılır.
- Sinir Ağları (Neural Networks): Yapay nöronlardan oluşan bu katmanlar, yönlendirilmiş ağırlıklı bağlantılarla birbirine bağlanır. Her sinir ağı katmanı bir sonrakine veri aktarır. Girdi birimlerine dışarıdan değer verildiğinde bu işlem “kıskaçlama” (clamping) olarak adlandırılır.
- Aktivasyon Fonksiyonu: Bir nöronun çıktı davranışını tanımlar. Çoğu ağ, girdilerin ağırlıklı toplamına göre tasarlanır.
- Eşzamanlı vs. Eşzamansız (Synchronous vs. Asynchronous): Bazı sinir ağları aynı anda “ateşlenen” katmanlara sahiptir ve ortak saat kullanır (eşzamanlı). Diğerleri farklı zamanlarda çalışır (eşzamansız). Bu, işlemlerin rastgele olduğu anlamına gelmez; sadece zamanlamalarının sabit olmadığı anlamına gelir.
Matematiksel Kavramlar
- Boyut Azaltma (Dimensionality Reduction): Bu kavram, doğrusal cebir kullanarak veri setleri arasındaki korelasyonları bulmayı hedefler.
- Temel Bileşen Analizi (Principal Component Analysis – PCA): Büyük veri kümelerinden birbirinden bağımsız (ilişkisiz) temel bileşenleri belirlemeye yarar. Amaç, en az sayıda bileşenle en fazla değişkenliği açıklamaktır. Genellikle büyük veri setleriyle çalışan sistemlerde kullanılır.
- Tekil Değer Ayrıştırması (Singular Value Decomposition – SVD): Çeşitli vektörlerden gelen bilgileri birleştirerek, verilerdeki çoğu değişkenliği açıklayabilen temel vektörleri oluşturur.

- Graf Analizi (Graph Analysis): Sayısal veri noktaları (düğümler) arasındaki “kenarlar” aracılığıyla ağları analiz eder. Örneğin, Facebook’un EdgeRank algoritması, grafik teorisinden türetilmişti.

- Benzerlik Ölçümleri (Similarity Measures): İki nesne arasındaki benzerliği ölçen fonksiyonlardır. Örneğin, kosinüs benzerliği, belgeler arasındaki benzerliği ölçmekte sıkça kullanılır. Kümeleme işlemleri, veri noktaları arasındaki mesafeyi belirlemek için bu ölçümleri kullanır; kısa mesafeler daha yüksek benzerlik anlamına gelir.