Bu yazımda veri bilimi nedir?, hangi veri setleri için hangi hangi makine öğrenmesi algoritmaları kullanmanın daha avantajlı olduğu ile ilgili püf noktalardan bahsedeceğim. Bu yazının bir diğer amacı ise öğrenme yolculuğumda karşıma çıkan çözümleri ve püf noktaları sizlerle paylaşmak.
Veri bilimi, verilerden anlamlı içgörüler elde etmek için alan uzmanlığını, programlama becerileri ile matematik ve istatistik bilgilerini birleştiren çalışma alanıdır. Daha basit bir ifadeyle, veri bilimi ham verilerden, eyleme geçirilebilir bilgilerin çıkarılmasıdır. Bu çok disiplinli alan, veri kümelerindeki eğilimleri, patternleri, bağlantıları ve korelasyonları belirleme gibi bir amaca sahiptir. Bu amaç doğrultusunda veri bilimi, bilgisayar programlama, tahmine dayalı analiz, matematik, istatistik, makine ve derin öğrenmeyi de kapsayan yapay zeka gibi çok çeşitli araç ve teknikleri içerir.
Makine öğrenimi (ML), tükettikleri verilere göre öğrenen ya da performansı iyileştiren sistemler oluşturmaya odaklanan bir yapay zeka (AI) alt kümesidir. Yapay zeka, insan zekasını taklit eden sistemler veya makineler anlamına gelen kapsamlı bir terimdir. Makine öğrenimi ve yapay zeka genellikle bir arada değerlendirilir. Kimi durumlarda birbirinin yerine kullanılır ancak aynı anlama gelmezler.
Üzerinde işlem yapıp, makine öğrenmesi modeli kurulacak verinin tipi de makine öğrenmesi seçiminde son derece önem taşımaktadır. Aşağıda veri tipi , makine öğrenimi eşleşmesi verilmiştir.
Sayısal Veri (Numerical Data):
Açıklama: Sayısal veri, rakamlar veya sayılarla ifade edilen verilerdir. Örnek olarak, sıcaklık, mesafe, yağış miktarı gibi nicelikler verilebilir.
Makine Öğrenmesi Yöntemleri:
Doğrusal Regresyon
Karar Ağaçları
Destek Vektör Regresyonu
Gradient Boosting Regresyon
Derin Öğrenme (Yapay Sinir Ağları)
Kategorik Veri (Categorical Data):
Açıklama: Kategorik veri, belirli bir kategoriye ait olan verilerdir. Örnek olarak, renkler, şehir isimleri, kategori etiketleri gibi veriler verilebilir.
Makine Öğrenmesi Yöntemleri:
Lojistik Regresyon
Karar Ağaçları
Destek Vektör Makineleri (SVM)
K-En Yakın Komşu (KNN)
Derin Kategorik Öğrenme (Kategorik Değişkenler için Derin Öğrenme)
Metin Verisi (Text Data):
Açıklama: Metin verisi, kelimeler veya cümlelerden oluşan verilerdir. Örnek olarak, makale metinleri, müşteri yorumları, tweetler gibi veriler verilebilir.
Makine Öğrenmesi Yöntemleri:
Doğrusal Regresyon (Metin Sınıflandırması için)
Destek Vektör Makineleri (Metin Sınıflandırması için)
Naive Bayes (Metin Sınıflandırması için)
Word Embeddings (Kelime Gömülmesi)
Uzun Kısa Süreli Bellek (LSTM) ve Diğer RNN Modelleri
Dönüşümsel Modeller (BERT, GPT vb.)
Görüntü Verisi (Image Data):
Açıklama: Görüntü verisi, piksellerden oluşan ve görsel bilgi içeren verilerdir. Örnek olarak, fotoğraflar, medikal görüntüler, haritalar gibi veriler verilebilir.
Makine Öğrenmesi Yöntemleri:
Evrişimli Sinir Ağları (CNN)
Derin Evrişimli Ortak Modeller (Deep Convolutional Siamese Networks)
Transfer Öğrenme (Transfer Learning)
Görüntü Segmentasyonu için Evrişimli Encoder-Decoder Ağları
Nesne Algılama için Evrişimli Sinir Ağları
Zamansal Veri (Time Series Data):
Açıklama: Zamansal veri, belirli bir zaman aralığında ölçülen verilerdir. Örnek olarak, hisse senedi fiyatları, hava durumu verileri, trafik akış verileri gibi veriler verilebilir.
Makine Öğrenmesi Yöntemleri:
ARIMA (Oto-Regressif Entegre Hareketli Ortalama)
LSTM ve GRU (Uzun ve Kısa Süreli Bellek)
Prophet (Facebook tarafından geliştirilen zaman serisi tahmin aracı)