02.11.2023

1

Like

88

Views

Veri Bilimi Genel

Veri Bilimi Nedir?

Veri bilimi, verilerden bilginin çıkarılması çalışmasıdır. Verilerden faydalı bilgiler elde etmek amacıyla sinyal işleme, matematik, olasılık, makine öğrenimi, bilgisayar programlama, istatistik, veri mühendisliği, örüntü eşleştirme ve veri görselleştirme gibi birçok alandan çeşitli teknikleri kullanır. Bilgisayar sistemlerinin daha fazla veriyi işleyebildiği göz önüne alındığında, büyük veriler veri biliminin önemli bir yönü haline geliyor.


Veri Bilimci Kimdir?

Veri bilimi yapan kişiye veri bilimcisi denir. Veri bilimcileri karmaşık veri problemlerini matematik, istatistik ve bilgisayar bilimini kullanarak çözerler. Veri bilimcilerin görevleri arasında verileri analiz etmek için strateji geliştirme, verileri analiz için hazırlama, verileri keşfetme, analiz etme ve görselleştirme, Python ve R gibi programlama dillerini kullanarak verilerle birlikte modeller oluşturma ve modelleri uygulama yazılımlarına konuşlandırma sayılabilir.


Veri Bilimi Neden Önemlidir?

Veri bilimi, verilerden anlam çıkartmak amacıyla çeşitli araç, yöntem ve teknolojileri bir araya getirdiği için önemlidir. Modern kuruluşlar adeta bir veri bombardımanı altında. Bilgileri otomatik olarak toplayabilen ve depolayabilen cihaz sayısı eskisinden çok daha fazla. Çevrimiçi sistemler ve ödeme portalları; e-ticaret, tıp, finans gibi alanlarda ve insan yaşamının diğer her alanında çok daha fazla veri yakalıyor. Devasa miktarda metin, ses, video ve görüntü verilerine erişebiliyoruz.


Veri Bilimi Ne İçin Kullanılır?

Veri bilimi, dört temel yol izlenerek veriler üzerinde çalışmak için kullanılır:

1. Açıklayıcı analiz

Açıklayıcı analiz, gerçekleşen olaylara veya veri ortamında yaşananlara dair öngörü elde etmek için verileri inceler. Karakteristik özelliği; pasta grafikleri, çubuk grafikleri, çizgi grafikleri, tablolar gibi veri görselleştirmeleri veya oluşturulmuş açıklamalar içermesidir. Örneğin, bir uçuş rezervasyonu hizmeti, her gün rezerve edilen bilet sayısı gibi verileri kaydedebilir. Açıklayıcı analiz bu hizmet için ani rezervasyon artışlarını, ani rezervasyon düşüşlerini ve yüksek performanslı ayları ortaya çıkarır.

2. Tanısal analiz

Tanısal analiz, bir şeyin neden gerçekleştiğini anlamak için yapılan derinlemesine irdeleme veya ayrıntılı veri incelemesidir. Karakteristik özelliği; ayrıntılara inme, veri keşfi, veri madenciliği ve bağıntılar gibi tekniklerdir. Bu tekniklerin her birindeki benzersiz düzenleri keşfetmek için belirli bir veri kümesi üzerinde birden fazla veri işlemi veya dönüşümü uygulanabilir. Örneğin, uçuş hizmeti, yüksek performanslı bir ayın ayrıntılarına inebilir ve ani rezervasyon artışını daha iyi anlamaya çalışabilir. Bunun sonucunda, çok sayıda müşterinin ayda bir düzenlenen bir spor etkinliğine katılmak için o şehri ziyaret ettiği keşfedilebilir.

3. Tahmine dayalı analiz

Tahmine dayalı analiz, geçmişteki verileri kullanarak gelecekte gerçekleşebilecek veri düzenleri hakkında isabetli tahminlerde bulunur. Karakteristik özelliği; makine öğrenimi, tahminde bulunma, düzen eşleştirme ve tahmine dayalı modelleme gibi tekniklerdir. Bu tekniklerin her birinde bilgisayarlar verilerdeki nedensellik bağlantıları üzerinde ters mühendislik yapmak için eğitilir. Örneğin, uçuş hizmeti ekibi her yılın başında o yılın uçuş rezervasyonu düzenlerini tahmin etmek için veri biliminden yararlanabilir. Bilgisayar programı veya algoritması geçmişteki verilere bakabilir ve Mayıs ayında belirli destinasyonlarda yaşanacak olan ani rezervasyon artışlarını tahmin edebilir. Müşterilerinin gelecekteki seyahat ihtiyaçlarını öngörebilen şirket, o şehirler için hedeflemeli reklamları Şubat ayından itibaren başlatabilir.

4. Kuralcı analiz

Kuralcı analiz, tahmine dayalı verileri bir üst seviyeye çıkarır. Sadece gerçekleşmesi olası sonucu tahmin etmekle kalmayarak bu sonuç için ideal yanıtı da önerir. Farklı seçimlerin getirebileceği potansiyel sonuçları analiz edebilir ve en iyi eylem tarzını önerebilir. Grafik analizini, simülasyonu, karmaşık olay işleme süreçlerini, sinir ağlarını ve makine öğreniminden öneri altyapılarını kullanır.         

Uçuş rezervasyonu örneğine dönersek, kuralcı analiz geçmişteki pazarlama kampanyalarına bakarak yaklaşan ani rezervasyon artışından en iyi şekilde yararlanmayı sağlayabilir. Bir veri bilimci, farklı pazarlama kanallarındaki farklı pazarlama harcaması seviyelerinin getireceği rezervasyon sonuçlarını öngörebilir. Bu veri tahminleri, uçuş rezervasyonu şirketinin pazarlama kararlarını daha güvenle vermesine yardımcı olur.


Veri Bilimi Süreci Nedir?

Veri bilimi süreci genellikle bir iş sorunu nedeniyle başlatılır. Bir veri bilimci, işletmenin ihtiyaçlarını anlamak için işletme paydaşlarıyla birlikte çalışır. Sorun tanımlandıktan sonra, veri bilimci bu sorunu OSEMN veri bilimi sürecini kullanarak çözebilir:

O - Obtain data (Verileri edinme)

Önceden var olan veriler, yeni elde edilen veriler veya internetten indirilen bir veri deposu kullanılabilir. Veri bilimciler dahili veya harici veritabanlarından, şirket CRM yazılımlarından, web sunucusu günlüklerinden veya sosyal medyadan veri ayıklayabilir ya da üçüncü taraf kaynaklardan veri satın alabilir.

S - Scrub data (Verileri ovma)

Veri ovma veya veri temizleme adıyla karşımıza çıkan bu süreç, verileri önceden belirlenen bir formata göre standart hale getirme sürecidir. Eksik verileri ele alma, veri hatalarını düzeltme ve aykırı verileri kaldırma adımlarını içerir. Bazı veri ovma örnekleri şunlardır:· 

  • Tüm tarih değerlerini ortak bir standarda dönüştürmek.  
  • İmla hatalarını veya gereksiz boşlukları düzeltmek.  
  • Matematik hatalarını düzeltmek veya büyük sayılardaki noktaları kaldırmak.

E - Explore data (Verileri keşfetme)

Veri keşfi, ileride uygulanacak veri modelleme stratejilerini planlarken kullanılan ön veri analizidir. Veri bilimciler, açıklayıcı istatistiklerden ve veri görselleştirme araçlarından yararlanarak verileri genel hatlarıyla anlamaya başlar. Bundan sonra, üzerinde çalışılabilecek veya eyleme dönüştürülebilecek ilgi çekici düzenleri belirlemek için verileri keşfetmeleri mümkün olur.      

M - Model data (Verileri modelleme)

Daha derin öngörüler edinmek, sonuçları tahmin etmek ve en iyi eylem tarzını belirlemek için yazılım ve makine öğrenimi algoritmaları kullanılır. Eğitim veri kümesine ilişkilendirme, sınıflandırma ve kümeleme gibi makine öğrenimi teknikleri uygulanır. İsabet oranını değerlendirmek amacıyla, model önceden belirlenen test verileriyle karşılaştırılarak test edilebilir. Sonuçların iyileştirilmesi amacıyla, veri modeli üzerinde üst üste defalarca hassas ayar yapılabilir. 

N - Interpret results (Sonuçları yorumlama)

Veri bilimciler, veri öngörülerini eyleme dönüştürmek için analistlerle ve işletmelerle birlikte çalışır. Trendleri ve tahminleri temsil eden diyagramlar, grafikler ve çizelgeler oluşturur. Verilerin özetlenmesi, paydaşların sonuçları etkili bir şekilde anlamasına ve uygulamasına yardımcı olur.


Veri Bilimi Teknikleri Nelerdir?

Veri bilimi uzmanları, veri bilimi sürecini izlemek için bilgi işlem sistemleri oluşturur. Veri bilimciler tarafından kullanılan başlıca teknikler şunlardır:

Sınıflandırma

Sınıflandırma, verilerin belirli grup veya kategorilere tasnif edilmesidir. Bilgisayarlar, verileri belirlemek ve tasnif etmek üzere eğitilir. Bilinen veri kümeleri kullanılarak, bir bilgisayarda verileri hızlı bir şekilde işleyen ve kategorize eden karar algoritmaları oluşturulur. Örneğin:  

  • Ürünleri popüler veya popüler değil olarak tasnif etme  
  • Sigorta başvurularını yüksek riskli veya düşük riskli olarak tasnif etme  
  • Sosyal medya yorumlarını olumlu, olumsuz veya nötr olarak tasnif etme.

Veri bilimi uzmanları, veri bilimi sürecini izlemek için bilgi işlem sistemleri oluşturur. 

Regresyon

Regresyon, alakasız görünen iki veri noktası arasında bir ilişki bulma yöntemidir. Bağlantı genellikle bir matematik formülü etrafında modellenir ve bir grafik ya da eğriler olarak temsil edilir. Veri noktalarından birinin değeri bilindiğinde, diğer veri noktasını tahmin etmek için regresyon kullanılır. Örneğin:  

  • Hava yoluyla bulaşan hastalıkların yayılma hızı. 
  •  Müşteri memnuniyeti ile çalışan sayısı arasındaki ilişki.  
  • Belirli bir konumda itfaiye istasyonlarının sayısı ile yangından kaynaklanan yaralanma sayısı arasındaki ilişki. 

Kümeleme

Kümeleme, düzenleri veya anormallikleri bulmak amacıyla, birbiriyle yakından ilişkili verileri gruplandırma yöntemidir. Kümelemenin tasnif etmeden farkı, verilerin sabit kategorilere isabetli bir şekilde sınıflandırılamamasıdır. Bu nedenle veriler, en olası ilişkileri göz önünde bulundurularak gruplandırılır. Kümeleme sayesinde yeni düzenler ve ilişkiler keşfedilebilir. Örneğin:  

  • Daha iyi müşteri hizmeti sunmak amacıyla, benzer alışveriş davranışları sergileyen müşterileri gruplandırma.  
  • Günlük kullanım düzenlerini belirlemek ve bir ağ saldırısını daha hızlı tespit etmek için ağ trafiğini gruplandırma.  
  • Makaleleri farklı haber kategorileri altında kümeleme ve bu bilgileri asılsız haber içeriklerini bulmak üzere kullanma.

Veri bilimi tekniklerinin ardındaki temel ilke

Ayrıntılar değişiklik gösterebilmekle birlikte, bu tekniklerin altında yatan ilkeler şunlardır:

  • Bir makineye, bilinen bir veri kümesine dayalı olarak verileri nasıl tasnif edeceğini öğretmek. Örneğin, bilgisayara örnek anahtar sözcükler ve her birinin tasnif değeri verilir. "Mutluluk" olumlu, "Nefret" ise olumsuzdur.
  • Makineye bilinmeyen verileri vermek ve cihaza veri kümesini bağımsız bir şekilde tasnif ettirmek.
  •  Sonuçlardan bazılarının isabetsiz olacağı bilinciyle hareket etmek ve sonucun olasılık faktörünü ele almak.


Veri Bilimi Projelerini Uygulama Zorlukları

Veri uzmanları verimli çalışamıyor. Veri uzmanları, verilere erişim iznini BT yöneticisinin vermesi gerektiğinden genellikle verileri ve bu verileri analiz etmek için gereken kaynakları uzun süre beklemek zorunda kalıyor. Veri bilimi ekibi eriştikleri verileri farklı ve muhtemelen uyumsuz araçları kullanarak analiz ediyor olabilir. Örneğin, bir uzman R dilini kullanarak model geliştirebilir ancak kullanılacağı uygulama yazılımı farklı dilde yazılmış olabilir. Bu nedenle modelleri kullanışlı uygulama yazılımlarına dağıtmak haftalar, hatta aylar sürebilir.

Uygulama yazılımı geliştiricileri kullanılabilir makine öğrenimine erişemiyor. Bazı durumlarda geliştiricilerin aldığı makine öğrenimi modelleri uygulama yazılımlarında konuşlandırmaya hazır olmayabiliyor. Erişim noktaları sabit olabileceği için modeller tüm senaryolarda konuşlandırılamıyor ve ölçeklenebilirlik uygulama yazılımı geliştiricisine bırakılıyor.

BT yöneticileri desteğe çok fazla zaman harcıyor. Açık kaynak araçların çoğalması nedeniyle BT'nin desteklemesi gereken araçlar listesi gittikçe büyüyebilir. Örneğin, pazarlama bölümündeki bir veri uzmanı, finans bölümündeki bir veri uzmanından farklı araçlar kullanabilir. Ekipler de farklı iş akışlarıyla çalışabilir. Bu da BT ekibinin ortamları sürekli yeniden oluşturmasını ve güncellemesini gerektirir.

İş yöneticileri, veri biliminden fazla kopuk. Veri bilimi iş akışları her zaman iş kararlarını alma süreçlerine ve sistemlerine entegre edilmez ve bu durum, iş yöneticilerinin veri uzmanlarıyla bilgiye dayalı bir iş birliği kurmasını zorlaştırır. Daha iyi entegrasyon olmadan, iş yöneticileri neden prototipten üretime kadarki sürecin uzun sürdüğünü anlamakta güçlük çekiyor ve çok yavaş olarak gördükleri projelere yatırım yapılmasını destekleme olasılıkları daha düşük oluyor.

Veri Bilimine Giriş

Comments

You need to log in to be able to comment!

İsmail Chaushev

Flightless Dutchman. I like ride bicycle and travel new cities. I had to start zero point. I decided to improve my programming skills for catch opportunities.

Location

NL

Education

Electrical - Electronic Engineering - Karabük University

© 2021 Patika Dev

facebook
twitter
instagram
youtube
linkedin