02.11.2023
1
Like
88
Views
Veri Bilimi Nedir?
Veri bilimi, verilerden bilginin çıkarılması çalışmasıdır. Verilerden faydalı bilgiler elde etmek amacıyla sinyal işleme, matematik, olasılık, makine öğrenimi, bilgisayar programlama, istatistik, veri mühendisliği, örüntü eşleştirme ve veri görselleştirme gibi birçok alandan çeşitli teknikleri kullanır. Bilgisayar sistemlerinin daha fazla veriyi işleyebildiği göz önüne alındığında, büyük veriler veri biliminin önemli bir yönü haline geliyor.
Veri Bilimci Kimdir?
Veri bilimi yapan kişiye veri bilimcisi denir. Veri bilimcileri karmaşık veri problemlerini matematik, istatistik ve bilgisayar bilimini kullanarak çözerler. Veri bilimcilerin görevleri arasında verileri analiz etmek için strateji geliştirme, verileri analiz için hazırlama, verileri keşfetme, analiz etme ve görselleştirme, Python ve R gibi programlama dillerini kullanarak verilerle birlikte modeller oluşturma ve modelleri uygulama yazılımlarına konuşlandırma sayılabilir.
Veri Bilimi Neden Önemlidir?
Veri bilimi, verilerden anlam çıkartmak amacıyla çeşitli araç, yöntem ve teknolojileri bir araya getirdiği için önemlidir. Modern kuruluşlar adeta bir veri bombardımanı altında. Bilgileri otomatik olarak toplayabilen ve depolayabilen cihaz sayısı eskisinden çok daha fazla. Çevrimiçi sistemler ve ödeme portalları; e-ticaret, tıp, finans gibi alanlarda ve insan yaşamının diğer her alanında çok daha fazla veri yakalıyor. Devasa miktarda metin, ses, video ve görüntü verilerine erişebiliyoruz.
Veri Bilimi Ne İçin Kullanılır?
Veri bilimi, dört temel yol izlenerek veriler üzerinde çalışmak için kullanılır:
Açıklayıcı analiz, gerçekleşen olaylara veya veri ortamında yaşananlara dair öngörü elde etmek için verileri inceler. Karakteristik özelliği; pasta grafikleri, çubuk grafikleri, çizgi grafikleri, tablolar gibi veri görselleştirmeleri veya oluşturulmuş açıklamalar içermesidir. Örneğin, bir uçuş rezervasyonu hizmeti, her gün rezerve edilen bilet sayısı gibi verileri kaydedebilir. Açıklayıcı analiz bu hizmet için ani rezervasyon artışlarını, ani rezervasyon düşüşlerini ve yüksek performanslı ayları ortaya çıkarır.
Tanısal analiz, bir şeyin neden gerçekleştiğini anlamak için yapılan derinlemesine irdeleme veya ayrıntılı veri incelemesidir. Karakteristik özelliği; ayrıntılara inme, veri keşfi, veri madenciliği ve bağıntılar gibi tekniklerdir. Bu tekniklerin her birindeki benzersiz düzenleri keşfetmek için belirli bir veri kümesi üzerinde birden fazla veri işlemi veya dönüşümü uygulanabilir. Örneğin, uçuş hizmeti, yüksek performanslı bir ayın ayrıntılarına inebilir ve ani rezervasyon artışını daha iyi anlamaya çalışabilir. Bunun sonucunda, çok sayıda müşterinin ayda bir düzenlenen bir spor etkinliğine katılmak için o şehri ziyaret ettiği keşfedilebilir.
Tahmine dayalı analiz, geçmişteki verileri kullanarak gelecekte gerçekleşebilecek veri düzenleri hakkında isabetli tahminlerde bulunur. Karakteristik özelliği; makine öğrenimi, tahminde bulunma, düzen eşleştirme ve tahmine dayalı modelleme gibi tekniklerdir. Bu tekniklerin her birinde bilgisayarlar verilerdeki nedensellik bağlantıları üzerinde ters mühendislik yapmak için eğitilir. Örneğin, uçuş hizmeti ekibi her yılın başında o yılın uçuş rezervasyonu düzenlerini tahmin etmek için veri biliminden yararlanabilir. Bilgisayar programı veya algoritması geçmişteki verilere bakabilir ve Mayıs ayında belirli destinasyonlarda yaşanacak olan ani rezervasyon artışlarını tahmin edebilir. Müşterilerinin gelecekteki seyahat ihtiyaçlarını öngörebilen şirket, o şehirler için hedeflemeli reklamları Şubat ayından itibaren başlatabilir.
Kuralcı analiz, tahmine dayalı verileri bir üst seviyeye çıkarır. Sadece gerçekleşmesi olası sonucu tahmin etmekle kalmayarak bu sonuç için ideal yanıtı da önerir. Farklı seçimlerin getirebileceği potansiyel sonuçları analiz edebilir ve en iyi eylem tarzını önerebilir. Grafik analizini, simülasyonu, karmaşık olay işleme süreçlerini, sinir ağlarını ve makine öğreniminden öneri altyapılarını kullanır.
Uçuş rezervasyonu örneğine dönersek, kuralcı analiz geçmişteki pazarlama kampanyalarına bakarak yaklaşan ani rezervasyon artışından en iyi şekilde yararlanmayı sağlayabilir. Bir veri bilimci, farklı pazarlama kanallarındaki farklı pazarlama harcaması seviyelerinin getireceği rezervasyon sonuçlarını öngörebilir. Bu veri tahminleri, uçuş rezervasyonu şirketinin pazarlama kararlarını daha güvenle vermesine yardımcı olur.
Veri Bilimi Süreci Nedir?
Veri bilimi süreci genellikle bir iş sorunu nedeniyle başlatılır. Bir veri bilimci, işletmenin ihtiyaçlarını anlamak için işletme paydaşlarıyla birlikte çalışır. Sorun tanımlandıktan sonra, veri bilimci bu sorunu OSEMN veri bilimi sürecini kullanarak çözebilir:
Önceden var olan veriler, yeni elde edilen veriler veya internetten indirilen bir veri deposu kullanılabilir. Veri bilimciler dahili veya harici veritabanlarından, şirket CRM yazılımlarından, web sunucusu günlüklerinden veya sosyal medyadan veri ayıklayabilir ya da üçüncü taraf kaynaklardan veri satın alabilir.
Veri ovma veya veri temizleme adıyla karşımıza çıkan bu süreç, verileri önceden belirlenen bir formata göre standart hale getirme sürecidir. Eksik verileri ele alma, veri hatalarını düzeltme ve aykırı verileri kaldırma adımlarını içerir. Bazı veri ovma örnekleri şunlardır:·
Veri keşfi, ileride uygulanacak veri modelleme stratejilerini planlarken kullanılan ön veri analizidir. Veri bilimciler, açıklayıcı istatistiklerden ve veri görselleştirme araçlarından yararlanarak verileri genel hatlarıyla anlamaya başlar. Bundan sonra, üzerinde çalışılabilecek veya eyleme dönüştürülebilecek ilgi çekici düzenleri belirlemek için verileri keşfetmeleri mümkün olur.
Daha derin öngörüler edinmek, sonuçları tahmin etmek ve en iyi eylem tarzını belirlemek için yazılım ve makine öğrenimi algoritmaları kullanılır. Eğitim veri kümesine ilişkilendirme, sınıflandırma ve kümeleme gibi makine öğrenimi teknikleri uygulanır. İsabet oranını değerlendirmek amacıyla, model önceden belirlenen test verileriyle karşılaştırılarak test edilebilir. Sonuçların iyileştirilmesi amacıyla, veri modeli üzerinde üst üste defalarca hassas ayar yapılabilir.
Veri bilimciler, veri öngörülerini eyleme dönüştürmek için analistlerle ve işletmelerle birlikte çalışır. Trendleri ve tahminleri temsil eden diyagramlar, grafikler ve çizelgeler oluşturur. Verilerin özetlenmesi, paydaşların sonuçları etkili bir şekilde anlamasına ve uygulamasına yardımcı olur.
Veri Bilimi Teknikleri Nelerdir?
Veri bilimi uzmanları, veri bilimi sürecini izlemek için bilgi işlem sistemleri oluşturur. Veri bilimciler tarafından kullanılan başlıca teknikler şunlardır:
Sınıflandırma, verilerin belirli grup veya kategorilere tasnif edilmesidir. Bilgisayarlar, verileri belirlemek ve tasnif etmek üzere eğitilir. Bilinen veri kümeleri kullanılarak, bir bilgisayarda verileri hızlı bir şekilde işleyen ve kategorize eden karar algoritmaları oluşturulur. Örneğin:
Veri bilimi uzmanları, veri bilimi sürecini izlemek için bilgi işlem sistemleri oluşturur.
Regresyon, alakasız görünen iki veri noktası arasında bir ilişki bulma yöntemidir. Bağlantı genellikle bir matematik formülü etrafında modellenir ve bir grafik ya da eğriler olarak temsil edilir. Veri noktalarından birinin değeri bilindiğinde, diğer veri noktasını tahmin etmek için regresyon kullanılır. Örneğin:
Kümeleme, düzenleri veya anormallikleri bulmak amacıyla, birbiriyle yakından ilişkili verileri gruplandırma yöntemidir. Kümelemenin tasnif etmeden farkı, verilerin sabit kategorilere isabetli bir şekilde sınıflandırılamamasıdır. Bu nedenle veriler, en olası ilişkileri göz önünde bulundurularak gruplandırılır. Kümeleme sayesinde yeni düzenler ve ilişkiler keşfedilebilir. Örneğin:
Ayrıntılar değişiklik gösterebilmekle birlikte, bu tekniklerin altında yatan ilkeler şunlardır:
Veri Bilimi Projelerini Uygulama Zorlukları
Veri uzmanları verimli çalışamıyor. Veri uzmanları, verilere erişim iznini BT yöneticisinin vermesi gerektiğinden genellikle verileri ve bu verileri analiz etmek için gereken kaynakları uzun süre beklemek zorunda kalıyor. Veri bilimi ekibi eriştikleri verileri farklı ve muhtemelen uyumsuz araçları kullanarak analiz ediyor olabilir. Örneğin, bir uzman R dilini kullanarak model geliştirebilir ancak kullanılacağı uygulama yazılımı farklı dilde yazılmış olabilir. Bu nedenle modelleri kullanışlı uygulama yazılımlarına dağıtmak haftalar, hatta aylar sürebilir.
Uygulama yazılımı geliştiricileri kullanılabilir makine öğrenimine erişemiyor. Bazı durumlarda geliştiricilerin aldığı makine öğrenimi modelleri uygulama yazılımlarında konuşlandırmaya hazır olmayabiliyor. Erişim noktaları sabit olabileceği için modeller tüm senaryolarda konuşlandırılamıyor ve ölçeklenebilirlik uygulama yazılımı geliştiricisine bırakılıyor.
BT yöneticileri desteğe çok fazla zaman harcıyor. Açık kaynak araçların çoğalması nedeniyle BT'nin desteklemesi gereken araçlar listesi gittikçe büyüyebilir. Örneğin, pazarlama bölümündeki bir veri uzmanı, finans bölümündeki bir veri uzmanından farklı araçlar kullanabilir. Ekipler de farklı iş akışlarıyla çalışabilir. Bu da BT ekibinin ortamları sürekli yeniden oluşturmasını ve güncellemesini gerektirir.
İş yöneticileri, veri biliminden fazla kopuk. Veri bilimi iş akışları her zaman iş kararlarını alma süreçlerine ve sistemlerine entegre edilmez ve bu durum, iş yöneticilerinin veri uzmanlarıyla bilgiye dayalı bir iş birliği kurmasını zorlaştırır. Daha iyi entegrasyon olmadan, iş yöneticileri neden prototipten üretime kadarki sürecin uzun sürdüğünü anlamakta güçlük çekiyor ve çok yavaş olarak gördükleri projelere yatırım yapılmasını destekleme olasılıkları daha düşük oluyor.
You need to log in to be able to comment!