Veri Bilimi ve NLP(Doğal Dil İşleme)

22.10.2024

Beğenme

100

Görüntülenme

Veri Bilimi ve NLP(Doğal Dil İşleme)

Doğal Dil İşleme (Natural Language Processing - NLP), insan dilini anlamak, analiz etmek ve yorumlamak için bilgisayarların kullanıldığı bir yapay zeka alt dalıdır. NLP, dilbilimsel kuralları kullanarak metin ve konuşma verilerini işler ve insan dilini makine tarafından anlaşılabilir bir forma dönüştürür.
Makine öğrenmesi ise belirli görevler için açıkça programlanmadan öğrenen sistemler oluşturmayı amaçlar. NLP alanında makine öğrenmesi, dilin çeşitli özelliklerini modellemek için kullanılır. Geleneksel makine öğrenmesi teknikleri, özellik mühendisliği adı verilen bir süreçle dilin özelliklerini (örneğin, sözcük frekansı, kelime torbası modeli) çıkarır ve bunları sınıflandırıcılar veya regresyon modelleri gibi algoritmalara besler. Doğal dil işlemede sınıflandırma, eşleştirme, çeviri, yapılandırılmış tahmin ve sıralı karar süreci olmak üzere beş ana görev vardır. Görevlerde, kelimeler, ifadeler, cümleler, paragraflar ve hatta belgeler genellikle bir dizi belirteç (dizge) olarak görülür ve benzer şekilde ele alınır, farklı karmaşıklıklara sahip olmalarına rağmen. Cümleler en yaygın kullanılan işlem birimleridir.
Doğal dil işlemenin (NLP) nihai hedefi, doğal dilleri insanlar kadar etkili bir şekilde kullanabilme yeteneğidir. Bilgisayarlar bilginin hazırlanmasında, edinilmesinde, iletilmesinde, izlenmesinde, depolanmasında, analiz edilmesinde ve dönüştürülmesinde daha büyük bir rol oynadıkça, onlara doğal dillerde ifade edilen bilgileri anlama ve üretme yeteneği kazandırma ihtiyacı da artıyor.
Doğal dil işlemede 3 temel teknik şunlardır: Word Embeddings, RNN ve CNN.

Word Embeddings (Kelime gömmeler), vektör temsillerinin kelimeler arasındaki yararlı semantik özellikleri ve dilsel ilişkileri yakalayabilmesi nedeniyle Doğal Dil İşleme (NLP) uygulamalarında yaygın olarak kullanılmaktadır. Doğal Dil İşlemede (NLP) kelime yerleştirmelerini eğitmek için farklı metin kaynakları (örneğin, Wikipedia ve biyomedikal literatür külliyatı) kullanılmış ve bu kelime yerleştirmelerden yaygın olarak downstream makine öğrenimi modellerine özellik girişi olarak yararlanılmıştır.
Tekrarlayan sinir ağı (RNN), birimler arasındaki bağlantıların yönlendirilmiş bir döngü oluşturduğu bir tür yapay sinir ağıdır. Bu, ağın dinamik davranış sergilemesine olanak tanıyan bir iç durumu yaratır. İleri beslemeli sinir ağlarının aksine, RNN'ler isteğe bağlı girdi dizilerini işlemek ve üzerinde çalışmak için dahili hafızalarını kullanabilirler. Bu, onları bölümlere ayrılmamış bağlantılı el yazısı tanıma, konuşma tanıma, doğal dil işleme, makine çevirisi vb. gibi görevlere uygulanabilir hale getirir.
Konvolüsyonel sinir ağları (CNN), genellikle görüntü işlemede kullanılsa da, metin sınıflandırma ve cümle düzeyindeki NLP görevlerinde de etkilidir. Özellikle, n-gram benzeri özellikleri yakalayarak metinleri anlamlandırmada kullanılırlar.

Veri Bilimine Giriş

Veri Bilimi 101

Veri Bilimi Projeleri

Yorumlar

Kullanıcı yorumlarını görüntüleyebilmek için kayıt olmalısınız!

Ebru Küçük

Merhaba ben Ebru Küçük, yeni mezun olmuş bir Bilgisayar Mühendisiyim. Lisans bitirme projemde front-end için Flutter, backend için Python ve Flask kullanarak Chatbot geliştirdim.

Konum

İstanbul, TR

Eğitim

- - Pazar Fen Lisesi

Bilgisayar Mühendisliği - Bandırma Onyedi Eylül Üniversitesi