21.09.2022
45
Like
365
Views
Yapay zeka denince neredeyse herkesin aklında robotlar canlanır. Bazen bu robotlar insan şeklinde, genellikle ürperticidir. Bazen ise, örneklerini görmeye başladığımız, hayvan şeklinde, eğlenceli ve daha dost canlısı da olabilir. Hangi senaryo aklınızda canlanırsa canlansın bu robotlarda değişmeyen tek detay, aklımızda bilinçliymiş gibi canlandırmamızdır. Bilinç nedir? Yapay zeka bilinç kazanabilir mi kazanamaz mı tartışmalarına girmeden, sıklıkla robotikte ve oyunlarda kullanılan ve fazlasıyla bilinçliymiş gibi öğrenebilen pekiştirmeli öğrenmeden bahsedelim.
Pekiştirmeli Öğrenme Nedir?
Pekiştirmeli öğrenme, makine öğreniminin bir dalıdır. Ajan dediğimiz yapay zeka modelimiz daha çok oyun benzeri bir durumla karşı karşıyadır. Belirsiz ve potansiyel olarak karmaşık bir ortamda, hedefe ulaşması için doğru yaptığı her eylemde ödül puanı, yanlış yaptığı her eylemde ceza puanı verilir ve ajan daha çok puan toplamak için bu ortamda nasıl davranması gerektiğini öğrenir. Özellikle oyun ve robotik alanlarında popüler olan pekiştirtirmeli öğrenmenin çok tanınan örneklerine bakalım.
AlphaGo
Belki de en popüler ve tarihi öneme sahip diyebileceğimiz örneklerden biri AlphaGo'dur. 2015 yılında Google DeepMind'ın geliştirdiği AlphaGo 129.960 olasılık barındıran, Çin kökenli iki kişilik bir strateji oyunu olan go'yu oynayan bir programdır. Onu bu kadar özel yapan ise profesyonel bir go oyuncusunu yenen ilk bilgisayar programı olmasıdır. Bu zaferden sonra toplulukların dikkatini pekiştirmeli öğrenmeye çekmiştir.
,
Openai-Five
Popüler pekiştirmeli öğrenme kütüphanesi Openai Gym'i de geliştirmiş olan Openai, popüler 5v5 moba oyunu olan Dota 2 oynayabilen Five'ı 2016 yılında geliştirmeye başladı. İlk 2017'de 1v1 olarak karşılaştığı profesyonel dota oyuncusunu yenen Five, 2018 yılında 5v5 olarak bir çok profesyonel takımı yendikten sonra 2019 yılında dünya şampiyonu OG'ye karşı oynayarak, bir espor oyununda dünya şampiyonlarını yenen ilk yapay zeka olma unvanını kazandı. OpenAI Five, profesyonel takımları yenebileceği beceri seviyesine ulaşmak için Dota'yı 45.000 yıl boyunca (birçok bilgisayarda hızlandırılmış ve paralel olarak) sürekli olarak oynadı. Ortalama otuz beş dakikalık bir oyun süresi göz önüne alındığında, bu 675 milyon Dota oyununa denk gelmektedir. Burada konuyla ilgili videoyu izleyebilirsiniz.
Robotik
En çok pekiştirmeli öğrenme örneğini göreceğiniz alanlardan biri şüphesiz robotiktir. Karmaşık ve değişken dünyamızda görevlerini gerçekleştirmesi gereken robotların başarılı olabilmesi için pekiştirmeli öğrenme son yıllarda oldukça geniş bir kullanım yelpazesi bulmuştur. Uzun eğitim süreleri hem simülasyon ortamında, hem de gerçek hayatta paralel sistemlerle gerçekleştirilebilen robotlar çok çeşitli olabilir: robot kollar, tekerlekli veya bacaklı gezgin robotlar...
Otonom Araçlar
Tamam, aslında pekiştirmeli öğrenme otonom araçlar için yaygın bir sistem mi açıkçası bilmiyorum fakat bu konu ile ilgili akademik çalışmaların son yıllarda arttığını size söyleyebilirim. Burada Wayve şirketinin simülasyon ortamı kullanmadan direkt gerçek hayatta eğittiği otonom aracı görebilirsiniz. Bu video açıkçası çok hoşuma gidiyor çünkü aracın nasıl öğrendiği çok net bir şekilde görülebiliyor.
AlphaStar
AlphaGo'nun geliştiricisi DeepMind'dan StarCraft oynayabilen bir ajan: AlphaStar. AlphaStar insanlar tarafından oynanan milyonlarca StarCraft oyunundan oluşan bir veri tabanından öğrendi. Bu gerekliydi çünkü araştırmacılar, rastgele eylemlerle başlamanın, ajanın optimal olmayan bir stratejide sıkışıp kalmasına yol açtığını buldular. StarCraft'ın temel öncülü, oyuncunun kaynakları çıkarmak için işçileri kullanması ve daha sonra binaları inşa etmek için kaynakları kullanmasıdır, bu da askeri birimler üretmek için kaynakları kullanır. Askeri birimler daha sonra rakibin üssüne saldırmak ve ideal olarak yok etmek için kullanılır. DeepMind'ın önyüklemesiz ajanı bu öncülü kavrayamadı. Bunun yerine, işçilerini saldırmak üzere düşman üssüne gönderdi. DeepMind'ın zaferi önemli bir başarıdır çünkü AI araştırmacıları yaklaşık on yıldır StarCraft'ı çözmeye çalışıyorlar. StarCraft, DeepMind'ın daha önce AlphaGo ile çözdüğü Go'dan tartışmasız çok daha zorlayıcıdır. Bir Go oyuncusu, tur başına birkaç yüz olası hamle arasından seçim yapar. DeepMind, StarCraft'ta herhangi bir zamanda 100 septillion olası eylem olduğunu tahmin ediyor. Dahası, Go'dan farklı olarak, StarCraft'ta bir oyuncu, oyun haritası boyunca keşif yapmak için bir birim göndermeden rakibinin hangi eylemleri gerçekleştirdiğini göremez. AlphaStar ile ilgili bir video izlemek için buraya.
You need to log in to be able to comment!