Yapay zekâ her yerde. Genellikle pek farkına varmadan da olsa yapay zekâ ile zaten pek çok alanda uzun yıllardır karşılaşıyorduk. Üzerinde oldukça uzun zamandır çalışılan bir teknoloji bu. Ancak geçtiğimiz son birkaç yıl içerisinde gösterdiği ciddi gelişim hızı, insanların ağzını açık bırakacak şeyleri kolaylıkla yapabilir hale gelmesi, günlük hayatı oldukça kolaylaştırabilir olması ve kullanımının kolaylığı ile beraber günümüzde popülerliği hiç olmadığı kadar artmış durumda. Bu bağlamda, yapay zekâ ile bağlantılı bazı terimlerin ne olduğu hakkında fikir sahibi olmak faydalı olacaktır diye düşünüyorum. Bu yazı serisinde, bu terimlerin üzerinden teknik detaylarda boğulmadan, olabildiğince sade bir dille geçiyor olacağız.
Multimodal Yapay Zekâ
Multimodal yapay zekâ, metinlerin yanı sıra aynı zamanda sesler, görüntüler, fotoğraflar ve videolar gibi farklı formatları da anlayabilen bir yapay zekâ türüdür. Böyle bir modelin yapabileceklerine birkaç örnek verelim:
-Metinden resim üretebilir. Tahminimce günümüzde insanlar tarafından en sık kullanılan özelliği bu.
-Bir fotoğrafa baktığında fotoğrafta yer alan öğeleri algılayabilir. Örneğin, “Bu fotoğrafta bir köpek ve iki insan bulunmakta.” gibi bir yorumda bulunabilir.
-Bir videonun içeriğini algılayıp bu içerik hakkında yorumda bulunabilir, özet çıkarabilir. Bazı YouTube videolarında bu özelliğin kullanıldığını görmeye başladık. Videonun altında video içeriği hakkında özet yazıyor.
-Bir ses kaydını inceleyerek konuşmanın tonu, içeriği hakkında yorumda bulunabilir.
Günümüzde kullandığımız gelişmiş yapay zekâ modelleri multimodal olarak çalışıyor. Buna örnek olarak ChatGPT ve Gemini verilebilir.