Google’dan fotoğrafları metne çeviren teknoloji

Google’dan fotoğrafları metne çeviren teknoloji

İnsanlar karmaşık bir sahneyi ikinci kez düşünmeye bile ihtiyaç duymadan birkaç kelime ile özetleyebilirler. Bilgisayarlar için ise bu çok daha zor. Fakat artık buna oldukça yakınız. Google araştırmacılarının geliştirdiği öğrenebilen yazılım ile bir bilgisayar ilk kez karşılaşmış olsa bile bir resimdeki nesneleri (uzaktaki bir ağaç gibi) tanıyıp resmin bütününü yorumlayabiliyor. Bu sistem, görme problemi yaşayan insanların resimleri daha iyi anlamasına yardımcı olabilir veya herkes için Google görseller kullanımının daha basit ve etkin olmasını sağlayabilir.

Bundan önceki araştırmalar obje tanımayı, sınıflandırmayı ve etiketlemeyi çok güzel bir şekilde geliştirdi ancak yazılımların hala sahnede neler olup bittiğinin farkında olmak, nesnelerin birbirleriyle olan ilişkilerini tanımlamak gibi yetileri olmadığından kompleks bir sahneyi doğal algılanacak, kulağa garip gelmeyecek bir cümleye çevirmede büyük sıkıntılar vardı.

Fikir aslında Google translate gibi makine çevirisi sistemlerinin yeniden yorumlanmasıyla ortaya çıkmış. Makine çevirisinde örneğin Fransızca bir cümle tekrarlayan nöral ağ (Recurrent Neural Network – RNN) ile vektör biçimine çevriliyor ve bu vektör biçiminin karşılığı örneğin Almanca dilindeki o vektörle eşleşen kelimelerin seçilmesini sağlıyor. Böylece çeviri gerçekleşiyor.  Görüntüyü yazıya çevirme işleminde ise ilk vektörler RNN yerine resmi algılayan Convolutional Neural Network (CNN) tarafından oluşturuluyor ve yine aynı vektörler istenilen dildeki kelimelerin seçilmesini sağlıyor.

google-fotograf-donusturme

Normalde CNN resimdeki objeleri tek tek karşılaştıran ve en olası sonucu bize veren bir sistem ancak RNN’yi besleyecek şekilde kurgulandığında ve bu sayede resimdeki objelerin tanımlanmasına yönlendirildiğinde karşımıza resimdeki kalıpları tanımlamayı öğrenebilen bir yazılım çıkmış oluyor. Yazılım öncelikle daha önce insanlar tarafından cümlelerle ifade edilmiş resimler kullanılarak eğitiliyor. Daha sonra da sistemden daha önce hiç görmediği resimleri tanımlaması isteniyor.

Tanımlamalar her zaman %100 doğruluk oranına sahip olmuyor elbette. Fakat sistem daha fazla resimle karşılaştıkça hata oranını da azaltacak gibi duruyor. İşte birkaç örnek;

google-fotograf-donusturme2

Sonuç olarak da yapılan sistem resmi tanımlamada ve içerisindeki objelerin ilişkilerini açıklamada daha önceki teknolojilere göre iki kat daha duyarlı ve doğru hale gelmiş oluyor.

Makinelerin de bir resme bakıp onları insandan farkı olmayacak şekilde bize anlatabildikleri veya bizim onlara anlattığımız bir resmi bulabildikleri günler çok uzak gibi durmuyor. Bu teknolojinin hayatımıza yerleşeceği günleri sabırsızlıkla bekliyoruz.

Kaynak: Google Research Blog

1 yorum

Yorum yap

+ Leave a Comment