İnternette görsel arama için yeni teknolojiler

Makineler görsel veritabanından bir şeyler öğrenebilir. İşte internette görsel aramak için yaratılan yeni teknolojiler.

İnternette her şeyi bulabileceğinizi düşünebilirsiniz. Ancak arama motorları bir görseli, sadece arayıcının girdiği metin, görselin etiketlendiği metinle eşleştiğinde bulabiliyor. Etiketlerse güvenilmez ve işe yaramaz olabiliyor. Araştırmacıların bu sınırlamaları ortadan k aldırmak i çin y eni nesil görsel arama teknolojileri geliştirmeleri gerekiyor. Yoksa, Cali fornia'da ki Sta nford Üniversitesi'nden bilgisayar mühendisi Fei-Fei Li'nin kısa süre önce belirttiği gibi, internet "karanlığa mahkum olacak." 36 yaşındaki Li, Princeton Üniversitesi'nden bilgisayar mühendisleriyle insanoğlunun görme sistemini temel alarak dünyanın en büyük görsel veritabanını yarattı. Obsidyan'dan (cam kaya) orangutan ve oselotlara (Amerika'ya özgü vahşi kedi) 14 milyondan fazla etiketli objeyle veritabanı, görsel bilişim uzmanları için önemli bir kaynak. Etiketler insanlar tarafından yaratıldı. Ancak makineler artık etiketi olmayan benzer objeleri tanımak için geniş veritabanından bir şeyler öğrenerek tanıma doğruluğunu öneml i ölçüde artırıyor. Bu yaz Google'da görevli iki bilgisayar mühendisi Andrew Y. Ng ve Jeff Dean, ImageNet olarak bilinen yeni sistemi, etiketli fotoğraflardan oluşan geniş bir koleksiyon üzerinde test etti. Sis tem, "sinirağı" algoritmalarından (insan beyninin fonksiyonlarını taklit etmeye çalışan yazılım modelleri) neredeyse iki kat daha iyi çalıştı. 2009'dan bu yana 300'den fazla bilimsel yayında ImageNet'ten yararlanıldı ya da bahsedildi. Bilim insanları halen insanların objeleri tanımayı öğrendiği biyolojik mekanizmaları anlamaya çalışıyor. Li, "Uzun zamandır dünyayı insanlar gibi algılayan bir görsel sistem yaratmayı hayal ediyordum" diyor. Princeton'daki meslektaşı bilgisayar mühendisi Fei Fei Li, 2007'de sistemi kurmaya başladığında, tek alternatifin sadece birkaç çeşit objeyi tanıyabilen veritabanları olduğunu söylüyor. "İnternet çağında görsel veriler açısından ani bir patlamayla karşı karşıya kaldık. Facebook'ta 200 milyon görsel var ve YouTube'a dakikada 72 saatlik yeni video yükleniyor" diyor. Li bir görevin bir öğrenci tarafından tamamlanmasının onlarca yıl sürebileceğini ancak binlerce kişinin küçük görevler yapmasını sağlayan Amazon.com'un Mechanical Turk isimli sisteminin, veritabanını oluşturmak için mükemmel bir yol olduğunu söylüyor. ImageNet her yıl görselleri etiketlemesi için 30 bin kadar kişiyi çalıştırıyor ve onlara her bir etiketleme için küçük bir ödeme yapıyor. "Turker" adı verilen Mechanical Turk çalışanları, beş dakika içinde yaklaşık 250 görseli tanımlıyor. ImageNet veritabanında şu anda 14 milyon 197 b in 1 22 adet görsel bulunuyor. Google'dan araştırma mühendisi Samy Bengio, ImageNet'in araştırmacıların "başka türlü asla üretemeyecekleri algoritmaları gel iştirmelerini sağladığını" söylüyor. Ancak ImageNet'in kusursuz olmadığını da ekliyor. Li, geniş görsel koleksiyonunu organize etmek için Temmuz'da 92 yaşında hayatını kaybeden Princetonlı Psikolog George A. Miller tarafından tasarlanan İngi l izce kel ime veritabanı WordNet'i kullanıyor. Bengio, kategorilerin fazla "elit" olduğunu söylüyor. "ImageNet'te seçilen kategorilerin, nüfusun ilgi alanlarını daha fazla yansıtmasını isterdim. Çoğu kişi, ender görülen bir dinozor türüne kıyasla Lady Gaga veya iPod Mini'yle daha çok ilgileniyor" diyor. THE NEW YORK TIMES