¿Está una Computadora en capacidad de ver e interpretar el Mundo?

Los libros de ciencia ficción y las películas siempre imaginaron que las computadoras algún día serían capaces de ver e interpretar el mundo. En Google, están convencidos que la visión computarizada tiene beneficios potenciales tremendos para los consumidores, por lo cuál le dedican muchos esfuerzos de investigación.

Un equipo de Google ha presentando una investigación sobre reconocimiento de monumentos (Estatua de la Libertad, Torre Eiffel) en la conferencia Computer Vision and Pattern Recognition (CVPR) en Miami, Florida. En el trabajo, presentando una nueva tecnología que permite que las computadoras identifiquen rápidamente imágenes de más de 50,000 monumentos de todo el mundo con una exactitud aproximada del 80%.

Para ser claros de entrada, este es un trabajo de investigación, no un nuevo producto de Google, pero igual creemos que es muy bueno.

A continuación explicarón el alcance y logros de su Investigación:

¿Cómo lograrón el desarrollo de está Tecnología?

Para nuestra demostración, comenzamos con una foto de un monumento sin identificación, ingresamos su dirección Web en el motor de reconocimiento y en un instante la computadora lo identifica y lo nombra: "Monumento reconocido: Acrópolis, Atenas, Grecia."
Gracias computadora. Como lo logramos? No fue fácil. Para comenzar, dónde encontramos una larga lista de miles de monumentos? Y aún teniendo esa lista, de dónde obtienes las fotografías para desarrollar representaciones visuales de las locaciones? Y cómo obtienes esos materiales en un modelo coherente que funcione, sea veloz, y pueda procesar una enorme cantidad de material? Imagina la cantidad de fotos diferentes del puente Golden Gate que has visto - las diferentes perspectivas, condiciones de iluminación y calidad de imagen.

Reconocer un monumento puede ser difícil para un humano, asi que ni que hablar para una computadora.

Nuestras investigaciones se estructuran sobre las vastas cantidades de imagenes existentes en la Web, la capacidad de realizar búsquedas para esas imagenes, y los avances en reconocimiento de objetos y técnicas de agrupamiento. Primero, hemos generado una lista de monumentos apoyándonos en dos fuentes: 40 millones de fotografías con GPS (de Picasa y Panoramio) y páginas Web sobre tours online. Luego, encontramos imagenes para cada monumento utilizando estas fuentes y "e Image Search", que luego limpiamos utilizando técnicas de agrupamiento.

Finalmente, desarrollamos un sistema altamente eficiente de indexación para el rápido reconocimiento de imagenes.

Si bien hemos avanzado mucho para desenterrar la información almacenada en los textos en la Web, todavía hay mucho trabajo por delante para encontrar la información almacenada en los pixels.

Esta investigación demuestra la posibilidad de la visión computarizada eficiente basada en grandes cantidades de datos.

Esperamos que estas enseñanzas sean una buena base para futuras investigaciones en visión computarizada.

Si estás interesado en contar con más información sobre esta investigación, accede al siguiente documento:

Tour the World: building a web-scale landmark recognition engine

Por: Jay Yagnik, Head of Computer Vision Research

Fuente: Google Noticias

Noticias TIC - Internet Para Educar

¿Está una Computadora en capacidad de ver e interpretar el Mundo?