A pesar de todas las mejoras recientes en inteligencia artificial, la tecnología aún no puede tomar el lugar de los seres humanos en situaciones en las que debe enmarcar sus percepciones del mundo en palabras que las personas puedan entender.
Es posible que haya pensado que los muchos avances aparentes en el reconocimiento de voz ya habrían resuelto el problema. Después de todo, Siri de Apple, Cortana de Microsoft, Alexa de Amazon y Google Home son muy impresionantes, pero estos sistemas funcionan únicamente con la entrada de voz: no pueden entender ni reaccionar ante el entorno que los rodea.
Para cerrar esta brecha de comunicaciones, nuestro equipo de Mitsubishi Electric Research Laboratories ha desarrollado y construido un sistema de inteligencia artificial que hace precisamente eso. Llamamos al sistema interacción consciente de la escena y planeamos incluirlo en los automóviles.
Mientras conducimos por una calle en el centro de Los Ángeles, la voz sintetizada de nuestro sistema proporciona instrucciones de navegación. Pero no brinda las instrucciones, a veces difíciles de seguir, que obtendría de un sistema de navegación común. Nuestro sistema comprende su entorno y proporciona instrucciones de manejo intuitivas, de la misma manera que lo haría un pasajero sentado en el asiento a su lado. Podría decir: «Sigue el auto negro para girar a la derecha» o «Gira a la izquierda en el edificio con una valla publicitaria». El sistema también emitirá advertencias, por ejemplo: “Cuidado con el autobús que se aproxima en el carril contrario”.
Para respaldar la mejora de la seguridad automotriz y la conducción autónoma, los vehículos están siendo equipados con más sensores que nunca. Las cámaras, el radar de ondas milimétricas y los sensores ultrasónicos se utilizan para el control de crucero automático, el frenado de emergencia, el mantenimiento del carril y la asistencia de estacionamiento. Las cámaras dentro del vehículo también se utilizan para monitorear la salud de los conductores. Pero más allá de los pitidos que alertan al conductor de la presencia de un coche en su ángulo muerto o de las vibraciones del volante que avisan de que el coche se está saliendo de su carril, ninguno de estos sensores hace mucho por alterar la interacción del conductor con el vehículo. .
Las alertas de voz ofrecen una forma mucho más flexible para que le ayude al conductor. Algunos estudios recientes han demostrado que los mensajes hablados son la mejor manera de transmitir de qué se trata la alerta y son la opción preferible en situaciones de conducción de baja urgencia. Y, de hecho, la industria automotriz está comenzando a adoptar tecnología que funciona como un asistente virtual. De hecho, algunos fabricantes de automóviles han anunciado planes para introducir agentes conversacionales que ayuden a los conductores a operar sus vehículos y los ayuden a organizar su vida diaria.
La idea de construir un sistema de navegación intuitivo basado en una serie de sensores automotrices surgió en 2012 durante conversaciones con nuestros colegas de la división de negocios automotrices de Mitsubishi Electric en Sanda, Japón. Notamos que cuando está sentado al lado del conductor, no dice: «Gire a la derecha en 20 metros». En su lugar, dirá: «Gira en ese Starbucks en la esquina». También puede advertir al conductor de un carril que está obstruido más adelante o de una bicicleta que está a punto de cruzarse en el camino del automóvil. Y si el conductor malinterpreta lo que dices, continuarás aclarando lo que quisiste decir. Si bien este enfoque para dar instrucciones u orientación es algo natural para las personas, está mucho más allá de las capacidades de los sistemas de navegación para automóviles actuales.
Aunque teníamos muchas ganas de construir una ayuda de navegación para vehículos tan avanzada, muchas de las tecnologías de los componentes, incluidos los aspectos de visión y lenguaje, no estaban lo suficientemente maduras. Así que dejamos la idea en suspenso, esperando revisarla cuando llegara el momento. Habíamos estado investigando muchas de las tecnologías que serían necesarias, incluida la detección y el seguimiento de objetos, la estimación de profundidad, el etiquetado semántico de escenas, la localización basada en la visión y el procesamiento del habla. Y estas tecnologías avanzaban rápidamente, gracias a la revolución del aprendizaje profundo.
Pronto, desarrollamos un sistema que era capaz de ver un video y responder preguntas al respecto. Para comenzar, escribimos un código que podía analizar las funciones de audio y video de algo publicado en YouTube y producir subtítulos automáticos para ello. Una de las ideas clave de este trabajo fue la apreciación de que en algunas partes de un video, el audio puede brindar más información que las características visuales y viceversa en otras partes. Sobre la base de esta investigación, los miembros de nuestro laboratorio organizaron el primer desafío público sobre el diálogo consciente de la escena en 2018, con el objetivo de construir y evaluar sistemas que puedan responder con precisión preguntas sobre una escena de video.
Estábamos particularmente interesados en poder determinar si un vehículo adelante estaba siguiendo la ruta deseada, de modo que nuestro sistema pudiera decirle al conductor: «Siga ese automóvil».
Entonces decidimos que finalmente era hora de revisar el concepto de navegación basada en sensores. Al principio pensamos que las tecnologías de los componentes estaban a la altura, pero pronto nos dimos cuenta de que la capacidad de la IA para razonar detalladamente sobre una escena aún no era lo suficientemente buena para crear un diálogo significativo.
Para que una IA fuerte pueda razonar en general todavía está muy lejos, pero ahora es posible un nivel moderado de razonamiento, siempre que se limite al contexto de una aplicación específica.
Los automóviles pronto estarán equipados con sistemas de advertencia basados en el idioma que alertarán a los conductores sobre peatones y ciclistas, así como sobre obstáculos inanimados en la carretera. Dentro de tres a cinco años, esta capacidad avanzará a la guía de ruta basada en puntos de referencia y, en última instancia, a asistentes virtuales conscientes de la escena que involucran a los conductores y pasajeros en conversaciones sobre lugares y eventos circundantes. Dichos diálogos pueden hacer referencia a las reseñas de Yelp de restaurantes cercanos o involucrarse en la narración de historias al estilo de un diario de viaje, por ejemplo, cuando se conduce a través de regiones interesantes o históricas.
Los conductores de camiones también pueden obtener ayuda para navegar por un centro de distribución desconocido u obtener asistencia para enganchar. Aplicados en otros dominios, los robots móviles podrían ayudar a los viajeros cansados con su equipaje y guiarlos a sus habitaciones, o limpiar un derrame en el pasillo 9, y los operadores humanos podrían brindar orientación de alto nivel a los drones de entrega cuando se acercan a un lugar de entrega. .
Esta tecnología también va más allá del problema de la movilidad. Los asistentes médicos virtuales pueden detectar la posible aparición de un derrame cerebral o una frecuencia cardíaca elevada, comunicarse con un usuario para confirmar si realmente hay un problema, transmitir un mensaje a los médicos para buscar orientación y, si la emergencia es real, alertar a los primeros en responder. Los electrodomésticos pueden anticipar la intención de un usuario, por ejemplo, apagando el aire acondicionado cuando el usuario sale de casa. Tales capacidades constituirían una conveniencia para la persona típica, pero cambiarían las reglas del juego para las personas con discapacidades.
El procesamiento de voz natural para comunicaciones de máquina a humano ha recorrido un largo camino. Lograr el tipo de interacciones fluidas entre robots y humanos como se muestra en la televisión o en las películas aún puede estar algo lejos. Pero ahora, al menos es visible en el horizonte.