¿Se imagina qué pasaría si el asistente personal de IA de su smarphone pudiera entender tan bien el mundo como usted? ¿Y qué tal pensar en un escenario en el que comunicarse con ese asistente de IA sea tan natural y fácil como interactuar con otro ser humano? Desarrollar ese tipo de capacidades es exactamente lo que el equipo del Centro de IA de Samsung en Toronto tiene en mente.
Conectar los 500 millones de dispositivos que la compañía vende cada año y hacerlos inteligentes se ha convertido en una de las metas de Samsung a través de su trayectoria de 50 años.
La visión para la visión
El Centro de IA de Toronto fue el segundo centro de IA de Samsung establecido en América del Norte, bajo la dirección del Dr. Sven Dickinson, experto en visión por computadora y ex director del Departamento de Ciencias de la Computación de la Universidad de Toronto.
En el epicentro de la investigación y el desarrollo de la IA, el Centro de IA de Toronto de Samsung se concentra principalmente en desarrollar los recursos de comprensión visual que permiten que un dispositivo Samsung entienda el mundo en el que se encuentra. Además, el equipo trabaja en interacciones multimodales: interacciones usuario-máquina que encapsulan la visión, el lenguaje y el conocimiento.
“Permitir que los dispositivos Samsung ‘vean el mundo’ a través de la visión por computadora les permite ‘establecer visualmente’ su diálogo con el usuario, proporcionando una experiencia integrada y multimodal que es mucho más natural que una basada únicamente en la visión o el diálogo”, comenta el Dr. Dickinson, cuya experiencia y conocimiento técnico incluyen la exploración de problemas relacionados con la percepción de la forma y el reconocimiento de objetos.
Al referirse a los beneficios de la tecnología multimodal, el Dr. Dickinson afirma: “Yo no debería tener que leer los manuales para averiguar qué botones presionar en mi dispositivo y en qué orden. Por el contrario, debería poder mostrarle a mi dispositivo lo que quiero y decirle lo que quiero, en un lenguaje natural que sea comprensible y ubicado en el mundo en el que vivo”.
Al extrapolar sobre la interacción entre la visión por computadora y las entradas multimodales, continúa: “Para lograr esta amplitud de comprensión, el dispositivo debe tener un modelo de mi comprensión del mundo, la capacidad de comunicarse conmigo de manera robusta y natural, y la capacidad de ver y comprender el mismo mundo que yo veo”.
Con respecto a las aplicaciones para esta tecnología, el Dr. Dickinson identifica las más interesantes como “un asistente personal con el que no solo hablemos, sino también vea el mundo de la misma manera que nosotros”. A propósito de la importancia de las interacciones de dispositivos multimodales, el Dr. Dickinson recuerda que al cancelar uno de los modos de comunicación (audio, habla, vista, etc.) se obstaculiza la comunicación entre dos personas, y agrega que eso también se aplica a los dispositivos personales.
Una experiencia de usuario verdaderamente mejorada es esencial
En el Consumer Electronics Show (CES) de 2019, Samsung dio a conocer su visión de Connected Living, que implica conectar los 500 millones de dispositivos que la compañía vende cada año y hacerlos inteligentes. El Dr. Dickinson destaca que el amplio portafolio de productos de Samsung será fundamental para cumplir esta visión y señala que “lo que diferencia a Samsung es que fabrica una multitud de dispositivos para el hogar, incluidos electrodomésticos digitales, televisores y smartphones. De esta forma, Samsung tiene una oportunidad única de aprovechar tales productos para brindar una experiencia de múltiples dispositivos que siga al usuario de un dispositivo a otro y de una habitación a otra. Esto ayudará a aprovechar todo el potencial de cada dispositivo para comunicarse de manera efectiva, ayudar al usuario a ejecutar tareas específicas del dispositivo y aprender los hábitos y preferencias del usuario para que la comunicación posterior no sea intrusiva, sino ‘siempre útil'”.
Al referirse al trabajo de su centro para hacer realidad la visión por computadora y la interacción multimodal, el Dr. Dickinson comenta que “la visión no se trata de comprender imágenes, sino de entender el mundo. Los sistemas de IA verdaderamente capaces deben poseer una comprensión de nuestro mundo, de su física y causalidad, de su geometría y dinámica. También deben poder modelar y comprender el comportamiento humano”. Él extrapola al respecto al señalar que “si nuestros dispositivos pueden ver el mundo 3D en el que vivimos de la misma manera que nosotros, es decir, entender las formas, posiciones e identidades 3D de los objetos en nuestro entorno compartido, nuestros dispositivos podrán experimentar visualmente el mundo como lo hacemos nosotros. Tal contexto visual compartido será crucial en el desarrollo de asistentes personales plenamente materializados”.
El Dr. Dickinson comenta que Samsung lidera el progreso en lo que respecta a una comprensión visual verdaderamente inteligente, e identifica la ‘base visual’ como un requisito previo esencial para los recursos de comprensión visual bien logrados. “Samsung abre camino cuando se trata de desarrollar una interacción humano-dispositivo que imite de cerca la interacción humano-humano”, agrega. “Nuestro objetivo es proporcionar una base visual y un andamiaje de representación del conocimiento para servicios de interacción basados en el diálogo. Sin estos componentes, los usuarios se decepcionan con los servicios y los abandonan rápidamente”.
Interacciones humano-dispositivo basadas en el intercambio de información abierta
El Dr. Dickinson continúa explicando que la IA también debe poder explicarse al usuario. Agrega que, después de no realizar una tarea o proporcionar una respuesta adecuada, “un dispositivo debe poder reflejar al usuario con precisión cómo y por qué se le ocurrió esa respuesta (o la falta de ella). Idealmente, debería poder hacer un seguimiento con el usuario haciendo una pregunta o pidiéndole que ajuste su cámara u otros modos de entrada para que pueda recopilar más información y formular una respuesta adecuada”. El Dr. Dickinson señala que este tipo de apertura e intercambio de información será clave para una mayor sofisticación de las interacciones humano-dispositivo, y comenta que “lo que llamamos el dominio del ´diálogo activo y la visión activa´ es donde el sistema puede construir un modelo mental de lo que el usuario comprende y, a su vez, abrir su propio modelo mental para que el usuario comprenda los procesos de pensamiento del dispositivo”.
Los beneficios de tener la sede en Toronto
Cuando se le preguntó qué impacto tiene el hecho de estar instalados en Toronto, el Dr. Dickinson respondió que el Centro de IA disfruta de muchos beneficios debido a su proximidad con varias instituciones relacionadas con la IA de clase mundial, incluidas la Universidad de Toronto, la Universidad de York y la Universidad de Ryerson. “Estar en Toronto nos ofrece una tremenda ventaja regional”, comenta el Dr. Dickinson. “Estamos al frente de la Universidad de Toronto, alma mater del Departamento de Ciencias de la Computación (DCS), que es uno de los 10 principales departamentos internacionales de computación. Más de la mitad de los miembros de nuestro Centro de IA son profesores activos, graduados o estudiantes actuales del DCS”.
Sobre el tema de la colaboración entre los centros globales de IA de Samsung, el Dr. Dickinson relata que “los siete Centros de IA globales trabajan para crear soluciones líderes del sector en sus respectivas áreas de enfoque y, a la vez, se coordinan para lograr el objetivo común de lograr la visión de la IA de Samsung”. Con respecto a la colaboración del Centro de IA de Toronto con otros centros de IA más distantes, el Dr. Dickinson dice: “estamos empezando a explorar posibles colaboraciones de investigación con otros centros de IA mundiales y esperamos converger en algunos casos de uso de valor para Samsung y su productos y servicios”.