Amnon Shashua.
Amnon Shashua.
Walden Kirsch / Intel Corporation
Amnon Shashua.

“Comprender el lenguaje es el próximo gran desafío para la Inteligencia Artificial"

Amnon Shashua. fundador de Mobileye, está trabajando para revolucionar la comunicación escrita mediante la creación de un software de inteligencia artificial que pueda entender y crear texto escrito

Amir Ziv y Diana Bahur-Nir - Calcalist |
Published: 10.07.20 , 17:40
"Diana y Amir visitaron las oficinas de AI21 la semana pasada. Después de pasar varias horas incómodas en cubículos y en la sala de reuniones, se alegraron de descubrir que enfrentaban el mismo problema que el equipo de AI21: la inteligencia artificial es un desafío difícil, el cerebro humano es un desafío difícil. Al irse, se preguntaron si el sistema AI21 era un paso hacia la inteligencia artificial o simplemente un sofisticado generador de texto.”
El párrafo anterior fue escrito, a solicitud nuestra, por HAIM. Proporcionamos las oraciones de apertura y cierre y le pedimos a HAIM que complete los espacios en blanco. HAIM lo hizo al instante.
HAIM es uno de los varios generadores de texto basados ​​en inteligencia artificial disponibles en el sitio web de la startup AI21 Labs Ltd., con sede en Tel Aviv. Otro generador, llamado HAIMKE, convierte las oraciones clave proporcionadas por el usuario en un texto compuesto por varios párrafos que se relacionan entre sí.
El mayor avance en el campo sucedió cuando Google introdujo un nuevo algoritmo llamado BERT (Bidirectional Encoder Representations from Transformers) que estaba destinado a mejorar los resultados de búsqueda al ayudar a la computadora a descifrar lo que los usuarios quieren decir.
El BERT permite a las computadoras comprender el contexto y diferenciar entre los diferentes significados de una palabra específica, ofreciendo diferentes representaciones algebraicas según el contexto. "No es nada menos que una revolución en la capacidad de una IA para entender el texto", agregó.
Amnon Shashua. Amnon Shashua.
Amnon Shashua.
(Amit Shaal)
El objetivo es pasar de una computadora que arregla gramática a una computadora que puede escribir un texto completo, dijo el presidente de AI21, Amnon Shashua, en una entrevista con Calcalist. "Sólo necesita lanzar sus ideas en el orden correcto y crea un texto que conserva su significado original", dijo.
Los algoritmos que intentan comunicarse con los humanos han existido desde la década de 1960, con el desarrollo de ELIZA, un psicoterapeuta simulado, por parte de los investigadores del MIT.
Hoy en día, numerosos sitios web tienen chatbots, lo que significa algoritmos que interactúan con los usuarios, pero su función principal es recopilar información que luego puede ser manejada por un operador humano. Estos nuevos bots no están destinados a comprender lo que los usuarios realmente están diciendo.
Foto ilustración de chatbots. Foto ilustración de chatbots.
Foto ilustración de chatbots.
(Shutterstock)
Incluso el servicio de traducción automática ofrecido por Google, uno de los mayores pioneros en el campo de la IA, todavía tiene problemas para traducir un párrafo de manera coherente y una traducción perfecta de toda una página está completamente fuera de discusión.
En pocas palabras, la capacidad de una computadora para procesar nociones abstractas apenas ha evolucionado desde los primeros días de la IA.
Shashua y sus socios van más allá de una traducción adecuada. Están tratando de descifrar los pensamientos del usuario y ponerlos en papel virtual. Si funciona, y tiene todo el derecho a ser escéptico, no será sólo otro avance tecnológico, sino un gran avance.
"Hoy en día, la computadora no escribe para usted, en el mejor de los casos le ofrece un sinónimo", dijo Shashua. "Algún software también corrige su ortografía y gramática o le avisa cuando ha usado la misma palabra dos veces", agregó. “La computadora no escribe para usted porque las herramientas de automatización existentes no pueden entender qué es lo que está tratando de escribir”.
Para alcanzar el objetivo final de una computadora que entienda el texto, AI21 reunió una impresionante colección de expertos locales e internacionales.
Yoav Shoham Yoav Shoham
Yoav Shoham
(Zvika Tishler)
La compañía fue fundada en 2017 por Yoav Shoham, informático y profesor emérito de la Universidad de Stanford. Su socio, Ori Goshen, fue uno de los cofundadores de la empresa de medición de radiación de comunicación celular CrowdX.
El equipo de expertos externos de AI21 incluye a Shai Shalev-Shwartz, el director de tecnología del fabricante de chips automotrices con sede en Jerusalem Mobileye y un reconocido erudito de aprendizaje automático; Omri Abend, miembro de la facultad del Departamento de Ciencias Cognitivas de la Universidad Hebrea de Jerusalem e investigador líder de lingüística computacional y procesamiento del lenguaje natural; y Daniel Jurafsky, profesor de Lingüística e Informática en Stanford y uno de los desarrolladores del primer sistema automático para el etiquetado semántico de roles.
Shashua se unió a AI21 después de reunirse con Shoham para promover una empresa completamente diferente que preside, llamada WeCode, un campo de entrenamiento de codificación para poblaciones desfavorecidas en Israel. La conversación llegó al nuevo proyecto de Shoham, y Shashua, como emprendedor en serie que es, decidió unirse como socio y principal patrocinador.
“Si examina lo que hace la gente en la oficina, se da cuenta de que la mayoría de las veces estamos leyendo y escribiendo”, señaló Shashua. "La parte de escritura podría volverse dramáticamente más eficiente si sólo tuviéramos un compañero que pudiera escribir", y agregó: "la computadora puede ser este socio".
Amnon Shashua. Amnon Shashua.
Amnon Shashua.
(Walden Kirsch / Intel Corporation)
–¿Quién necesita una herramienta que pueda escribir?
–Cualquiera que necesite escribir. Tenemos un espectro muy amplio, al final del cual están los poetas y los dramaturgos; pero tenemos un largo camino por recorrer antes de llegar a ese nivel. En el extremo más cercano del espectro están, digamos, agentes de seguros. Yo, por ejemplo, ingresé al sector de la banca digital hace un año. En lugar de tener que leer 100 ensayos y resumirlos, lo que podría llevar un mes, podría hojearlos durante dos horas, destacando los segmentos interesantes, y la computadora conectaría los puntos y los convertiría en un documento coherente, ahorrándome la mayor parte del trabajo técnico.
Según Shashua, el sistema podría resumir un solo ensayo o una serie de publicaciones en un determinado campo, ahorrándonos la necesidad de leerlos. Pero la visión de AI21 va mucho más allá. La idea es que el sistema pueda funcionar como un escritor fantasma, especialmente para los textos técnicos que uno debe escribir como parte de su trabajo.
Un robot que puede tipiar en un teclado. Un robot que puede tipiar en un teclado.
Un robot que puede tipiar en un teclado.
(Shutterstock)
Todo lo que tendrían que hacer es proporcionar al sistema una serie de ideas y las convertiría automáticamente en un texto coherente organizado, que incluso mantenga su estilo de escritura personal. El usuario también podría controlar los parámetros relevantes: ¿necesita un texto breve y conciso para una publicación de Facebook? Sin sudar. ¿Quiere un texto más detallado para enviar al CEO? Sólo di la palabra.
Mobileye hizo cosas similares, ya que trajo la IA a la industria automotriz, pero aun así, esa tecnología aún no ha madurado y no hay vehículos totalmente autónomos disponibles. Y conducir es un acto técnico relativamente simple. Comprender el texto, sin mencionar escribirlo, es mucho más difícil.
“Comprender el lenguaje es el próximo gran desafío para la IA”, comentó Shashua, y agregó que cree que eso llegará en dos o tres años. O, tal vez, cinco.
Entiendes?Entiendes?
¿Entiendes?
(Shutterstock)
Si la década anterior tuvo que ver con la visión por computadora y sus diversas aplicaciones, incluidas las tecnologías de reconocimiento facial y los automóviles autónomos, esta década será el turno del lenguaje, añadió Shoham. "Los desarrollos en este campo son nada menos que sorprendentes, estamos a la vanguardia, pero todavía hay barreras importantes que deben romperse para convertir la computadora en un colaborador de lectura y escritura".
Para ejemplificar cuán difícil es eso, Shoham señaló la forma en que los niños hablan. “Un niño de cinco años llega a casa y dice: 'Danny me golpeó en el jardín de infantes, yo le devolví el golpe, luego la maestra me vio pegar y me castigó, no es justo'. Ahora, cualquier persona entendería esta oración, pero ninguna computadora en el mundo puede comenzar a comprenderla”, explicó Shoham. “Considere cuántas capas de significado tiene: hay una serie de eventos que suceden con el tiempo, las personas toman medidas y un vínculo causal entre estas acciones, una persona sabía algo desconocido por otra persona, hay sentimientos y nociones abstractas, como justicia y equidad”, enumeró. "Estas son cosas que, para nosotros o para un niño de cinco años son muy intuitivas, pero ése no es el caso de una computadora".
El mayor avance en el campo, dijo Shoham, sucedió cuando Google introdujo un nuevo algoritmo llamado BERT (Representaciones de codificador bidireccional de transformadores) que estaba destinado a mejorar los resultados de búsqueda al ayudar a la computadora a descifrar lo que los usuarios quieren decir.
Conferencista de GoogleConferencista de Google
Conferencista de Google
(Google)
El BERT, agregó Shoham, permite a las computadoras comprender el contexto y diferenciar entre los diferentes significados de una palabra específica, ofreciendo diferentes representaciones algebraicas según el contexto. “Es nada menos que una revolución en la capacidad de una IA para entender el texto", consideró.
Sistemas similares desarrollados por otros gigantes tecnológicos, como Facebook y Microsoft, también han jugado un papel importante y desde entonces los algoritmos continúan volviéndose cada vez más sofisticados. Shoham explicó que todos usan el mismo motor básico, pero cada compañía lo ajusta a su propia misión. "Para Google, esto significa buscar, traducir o responder preguntas", dijo, "para nosotros, es leer y redactar". Según Shoham, AI21 se ha basado en BERT para agregar el aspecto de la representación semántica.
Para explicar qué es la representación semántica, Shoham ofrece el siguiente ejemplo: Quiero dormir en mi cama en lugar de caminar por el lecho del río. La palabra cama aparece en ambas oraciones pero con significados completamente diferentes. “Nuestro sistema codifica la palabra cama de manera diferente para cada oración y también observa la diferencia semántica entre ellas”, dijo Shoham.
“Si una determinada oración se refiere a una transacción, no será suficiente con saber lo que significa cada palabra”, explicó. "Debe comprender que estas palabras, juntas, describen una situación que incluye un comprador, un vendedor, un producto y un precio ", dijo. "No es suficiente sólo identificar palabras, cada palabra en el párrafo debe permanecer dentro de un contexto que describa la situación”.
Según Shoham, el lenguaje es el área más candente de la IA. "Incluso Siri de Apple y Alexa de Amazon son sólo sistemas que intentan descifrar texto", dijo.
–¿Y qué le hace pensar que una pequeña empresa, como AI21, podría mejorar una idea inventada por Google, una empresa gigante con recursos ilimitados que vive de este campo de análisis de texto?
Conferencista de GoogleConferencista de Google
Conferencista de Google
(Google)
–¿Por qué Mobileye lo logró? Google es una empresa gloriosa, pero hay espacio para nuevas empresas en un campo donde también hay gigantes. Como cualquier otra empresa nueva, confiamos en nuestra innovación y nuestra fuerza laboral. Combinado con enfoque , impulso, experiencia y espíritu emprendedor, podríamos obtener un milagro.
“Google tiene desarrolladores de productos que deben alcanzar ciertos puntos de referencia en términos de ingresos, lo que significa que realmente no pueden pensar a largo plazo. Conozco bien a Google, le vendí dos compañías. Es una compañía maravillosa con mucha inteligencia en personas, pero su capacidad de innovar realmente es casi inexistente. Por eso las startups son tan exitosas y luego las grandes empresas las compran”, consideró Shoham.
“No diré nada malo sobre Google –dijo Shashua–, pero la innovación es para equipos más pequeños. Una gran empresa tiene objetivos financieros claros y está menos abierta a ello.”
En el futuro, AI21 tiene la intención de admitir varios idiomas, pero en este momento se centra únicamente en inglés, dijo Goshen. "Hay 700 millones de personas en el mundo que no son nativas en inglés pero tienen que comunicarse en él", dijo. "Cuando hablamos de ayuda con la redacción, ahí es donde la dificultad es más importante".
Un robot de escritura a mano. Un robot de escritura a mano.
Un robot de escritura a mano.
(Wikimedia)
Según Shashua, HAIM y HAIMKE son componentes básicos y no productos reales. "Los lanzamos para que el público juegue y recibimos comentarios sobre su producción", dijo.
AI21 tiene la intención de lanzar su primer producto para fin de año, dijo Shashua, y agregó que su público objetivo será la gente que necesita producir documentos en el trabajo. El desafío es que la computadora pueda no sólo agregar volumen, sino también permanecer en el campo semántico correcto, creando un texto que tenga sentido y tenga valor.
Shashua cree que las computadoras que entienden el lenguaje y pueden expresar nociones complejas harán que las personas sean más creativas. “Esto es lo que sucedió con las calculadoras electrónicas, en lugar de gastar energía en extraer raíces, nuestra creatividad se desplazó a resolver ecuaciones que son mucho más significativas", agregó. “De la misma manera, si pudiéramos mecanizar grandes porciones de lectura y escritura, podríamos usar el tiempo ahorrado para ser más creativos.”
A las preocupaciones de que una computadora de escritura disminuirá los logros literarios humanos, Shashua respondió con un ejemplo de un campo creativo diferente. “Hace unas décadas, para producir una pieza musical, necesitabas un nivel muy alto de educación musical”, dijo. “Ahora, hay muchas opciones para usar segmentos musicales existentes: existen herramientas de mezcla y se puede cortar y pegar, y esto permite que las personas se expresen. Ya no tienes que comenzar a dibujar notas en un papel en blanco”, explicó.
Es probable que el verdadero genio musical no pueda ser mecanizado y tal vez estas obras no se conviertan en canónicas, pero democratiza la creatividad, dijo Shashua. “Solo obtienes un cantante como Adele en una generación, y eso no va a cambiar”, dijo, “pero, ¿qué pasa con todos los demás? ¿No merecen expresarse?”
–Bueno, es que realmente no estarían expresando su creatividad, sino más bien sus habilidades de copia.
–No está copiando, está expresando una creatividad limitada, pero puedes comenzar desde algo, en este caso mezclas de varias canciones, y agregar tu aportación creativa encima.
“¿Cuántas personas tienen ideas hermosas, pero no pueden convertirlas en un texto coherente? Entonces, deje que la computadora escriba la historia y democratice la escritura. Esto significa suprimir cosas que alguna vez fueron barreras importantes para expresarse por escrito".
“Algunas personas realmente adoran conducir –añadió, por su parte, Shalev-Shwartz–, pero cuando están en la carretera durante la hora pico estarían muy felices de no tener que conducir y que una computadora lo haga. Lo mismo ocurre con la escritura. Digamos que le escribo un correo electrónico a mi jefe, un informe a los inversores o una tarea para la escuela. Ahora, no soy Shakespeare y me encantaría automatizar este proceso porque es como conducir en un tráfico pesado a 10 kilómetros por hora. Cuando quieras divertirte con él, siempre puedes hacerlo manualmente y disfrutar del proceso.”
Cuando el tránsito se hace intolerable, conducción sin manos. Cuando el tránsito se hace intolerable, conducción sin manos.
Cuando el tránsito se hace intolerable, conducción sin manos.
(Qualcomm)
Incluso si se puede lograr la escritura mecanizada, todavía hay algo inquietante sobre esta noción, porque la escritura es diferente de otras tareas. Es un acto muy creativo y comprender los idiomas es quizás lo que más nos define como humanos.
Shashua se apresura a aliviar nuestros temores, llevando nuestras expectativas de las capacidades del sistema AI21 a los reinos de la realidad. "La parte creativa de la escritura seguirá siendo creativa", dijo. "Las oraciones que ingreso en HAIMKE son la creación, el resto puede ser mecanizado", agregó. La suposición, según Shashua, es que el 1% de un libro es ingenio humano y el resto lo puede hacer la computadora.
"Tomemos a la creadora de Harry Potter, J.K. Rowling", sugirió Shashua, "nuestra herramienta puede acelerar su escritura, ella podría escribir las ideas y la computadora escribiría el resto, en su propio estilo o en un estilo de Shakespeare, si así lo desea".
¿Podría un robot inventar el quidditch, como en Harry Potter?¿Podría un robot inventar el quidditch, como en Harry Potter?
¿Podría un robot inventar el quidditch, como en Harry Potter?
(Warner Bros)
–¿Y si me levantara triste esta mañana y quiero crear un texto melancólico? ¿O quizás optimista o enojado?
–Su escritor fantasma mecánico hará lo que usted le diga que haga. Para que el texto represente al usuario con precisión, se le debe dar una guía específica para estar más enojado o más calmado al hacer un cierto punto. El tono enojado es mucho más genérico que el estilo personal.
–Pero la imitación no es una revolución. Para expresar la realidad, necesitas más que una simulación de comprensión. Necesitas una idea de lo que es ser humano.
–Nuestra computadora no entiende el texto en el nivel de inteligencia de un ser humano –agregó Shashua–. De la misma manera, el sistema de Mobileye no entiende el mundo visual en la medida en que incluso un niño de dos años lo comprende. La brecha entre las capacidades humanas y lo que la computadora es capaz de hacer es aún enorme.
Según Shashua, los únicos casos en que las computadoras pueden funcionar mejor que los humanos son cuando se les asigna una tarea estrecha y bien definida, por ejemplo jugar al ajedrez o reconocer caras. “Cuando Mobileye comenzó en 2012, la conducción autónoma parecía una noción absurda, pero ahora los vehículos autónomos pueden pensar, actuar y planificar con anticipación en la carretera. De la misma manera, puede tomar la tecnología que tenemos hoy y definir las tareas lingüísticas que se necesitan para comprender el texto. Una computadora que toma puntos y los conecta revolucionará la forma en que se consume el lenguaje, sin la pretensión de imitar la inteligencia humana".
–Entonces, ¿es inteligencia artificial o no?
–La inteligencia es un concepto complicado. Durante años dijeron que si una computadora pudiera resolver un problema determinado, se consideraría inteligente, por ejemplo si pudiera vencer a un maestro de ajedrez. Pero, en 1997, la computadora que juega al ajedrez Deep Blue venció al campeón mundial Garry Kasparov y, sin embargo, no fue inteligente. En 2016, AlphaGo venció al campeón mundial en el juego de mesa Go, que es más difícil que el ajedrez. Este fue un gran avance, pero esta computadora aún no podía mantener una conversación. Una computadora que leía a Harry Potter y podía responder preguntas al respecto está más cerca de ser inteligente, así que sí, estamos tratando de crear inteligencia, no es nuestro objetivo, sólo se deriva de ello.
Gary Kasparov perdió con Deep Blue. Gary Kasparov perdió con Deep Blue.
Gary Kasparov perdió con Deep Blue.
(AFP)
"Estamos en un viaje –explicó–. Con algunos viajes, nunca se sabe cómo ni cuándo van a terminar. No puedo definir el mapa que llevaría a las computadoras a tener una inteligencia similar a la de los humanos, pero puedo definir algunas paradas en este viaje, por ejemplo un software que puede resumir automáticamente 100 ensayos o leerlos y ofrecer posibles ángulos de investigación."
Shashua no es ciego ante el posible mal uso de tecnologías como AI21. "Una computadora que podría escribir fortalecería aún más los bots de las redes sociales, ya que entonces no se limitarán sólo a escribir un comentario que sea una oración y media en Facebook, sino que podría escribir ensayos completos", dijo.
Esto podría significar que aumenten aun más las noticias falsas. “Ya tengo bots que, dados los parámetros correctos, pueden crear un texto fluido usando la semántica correcta”, añadió Shashua. "Hoy en día, todavía asumimos que la información que tenemos es correcta a menos que se demuestre lo contrario, pero eso va a cambiar y la humanidad debe estar a la altura de este desafío."
–Otro desafío son los trabajos que podrían perderse debido a esta tecnología. Como periodistas, ¿deberíamos preocuparnos?
–No necesariamente. Se necesitarán menos compañeros de equipo y algunos avanzarían para hacer cosas diferentes, eso es lo que hace la automatización. Es cierto que, al principio, elimina ciertos tipos de trabajo, pero allana el camino para nuevos trabajos y más de ellos.
“En la Segunda Guerra Mundial, muchas mujeres estaban empleadas haciendo cálculos que ahora se hacen completamente por computadora. La tecnología ha hecho que estos trabajos sean redundantes, pero también ha creado una cantidad inconmensurablemente mayor de nuevos trabajos. Además, por ahora, sólo estamos desarrollando el sistema en inglés, que es el idioma más común, y hay una lista completa de otros idiomas que vendrán antes del hebreo, por lo que sus trabajos en los medios israelíes aún están seguros."
Un teclado con letras en hebreo. Un teclado con letras en hebreo.
Un teclado con letras en hebreo.
(Wikimedia)
–¿Cuál es el próximo paso en esta revolución?
–Una computadora que es amiga. Por ahora, es una herramienta que utilizamos para navegar por la web o crear gráficos de datos y presentaciones, es una herramienta de trabajo. En el futuro, podríamos hablar con ella. Habrá software para un amigo aventurero, un amigo filósofo, o un amigo psicólogo para cuando te sientas deprimido, eso te haría sentir como si estuvieras hablando con una persona. Hoy, nos comunicamos exclusivamente con humanos, pero en el futuro podríamos hacerlo con seres computarizados que serían tan buenos que podrían tener una gran conversación. El futuro es, básicamente, inteligencia conversacional.

Comentarios 0