lunes, 17 de junio de 2013

Velocidad para identificar un contexto en multiples idiomas


Por cortesía de SOlutecia S.A;


Actualmente el Motor de Inteligencia Artificial de Solutecia (MIA) puede interactuar en 33 idiomas con las personas. Ya sea realizando tareas de traducción o simplemente dialogando.
Comparativamente MIA no es un motor de estados, de lenguaje, gramatical o sintáctico, debido a que eso solo funciona en algunos idiomas y de manera muy limitada.  Especialmente porque las conjugaciones gramaticales pueden llegar a ser tan mecánicas que pierden ese "tono" especial que le da a la conversación los modismos, la jerga, las inflexiones regionales y el rítmo personal que cada uno le pone al diálogo.
...
La estructura de procesamiento de lenguaje natural de MIA, es basicamente un procesador de unión de ideas.

Una idea, es simplemente un objeto que posee atributos particulares y que está asociado a otras ideas por algún atributo en especial. Es casi como si habláramos de moléculas que se unen a otras moléculas por un elemento en común.
Al manejar ideas, entonces, el idioma es irrelevante. Pero para poderlas transmitir es necesario que las ideas tengan un símbolo que sea reconocible por otros: una palabra, un sonido, una imagen, un movimiento, un objeto, etc.  Inicialmente, el proyecto se concibió solamente para que las ideas fueran representadas en palabras o conjuntos de palabras, y con el pasar del tiempo se ha ido especializando, hasta manejar hoy en día también atributos de sonidos, imágenes, secuencias y datos binarios.
Representar una idea en un sólo idioma puede llegar a ser extenso, por ejemplo, hemos detectado que solamente la palabra "Si" puede llegar a tener hasta 25 variaciones diferentes nada más en el idioma español, y teniendo en cuenta las posibles equivocaciones del hablante, cada una de estas variaciones puede llegar a tener hasta 12 formas incorrectas de escribirlo. De esta manera, solamente en el Español, una "idea afirmativa" puede tener 300 representaciones escritas.  Imaginemos ahora un verbo cualquiera; en el caso del español, hay entre los tiempos simples, complejos y compuestos hasta 12 formas diferentes, para aplicarlo a 7 individuos diferentes (pronombres) en cada tiempo... sin contar las formas incorrectas (errores gramaticales o sintácticos) que se pueden llegar a incluir en el diálogo... y, ¿había comentado que en Español hay unos 12.500 verbos?  Simplemente es un tema descomunal.
Los motores de procesamiento de lenguaje natural, poseen un gran repositorio de palabras que las organizan en sus características gramaticales, en espera que coincida la estructura para formar una frase correcta, gramaticalmente hablando. Pero eso requiere de una búsqueda en profundidad que implica una gran cantidad de cómputo... y por lo tanto se hace ineficiente.  Y hasta este punto, solamente estamos hablando de que el sistema haya captado correctamente lo dicho (o lo escrito) por el usuario, aún no hemos hablado de procesar conocimiento para la respuesta.
Por lo anterior, MIA no funciona con un sistema de procesamiento de lenguaje natural convencional de la literatura de la inteligencia artificial, para ser más preciso: no lo usa.  El sistema realmente es un procesador de ideas. A medida que el usuario va escribiendo o hablando, va organizando cada idea en el orden que aparece, y un sistema predictivo asume la labor de identificar el significado del mensaje en ese orden de ideas.  Dependiendo del idioma que el usuario haya escogido para hablar con MIA, puede cambiar el orden de las ideas y el significado es el mismo, o es posible que varios conjuntos de ideas ordenadas signifiquen lo mismo también.
De esta manera las siguientes frases son iguales para MIA:


  • Michael es un amigo mío
  • Yo tengo un amigo que se llama Michael
  • Mi amigo es de nombre Michael
  • Michael is a friend of mine
  • J'ai un ami du nom de Michael
El manejo por ideas es mucho más simple a nivel de procesamiento de cómputo, debido a la abstracción que se hace del contexto, en lugar de tratar de darle definición, ubicación, sintáxis y gramática a cada cosa que diga una persona.  De esta manera hemos logrado que la identificación de un mensaje sea hasta 10 veces más rápido que cualquier otro sistema de procesamiento de lenguaje natural... y lo más importante: es permitido escalarlo a nuevos idiomas o formas de comunicación.

No hay comentarios: