Paula Chocrón: “Nos enfrentamos a grandes desafíos como escalar la herramienta a otros idiomas”

March 16, 2022

Paula Chocrón es NLP & Data Science Team Lead en IOMED Medical Solutions. Licenciada en Ciencias de la Computación por la Universidad de Buenos Aires y PhD en inteligencia artificial por el IIIA-CSIC, Paula lleva dos años en nuestro equipo. En este tiempo ha asistido a un proceso de revolución y crecimiento en su departamento. Este 2022, se enfrentan a dos grandes retos: la traducción de la herramienta a otros idiomas y la automatización de procesos. 

¿Qué beneficios tiene el Procesamiento de Lenguaje Natural (PLN) para  la investigación clínica?

El procesamiento del lenguaje natural tiene como objetivo extraer información de datos no estructurados. Los informes que escriben los médicos sobre los pacientes que van viendo están en lenguaje natural, en texto. Para extraer datos de este tipo de textos se usan métodos de PLN, que permiten analizar grandes cantidades de datos en muy poco tiempo, y así automatizar un proceso que es largo, lento y duro e implicaría mucho trabajo humano. Nos permite extraer datos y hacer preguntas sobre ellos.

¿Qué pronóstico haces de la evolución del PLN a corto plazo?

Uno de los desarrollos más interesantes del PLN actual es todo lo relacionado con  modelos de lenguaje y “Transfer Learning”. Básicamente la idea es entrenar modelos muy grandes que sepan sobre lenguaje en general, y después poder usarlos para tareas más específicas, aprovechando este conocimiento. Es como enseñarle a un modelo cómo funciona el italiano, y después pedirle que clasifique texto en italiano. Lo interesante es que, como ya conoce el italiano, necesita muchos menos ejemplos para aprender a hacer la tarea específica. Fue un desarrollo revolucionario en PLN, y todavía hay mucho que explorar en esta dirección.

¿Cómo ha evolucionado el departamento de PLN Data Science desde que llegaste a IOMED?

Hemos crecido un montón. Cuando yo entré éramos dos personas, Álvaro Abella y yo. Poco a poco se han ido incorporando compañeros de diferentes perfiles; desde más orientados a la informática hasta más relacionados con la lingüística. Esto nos permitió hacer crecer la herramienta y sus funcionalidades, de forma que cada vez podemos extraer información más interesante de los textos que analizamos. Ahora nos enfrentamos a grandes desafíos como escalar la herramienta a otros idiomas. 

¿Cuáles son los principales retos que afrontáis desde el departamento de PLN & Data Science en 2022?

Tenemos dos grandes retos: nuevos idiomas y automatización de nuestra herramienta. Nuestro objetivo es cada vez contar con más funcionalidades, para detectar más cosas. Hasta hace unos meses esto era algo manual, decíamos “necesitamos identificar si un texto es de dermatología o no” y construíamos una parte de la herramienta. Ahora estamos trabajando en automatizar estos procesos. Si la herramienta tiene funcionalidades para construirse de forma automática, podremos crecer muchísimo, al agregar partes de la herramienta de forma simple y automática. Otro de los grandes desafíos es trasladar la herramienta a otros idiomas y también queremos que sea lo más automático posible. No hacerla de nuevo en otro idioma. Para ello, compartiremos las bases de la herramienta. Usaremos técnicas de transfer learning para aprovechar el máximo de los datos que tenemos. Por ejemplo, vamos a entrenar modelos en italiano con los que ya tenemos en castellano.

¿Qué es lo que más te gusta de trabajar en IOMED?

En IOMED hay retos constantes. Hay desafíos a diario incluso en las cosas más pequeñas, como  diseñar código, hasta crear una herramienta entera.  Nosotros construimos nuestra herramienta de PLN de una forma muy novedosa, al apostar por la automatización y la posibilidad de que la herramienta se construya a sí misma. Además trabajar con el objetivo de mejorar los estudios clínicos es muy interesante.

¿Qué tipo de perfil profesional buscas para trabajar en tu equipo?

Buscamos profesionales con un background técnico de Informática o Data Science con PLN o machine learning en general. Son perfiles relacionados con códigos: programación; o con datos: análisis de datos, leer corpus…, etc.



Image Description

Paula Chocrón

NLP Data Science