El Instituto de Ingeniería del Conocimiento lanza el primer modelo de lenguaje en español para el sector legal

(Extracto de esta notica publicada en Huffingtonpost.es)

El Instituto de Ingeniería del Conocimiento (IIC) trabaja en un proyecto de investigación para explotar y crear modelos de lenguaje en español: RigoBERTa. Y uno de los primeros logros ha sido el desarrollo del primer modelo de lenguaje en español adaptado al sector legal, mejorando la clasificación de documentos y la detección de entidades.

Para la creación de ese primer modelo de lenguaje en español para el sector legal, han partido de BETO, el modelo general del español desarrollado por la Universidad de Chile. Este se ha reentrenado con un gran corpus legal-administrativo de más de 500 millones de palabras, que ha sido recopilado de fuentes abiertas y curado por su equipo de lingüistas computacionales, garantizando la calidad de los textos.

Contar con un modelo de lenguaje adaptado al ámbito legal tiene ventajas si se pone en práctica con dos de los principales problemas del sector: la clasificación de documentos y la detección de entidades nombradas en el texto (personas y organizaciones). Una vez reajustado el modelo del español general, los primeros resultados muestran cómo se gana en acierto cuando se usa la versión especializada en el sector legal.

¿Quieres saber más?

Etiquetas: , ,

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *