¡Bienvenidos de nuevo! Espero que hayáis disfrutado de las mejores fiestas que las restricciones os hayan permitido celebrar y que hayáis podido comenzar el año nuevo con energía.
Empiezo 2021 con un tema que tenía pendiente abordar: la lingüística computacional. Aquellos que me seguís, sabéis que me interesa mucho. En posts anteriores he hablado brevemente de ello: IV Jornada de Bibliotecas Jurídicas y Google BERT. Desde mi punto de vista, esta disciplina es el germen de gran parte del legaltech, si no entendemos cómo se crean y desarrollan los programas basados en inteligencia artificial, en el futuro no podremos valorar correctamente su posible adquisición.
En esta ocasión, la suerte hizo que cayeran en mis manos los artículos «Lingüística computacional y tecnologías del lenguaje«*, escrito por Carmen Torrijos y «Law, artificial intelligence and natural language processing: a funny thing happened on the way to my search results«** del profesor Paul D. Callister, publicado en la revista de la American Association of Law Libraries (AALL).
El primer artículo me ha servido para actualizar mis conocimientos sobre la lingüística computacional y conocer de primera mano cuál es la situación actual de esta materia en nuestro país. Durante su lectura, la autora explica las fases básicas del procesamiento del lenguaje natural (PLN) de manera automática, pero supervisado (implicando directamente a lingüistas computacionales): la segmentación del texto en frases (split), la separación de palabras (tokenización), el etiquetado morfológico de palabras (part of speech), la representación de todas la formas flexionadas de una palabra (lematización), el análisis sintáctico y el enriquecimiento semántico.
También analiza las tecnologías PLN más avanzadas: los modelos de lenguaje no supervisados (aprendizaje automático sin aplicar las fases anteriores, salvo la tokenización) y la vectorización de palabras (embeddings), que consiste en la representación de palabras en números con la mayor cantidad de rasgos lingüísticos gramaticales y semánticos.
Además, nos ayuda a comprender que, en un proyecto de aprendizaje automático o machine learning, es esencial la selección de textos (corpus) y la metodología de anotación por pares, basada en la creación de corpus anotados que entrenen los modelos de aprendizaje supervisados, los cuales identificarán las discrepancias para la implementación de guías de criterios consensuados.
Por último, la autora enuncia las aplicaciones del PLN más demandadas actualmente por empresas e instituciones: la traducción automática, el análisis del sentimiento, la clasificación en categorías, la detección de entidades y la medición de la comunicación clara. Este capítulo ha sido revelador porque permite su fácil extrapolación al ámbito de la documentación jurídica, por ello daré mi opinión de la situación actual del sector en un post posterior.
En el segundo artículo, además de explicar la vectorización de palabras, el profesor Callister compara los softwares de potentes plataformas jurídicas estadounidenses (Westlaw, Lexis Advance, Fastcase, Google Scholar, Ravel y Casetext) para comprobar sus funcionalidades partiendo de una misma consulta para mostrar la disparidad de resultados que se obtienen.
Sinceramente, sin haber leído y entendido el primer artículo de Carmen Torrijos, me hubiera sido difícil comprender el segundo. En mi opinión, puede que los resultados obtenidos por el estudio comparativo son distintos porque puede que cada plataforma utilice corpus anotados distintos. Ello me lleva a plantearme la pregunta ¿existirá en un futuro la herramienta jurídica perfecta desarrollada por inteligencia artificial? Actualmente no tengo respuesta.
* Torrijos Caruda, C. (2020). Lingüística computacional y tecnologías del lenguaje. Revista de Privacidad y Derecho Digital, 5 (19), 23-62. https://www.rdu.es/catalogo/detalle/No-19-Julio-Septiembre-RPDD-REV-DIG-19/ANO-V-48
**Callister, Paul D. (2020). Law, artificial intelligence and natural language processing: a funny thing happened on the way to my search results. Law Library Journal, 112 (2), 161-212. https://www.aallnet.org/llj_article/law-artificial-intelligence-and-natural-%E2%80%A8language-processing-a-funny-thing-happened-on-the-way-to-my-search-results/