Los datos son el núcleo de la inteligencia artificial y los profesionales del aprendizaje automático necesitan utilizar grandes conjuntos para entrenar los modelos de IA que están cambiando el mundo en diferentes ámbitos. Uno de los problemas con que se encuentran, sin embargo, es que a menudo tienen que dedicar mucho tiempo a encontrar los datos necesarios para su propósito, entenderlos, dar sentido a su organización o averiguar qué parte de estos pueden aprovechar. Para solucionar este reto que retrasa el desarrollo de la IA, la asociación MLCommons acaba de lanzar al mercado Croissant, un nuevo formato de metadatos para indexar los conjuntos de datos preparados para el Machine Learning, con participación de la Universitat Oberta de Catalunya (UOC).
Croissant ha sido diseñado en colaboración entre los equipos de investigación de las principales empresas del sector tecnológico —Google, Meta, Amazon…— y universidades como, por ejemplo, Harvard, el King’s College de Londres y la UOC, que ha participado con Joan Giner, investigador del grupo de investigación SOM Research Lab del Internet Interdisciplinary Institute (IN3).
«Podemos comparar esta propuesta con la que permitió poder buscar cualquier cosa en internet mediante el buscador de Google hace 20 años, pero adaptada al campo de la inteligencia artificial», explica el investigador.
Croissant no cambia el formato como se representan los datos —por ejemplo, en ficheros de imagen, audio o texto—, sino que proporciona una manera estándar de describirlos y organizarlos. El nuevo lenguaje expande Schema.org, un estándar legible para las máquinas para describir datos estructurados, que ya se utiliza además de cuarenta millones de conjuntos de datos en la web y permite que los conjuntos de datos se puedan descubrir con motores de búsqueda como, por ejemplo, Google Dataset Search.
Puesto que Croissant tiene capas de información muy útiles referentes a la estructura, el tipo de atributos o cómo descargar estos datos, hará que sea mucho más fácil buscar e integrar estos conjuntos de datos en las aplicaciones de IA, sin necesidad de buscar los datos uno por uno en los diferentes repositorios. «Esto supone un cambio muy relevante, porque la diferencia entre una IA muy buena y una regular es que la primera está entrenada con un conjunto de datos mucho mayor. Ahora que estamos en la era del Big Data y que se publican muchos diariamente, era crucial poner orden para poder acceder a ellos más fácilmente», apunta Giner.
Los mayores repositorios de datos para IA del mundo —HuggingFace, Kaggle, OpenML— también han participado en el proyecto y ya tienen todos sus conjuntos de datos descritos con Croissant e indexados en Google Dataset Search. Además, los principales programas de Machine Learning para entrenar las IA con datos también lo han integrado. «Por lo tanto, podemos considerar que estamos, de facto, ante el estándar de descripción de datos para IA».
IA con ética y responsabilidad social
Giner ha participado en el proyecto de MLCommons en calidad de experto en IA responsable y en documentación de los conjuntos de datos, el tema sobre el cual centró su trabajo de doctorado. «Queríamos definir cómo debían documentarse los datos para tener confianza en su uso y no generar problemas éticos«, comenta. Así pues, la extensión de IA responsable en la que ha trabajado determina, entre otros factores, si los datos tienen algún problema de privacidad o si son representativos en la esfera social, uno de los principales problemas que debe afrontar la IA en esta etapa inicial. «Esto contribuirá a evitar casos como los que se han dado en aplicaciones de IA médica, que fallaban más diagnósticos en mujeres, sobre todo negras, que en hombres blancos debido a la falta de mujeres, y especialmente de mujeres negras, en los datos de entrenamiento», explica el investigador del IN3.
Google es uno de los agentes participantes en el consorcio que más ha puesto en valor esta vertiente ética: «Apoyar a la IA responsable (RAI) fue un objetivo clave del esfuerzo de Croissant desde el principio y esta extensión permite describir los procesos hechos para crear los datos, las persones participantes, y los posibles sesgos presentes en los datos», dicen fuentes de la compañía tecnológica. «Para mí, el hecho de que el primer estándar del mundo de datos venga con una extensión de datos responsable es todo un éxito de la comunidad de IA ética, porque generalmente las empresas no prestan mucha atención a este hecho», reflexiona Giner.
Ahora, mientras el proyecto confía en que los especialistas del sector adoptarán Croissant cuando publiquen sus datos, el equipo que ha desarrollado este lenguaje se centrará en dominios concretos como la sanidad y los datos públicos. Por ejemplo, en el caso de la sanidad, para determinar qué datos son más relevantes (radiografías, TAC, conversaciones médico-paciente…) y qué aspectos de representatividad social hacen falta para que sea eficaz su aprovechamiento. «Al final, la IA parece inteligente, pero no lo es. Es una gran reproductora de los patrones que hay en los datos. Y si estos datos no se ajustan a la realidad que quieren representar, no funcionará bien», concluye el experto.