El Stanford Internet Observatory identificó contenido de abuso sexual infantil (CSAM, por sus siglas en inglés) en la base de datos utilizada por empresas como Stable Diffusion para entrenar sus modelos de inteligencia artificial generativa de imágenes. Este hallazgo ha llevado a la retirada de esta base de datos.
¿De qué se trata esta base de datos para inteligencia artificial?
LAION-5B es una base de datos que contiene 5.850 millones de pares de texto-imagen utilizados en el entrenamiento de inteligencia artificial generativa para la creación de imágenes. Según LAION, su objetivo es democratizar la investigación y experimentación en el entrenamiento de modelos multimodales a gran escala.
En su descripción, LAION señala que la base de datos LAION-5B no está curada y advierte sobre la “naturaleza no seleccionada del conjunto de datos”. Reconocen que los enlaces contenidos en ella pueden dar lugar a “contenido muy incómodo y perturbador”.
¿Cómo supieron que que la IA generaba imágenes de abuso sexual?
El equipo de investigación de Stanford Internet Observatory, liderado por Jeffrey Hancock, se propuso investigar el papel que ha desempeñado el material de abuso sexual infantil en el entrenamiento de modelos de IA generativa de imágenes. Estos modelos tienen la capacidad de generar contenido explícito tanto para adultos como para abuso de menores.
Para hacer esta investigación, utilizaron una combinación de técnicas que incluyen coincidencia de hash perceptual de PhotoDNA, coincidencia de hash criptográfica, consultas de vecinos más cercanos y clasificadores de aprendizaje automático, según detallan en el resumen del texto de la investigación.
Retirarán la base datos hasta que sea seguro volver a publicarla
El trabajo de investigación identificó “cientos de casos de material de abuso sexual infantil (CSAM) conocidos en el conjunto de capacitación, así como muchos candidatos nuevos que posteriormente fueron verificados por partes externas”. En respuesta a estos hallazgos, LAION ha retirado temporalmente la base de datos con el objetivo de garantizar que los conjuntos de datos “son seguros antes de volver a publicarlos“.
Fuente Ambito