Sobre la generación automática de imágenes

Lee la noticia: Dreamstudio y StableDiffusion

¿Crees que puede ser un problema la liberación de los algoritmos, o solo es el siguiente paso necesario para disparar las aplicaciones comerciales de esta tecnología?

En los últimos años hemos tenido un boom en la generación de imágenes mediante Inteligencia Artificial. Tanto Google con Imagen, Meta con Make-A-Scene o la más conocida  DALL-E-2 de Open AI están ahora en boca de todos. Estos modelos permiten crear infinidad de nuevas imágenes, incluso replicando el estilo de grandes artistas, o modificar imágenes reales sustituyendo elementos por otros generados artificialmente.

Stable Diffusion, que forma parte de Stability AI y defiende la apertura de los modelos para uso público, liberóel pasado 22 de agosto el modelo que utilizan con una licencia Creative ML OpenRAIL-M que permite, entre otros, su uso comercial.

La cuestión es que tanto Imagen como DALL-E-2 creen necesario avisar del consumidor de que la imagen ha sido generada de forma artificial, y por ello añaden una marca de agua al resultado; Stable Diffusion, por el contrario, genera imágenes que son imposibles de rastrear, y deja en manos de sus creadores el uso que quieran darle.

El uso de estos algoritmos no tiene por qué suponer un problema. Al igual que Photoshop, estos modelos pueden ser una herramienta muy potente para facilitar el trabajo de fotógrafos o artistas, e incluso puede permitir a usuarios sin experiencia realizar trabajos audiovisuales, como ilustrar su propia novela. También pueden servir para generar nuevos datos de entrenamiento para otros modelos de visión artificial sin tener que depender de terceros.

En cualquier caso, parece necesario definir unos límites. A medida que las imágenes vayan siendo más realistas, puede ser necesario incluir filtros en las peticiones para evitar la generación de contenido violento, agresivo o sexual. Puede ser necesario buscar fórmulas para respetar los derechos de imagen de cualquier persona, ya que será posible generar imágenes realistas de cualquier famoso en cualquier contexto. En esta línea queda mucho por trabajar.

A modo de anécdota, el propio equipo de DALL-E-2 comenta en su blog que es posible saltarse las restricciones que tienen activas utilizando lo que llaman visual synonyms (e.g. usar charco rojo o kétchup en vez de sangre para crear una imagen con ese efecto). La cuestión es que, aunque vayan mejorando la detección de estos sinónimos visuales, la creatividad de las usuarios para saltarse los filtros puede ser infinita.

En definitiva, abrir los modelos al público va a impulsar con seguridad los avances en este sector, pero parece necesario, como en cualquier ámbito de la ingeniería, estar atento a los impactos sociales nocivos.

Imagen de Freepik

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *