Google StyleDrop genera imágenes a partir de texto
Google StyleDrop genera imágenes a partir de texto
StyleDrop de Google, como se describe en un documento del 1 de junio en el servidor de preimpresión arXiv , permite a los usuarios describir objetos y especificar estilos artísticos que desean incorporar en la salida generada.
StyleDrop devuelve imágenes que reflejan las especificaciones del usuario en unos tres minutos.
«El método propuesto es extremadamente versátil y captura matices y detalles de un estilo proporcionado por el usuario, como esquemas de color, sombreado, patrones de diseño y efectos locales y globales», dijo Google en su informe «StyleDrop: generación de texto a imagen».
StyleDrop también crea tipografías que incorporan fielmente las características estilísticas de las imágenes.
Por ejemplo, los usuarios podrían proponer una imagen de un puente, una letra y luego especificar un estilo de dibujo. Dichos estilos podrían ser «renderizado dorado fundido», «escultura de madera», «renderizado 3D», «dibujo de dibujos animados» o cualquier otro estilo preferido. La imaginación de uno es el único límite.
StyleDrop luego generará representaciones impresionantes de objetos con un puente de goteo similar a Dali, o tal vez una versión similar a una caricatura, junto con letras que incorporen las mismas características.
StyleDrop funciona en conexión con Muse de Google, un transformador de visión generativa presentado a principios de este año que ofrece un notable grado de fotorrealismo. Muse se capacitó en 3000 millones de parámetros, lo que garantiza la capacidad para generar imágenes de alta calidad.
Los investigadores evaluaron la precisión y la calidad de la salida de StyleDrop utilizando el texto CLIP estándar de la industria y la puntuación de estilo, así como los comentarios de los usuarios. Las evaluaciones encontraron que StyleDrop «supera de manera convincente» a otros métodos líderes de generación de imágenes y texto, incluidos DreamBooth, Imagen y Stable Diffusion.
Los desarrolladores ven este programa, que aún no se ha lanzado al público, como una ayuda invaluable para los directores de arte y diseñadores gráficos que pueden crear imágenes fotorrealistas de productos o temas designados que incluyen texto que refleja los mismos colores, estructura y estilo.
Para una nueva campaña de producto, por ejemplo, para una nueva marca de gaseosas, un artista podría proponer en pocas palabras una botella de vidrio de forma elegante ubicada entre miles de tulipanes en un campo holandés, con un texto de acompañamiento con letras construidas con vidrio renderizado en 3D, en el estilo del Monet impresionista. En tres minutos, con la redacción correcta, podría nacer una nueva campaña publicitaria que presentara un cielo escénico cálido y de colores brillantes.
StyleDrop bien puede ayudar a los diseñadores a brindar un mayor grado de intimidad y conexión a su trabajo.
El informe reconoce, sin embargo, que la protección de los derechos de autor es una preocupación.
«Reconocemos posibles dificultades, como la capacidad de copiar estilos de artistas individuales sin su consentimiento, e instamos al uso responsable de nuestra tecnología», afirma el informe.
Más información: Cornell University