malykh.com notes: Dreambooth + Stable Diffusion: взгляд на мой Jimny

Попробовал генерировать картинки при помощи Dreambooth + Stable Diffusion на основе нескольких своих базовых изображений и текстового как бы описания. Процесс несколько муторный и небыстрый (см. описание на русском, например).

Покажу результаты на основе нескольких зимних фотографий моего Suzuki Jimny:

1. Это самые лучшие результаты из нескольких сотен сгенерированных. Потом мне надоело. И разброс между этими (самыми лучшими) и самыми худшими огромный.

2. Фотоподобные изображения плохие, даже ужасные, поэтому текстовым описанием пытался вызвать генерацию рисунков, а не "фотографий".

3. Обычно получается Jimny Франкенштейна из разных кусков автомобилей. Но если на фотографии это неприемлемо (выглядит как коллаж автора с распадом процессов мышления и эмоциональных реакций), то на рисунке это иногда можно воспринимать как часть стиля.

4. Сильно влияет качество базовых изображений. Это должны быть несколько изображений одного и того же объекта в одном и том же состоянии, но с разных ракурсов. И с минимальным визуальным мусором.

5. Среди этих результатов видно, что прорезей на решетке радиатора то 5 (как в оригинале), то 6, то даже 4. Руль часто становится левым вместо правого оригинала (если руля явно на изображении нет, то это проявляется и другим расположением дворников лобового стекла). Постоянно нечто странное творится с передним бампером, багажником на крыше, колёсами. А шноркель и вовсе то исчезает, то дико меняет свою форму, то переезжает на другую сторону. И т.д. Ни о каком документальном соответствии оригинальному объекту невозможно говорить. Даже при хороших входных изображениях. Это как фильм "по мотивам произведения".

6. Текстовое описание (на английском) таковым не является. Это рандомный набор слов, которые пишешь в попытках заставить получить то, что тебе нужно. Это плохо удаётся, поскольку слабо понятно, какие слова как триггерятся моделью. Лучшая тактика - это просто забивать всё подряд наугад, а потом ожидать, что всплывёт что-то подходящее.

7. У меня было постоянное ощущение вторичности. Чувство, что это не оригинальное произведение, а переработка уже существующей работы, куда грубо запихали пародию на базовый объект. Особенно, когда стилистика изображения начинает повторяться несколько раз.

8. Но если не ворчать, то результат, в принципе, хороший, если это (квадратные картинки разрешения 512x512) рассматривать как, например, аватарки. Или заготовки для иллюстраций или принтов. Другое дело, что желаемый сюжет и стиль я так и не получил. Но и не надеялся.

9. При увеличении разрешения результат становится ещё более франкенштейновым. А при уменьшении слишком абстрактным - оригинальный объект начинает исчезать, заменяясь какими-то цветными пятнами.

10. Совершенно непонятна ситуация с авторскими правами. Даже среди этих результатов видны остатки подписей авторов оригинальных работ, на базе которых эти результаты созданы. Про проблему источников такой генерации уже писал.

Ожидание: "искусственный интеллект" позволит расширить знания и создавать новое.

Реальность: "искусственный интеллект" - это удобное средство украсть чужое произведение, чтобы не создавать новое.

Еще по этой теме: