Зазвичай процес створення тексту в зображення починається з усунення шуму з випадкового прихованого шуму. Якщо ви натомість почнете усунення шумів (з меншою інтенсивністю) з наявного зображення, ви можете використовувати це для попереднього визначення широких структур/кольорів у зображенні.
Нижче я використовую модель Stable Diffusion 1.5 через ComfyUI – це FOSS і доступний безкоштовно. Багато інших зовнішніх інтерфейсів також підтримуватимуть img2img, як-от Automatic1111, який має спеціальну вкладку для цього.
Робочий процес ComfyUI нижче, показує завантаження (і кодування VAE) базового зображення ескізу, де для звичайного генерування тексту в зображення ви матимете прихований шум, а також коригування "усунення шуму" від 1,0 до 0,75:
Початковий ескіз:
Результат:
(зображення містить метадані графіка робочого процесу ComfyUI – його можна завантажити та перетягнути в інтерфейс користувача)