Papers with Code підтримує таблиці лідерів у різних порівняльних тестах перетворення тексту в зображення, використовуючи показники, наведені в документах. Наприклад, на COCO:
Записи з піктограмою Github містять доступний код, але зауважте, що деякі з них можуть бути неофіційними реалізаціями або ще не мати доступних ваг моделі.
У цьому випадку найкращий результат із доступним кодом і вагами — U-ViT-S/2-Deep. Здається відносно простим для початку, включаючи демонстрація блокнота Colab (з урахуванням класу).
Наразі навряд чи можна знайти щось із підтримкою рівня Stable Diffusion (вибір зовнішніх інтерфейсів, текстове навчання з веб-даними тощо), але це було б місцем, де слід спостерігати за новими дослідженнями.