Яка найбільш універсально сумісна структура для зберігання наборів даних аудіозапису для клонування голосу?

Мені хотілося б знати, як найкраще зберігати голос актора для повторного використання на кількох платформах.

Припустімо, я записую свій голос для клонування або плачу актору, щоб він оповідав з метою використання цього аудіо як набору даних для клонування його голосу. Я чув, що 30 хвилин записаного голосу достатньо, але до трьох годин аудіо дасть кращі результати, і крім того, віддача зменшується. Тоді, мабуть, було б гарною ідеєю записати варіанти з різною тональністю настроїв – щасливий голос, переляканий голос, сердитий голос, сміючий голос… ви зрозуміли. Було б непогано включити спів у набір даних, але я не думаю, що наразі жодна модель підтримує як спів, так і мовлення будь-яким зв’язаним способом (будь ласка, скажіть мені, якщо ви знаєте такий).

Мені не хотілося б витрачати купу часу на запис голосів, потенційно кількох акторів, лише щоб дізнатися, що через 6 місяців з’явиться якась нова модель з іншими вимогами до вхідних даних, і записи потрібно буде переробити, щоб використовувати останні та найкраща технологія.

Чи існує якийсь стандартний формат набору даних або стандартний сценарій слів, що містить найпоширеніші фонеми (у різних флексіях) з метою клонування голосів? А якщо ні, які найкращі методи мінімізації ймовірності необхідності повторювати роботу?

(p.s. хтось із представником, щоб це зробити, будь ласка, створіть тег перетворення тексту на мовлення.)

What are You Looking For?

Яка найбільш універсально сумісна структура для зберігання наборів даних аудіозапису для клонування голосу?

Кольоровий адаптер T2I для Stable Diffusion XL?

Еспресо має бути гірким і питися сам по собі чи я повинен до нього щось додати?

Leave a Comment

Read Next

Еспресо має бути гірким і питися сам по собі чи я повинен до нього щось додати?

Чи кажуть "будь ласка" і "дякую" для LLM щось змінити?