Мені хотілося б знати, як найкраще зберігати голос актора для повторного використання на кількох платформах.
Припустімо, я записую свій голос для клонування або плачу актору, щоб він оповідав з метою використання цього аудіо як набору даних для клонування його голосу. Я чув, що 30 хвилин записаного голосу достатньо, але до трьох годин аудіо дасть кращі результати, і крім того, віддача зменшується. Тоді, мабуть, було б гарною ідеєю записати варіанти з різною тональністю настроїв – щасливий голос, переляканий голос, сердитий голос, сміючий голос… ви зрозуміли. Було б непогано включити спів у набір даних, але я не думаю, що наразі жодна модель підтримує як спів, так і мовлення будь-яким зв’язаним способом (будь ласка, скажіть мені, якщо ви знаєте такий).
Мені не хотілося б витрачати купу часу на запис голосів, потенційно кількох акторів, лише щоб дізнатися, що через 6 місяців з’явиться якась нова модель з іншими вимогами до вхідних даних, і записи потрібно буде переробити, щоб використовувати останні та найкраща технологія.
Чи існує якийсь стандартний формат набору даних або стандартний сценарій слів, що містить найпоширеніші фонеми (у різних флексіях) з метою клонування голосів? А якщо ні, які найкращі методи мінімізації ймовірності необхідності повторювати роботу?
(p.s. хтось із представником, щоб це зробити, будь ласка, створіть тег перетворення тексту на мовлення
.)