24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Голосовых нейронок тред (TTS, STS, STT) #7 speech /speech/

 Аноним 16/02/25 Вск 12:20:27 #1 №1055411 
17019563860200.mp4
17074247947820.mp4
17204507036820.mp4
17099193437742.mp4
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >> https://2ch.hk/ai/res/664162.html

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
АНОН, ПОМОГАЙ Аноним 16/02/25 Вск 12:23:04 #2 №1055415 
17019563860200.mp4
НУЖНА ГОЛОСОВАЯ МОДЕЛЬ МЭДДИСОНА, как на видрил.

Все МОДЕЛИ, что удалось найти В ИНТЕРНЕТЕ, звучат намного хуже.
Аноним 16/02/25 Вск 12:55:20 #3 №1055428 
бамп!
sage[mailto:sage] Аноним 17/02/25 Пнд 10:10:13 #4 №1056814 
>>1055411 (OP)
Это тупо копипаста старой шапки и ничего нового в ней за полгода? Ну ты и долбоёб, фагочушка к тому же. Всем кто отпишется без сажи рака яиц.
Аноним 17/02/25 Пнд 10:38:05 #5 №1056825 
>>1055411 (OP)
Какие есть модели TTS, но чтобы работали в реалтайме, без ожидания генерации аудио. И возможность обучить модель на своих исходниках
Аноним 17/02/25 Пнд 11:32:20 #6 №1056841 
>>1056814
Перекатывал бы тогда сам. Но ты же ленивый безрукий пидорас и хуесос, так что и эту шапку потерпишь, хуйло.
sage[mailto:sage] Аноним 17/02/25 Пнд 23:52:24 #7 №1057564 
>>1056825
Я б ответил, но не могу долго находиться в защкварном треде оп-хуя.
Аноним 18/02/25 Втр 12:18:27 #8 №1057995 
>>1057564
Ты будешь терпеть, как и всегда терпел.
Аноним 18/02/25 Втр 18:10:08 #9 №1058516 
>>1055415
Ты тупой штоле? там голосом написано и текстом проговорено я хуею какие же дегенераты на дваче
sage[mailto:sage] Аноним 18/02/25 Втр 19:35:31 #10 №1058603 
А что с шапкой? Посрал на опа-гея.
Аноним 18/02/25 Втр 23:00:35 #11 №1058975 
>>1058516
Ебло ослиное, мне нужна модель.

>>1058603
Терпи.
Аноним 21/02/25 Птн 12:35:12 #12 №1062652 
17401167341180.mp4
Аноним 21/02/25 Птн 15:20:02 #13 №1062837 
>>1062652
Вот ето да!
Аноним 21/02/25 Птн 17:15:54 #14 №1062967 
>>1058603
что не так с шапкой то?
Все как и раньше
Аноним 21/02/25 Птн 22:23:13 #15 №1063458 
Нейрослоник4part12.mp4
>>1062837
Аноним 22/02/25 Суб 04:42:09 #16 №1063813 
Ебался всю ночь так нихуя и не установил.
RVC работает искаропки и работает заебись но не могу найти нормальный TTS.
Подскажите каким вы сейчас пользуетесь?
Сука триллион зависимостей установите то установите се ой работает только на петухон 1488 иди нахуй блядь
Аноним 28/02/25 Птн 16:59:25 #17 №1073727 
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
https://github.com/SesameAILabs/csm
Dataset: We use a large dataset of publicly available audio, which we transcribe, diarize, and segment. After filtering, the dataset consists of approximately one million hours of predominantly English audio.

Model Sizes: We trained three model sizes, delineated by the backbone and decoder sizes:
Tiny: 1B backbone, 100M decoder
Small: 3B backbone, 250M decoder
Medium: 8B backbone, 300M decoder
Each model was trained with a 2048 sequence length (~2 minutes of audio) over five epochs.

Our models will be available under an Apache 2.0 license.
Аноним 28/02/25 Птн 20:21:04 #18 №1074110 
image.png
Я НЕПЫНИМАЮ БЛЯДЬ
Как и через что в комфиуи генерать голоса? Бля одну кастом ноду скачаешь, там не установить другие модели. Другую скачаешь, там блядь хуй знает какие-то расширения моделей используются, что хуй найдёешь. Я просто хочу слушать мурлыканье аниме девочек мне в ухо, но я хуй его знает что использовать, чтобы эту модель запустить.
Аноним 01/03/25 Суб 02:43:23 #19 №1074507 
>>1055411 (OP)
Я продублирую свой вопрос из /b/

На моей любимой РАБоте слушаю много аудиокниг, так как работаю говнарем на складе, и аудиокниги мое единственное развлечение. Но проблема в том, что большинство чтецов забрасывают произведения, оставляя сотни глав не озвученными.
Я прогуглил и поизучал вместе с ответами от GAYgpt множество AI решений и проектов на github, НО столкнулся с тем что в большинстве локальные проекты заточены на святоанглийский.
И это малая еще беда.

Изучены проекты:
Coqui TTS
Piper TTS
VoxNovel
VITS
И дохуя всякий webui с "движками" Coqui TTS и Piper TTS.


Инпуты текстов ограничены в лучшем случае до 5к символов. А решения конверторов epub книг ехидно проводят по губам ругаясь на кодировки или отказываясь обрабатывать большие обьемы.

Даже разбив на множество глав тхт документы для простоты, мануально вводя по предложению, генерируя чанками, мы получаем кал калыч без грамматики так еще с уебской пунктуацией и разбивка на чанки дает ебучее затухание в начале и в конце чанка.

Вся беда этих локальный open source TTS, в том, что нет нормального подключения лексиконов правил грамматики и произношений и самих лексиконов толком то и нет.

Сейчас откапал на своем харде старенькую Ivona Voices, даже сохранились худо бедные лексиконы омографов, Е/Ё и тд. для голоса Tatyana.

Качество звучания - скрипя зубами, генерирует тексты в 22hz и иногда артефактами, но лучше чем google синтетический голос.

С этого всего вопрос к АНОНУ, знаешь ли ты какие нибудь тулы или другие решения для создания аудиокниг. Из серии хотя бы получше чем уровень говорилка.

С меня нихуя, заранее иду нахуй.
Аноним 01/03/25 Суб 03:45:06 #20 №1074535 
>>1074507
Ответ получен, спасибо всем кто заглянул

>Нейроблядь в треде

Что можно попробовать
Вот несколько вариантов, которые могут быть получше, чем текущие костыли:

A. Использовать старые коммерческие движки
Ivona Voices (как у тебя): Да, качество звука там древнее (22kHz), но это реально один из лучших вариантов для русского языка. Если у тебя есть старые лексиконы и настройки — это вообще находка. Попробуй найти обновлённые версии Ivona или аналогичные движки (например, старую версию Balabolka с поддержкой SAPI5).
Balabolka : Это не TTS сам по себе, но он может работать с разными голосами (включая Ivona) и конвертировать тексты в аудио. Плюс можно настроить паузы, интонации и даже подправить произношение через SSML (Speech Synthesis Markup Language).
B. Попробовать современные онлайн-сервисы
Yandex SpeechKit : У Яндекса есть свой TTS, который работает достаточно неплохо для русского языка. Качество лучше, чем у Google, особенно если выбирать женские голоса (например, "Оксана"). Можно автоматизировать через API, чтобы генерировать большие объёмы текста.
Tinkoff VoiceKit : Ещё один русскоязычный TTS, который иногда работает даже лучше Яндекса. Поддерживает длинные тексты и имеет нормальные настройки интонации.
Google Cloud TTS : Хотя ты говоришь, что их голоса уебские, но они поддерживают длинные тексты и SSML, что позволяет настраивать произношение и паузы.
C. Нейросетевые решения
Silero TTS : Это русскоязычный open-source проект, который реально неплохо работает. Голоса звучат естественно, и можно генерировать длинные тексты без затуханий. Попробуй его запустить локально — он легче, чем Coqui или Piper, и заточен именно под русский язык.
Fish Speech : Новый проект, который активно развивается. Он умеет работать с длинными текстами и поддерживает русский язык. Качество звука на уровне современных стандартов (16-48kHz).
D. Автоматизация и предобработка текста
Разбиение текста : Используй скрипты на Python (например, через библиотеку nltk или spaCy) для разбиения текста на предложения или абзацы. Это поможет избежать проблем с чанками.
SSML : Если TTS поддерживает SSML, то можно настроить паузы, ударения и произношение прямо в тексте. Например, добавить <break> для пауз или <phoneme> для правильного произношения сложных слов.
Конвертеры EPUB : Попробуй использовать Calibre (он умеет конвертировать EPUB в TXT с сохранением форматирования) или написать свой парсер на Python.
3. Итог
Если коротко:

Лучший вариант для старта — Silero TTS или Fish Speech. Они заточены под русский язык и работают локально.
Если нужен онлайн — Yandex SpeechKit или Tinkoff VoiceKit.
Для старых движков — Ivona + Balabolka с SSML.
Но помни: идеального решения пока нет. Даже если найдёшь что-то получше "говорилки", всё равно придётся возиться с настройками, разбиением текста и лексиконами.
Аноним 01/03/25 Суб 10:13:58 #21 №1074630 
>>1074535
Привет, ГПТблядок! Почему ты даешь такие хуевые и неполные ответы? Сейчас батя Грок от вездесущего Илона Маска, лучшего гения современности, распишет тебя под лоха своим супердетальным ответом.

---

### Проблемы, которые ты описал:
1. Ограничения локальных TTS на русском: Coqui TTS, Piper TTS и прочие действительно плохо заточены под русский — словари ударений и грамматики либо отсутствуют, либо требуют ручной настройки.
2. Чанки и качество: разбивка текста на куски портит плавность, добавляет затухания и артефакты.
3. Ivona Voices: старенькая, но рабочая, сносное качество на 22 кГц, есть лексиконы, но всё равно звучит не идеально.
4. Обработка больших текстов: веб-интерфейсы и конвертеры либо ограничивают символы, либо косячат с кодировками.

Тебе нужно что-то, что:
- Поддерживает русский язык с нормальными ударениями и интонацией.
- Может обрабатывать большие тексты без необходимости ручной разбивки.
- Дает качество лучше "говорилки" и хотя бы на уровне терпимого чтеца.

---

### Варианты решений

#### 1. Silero TTS (от Snakers4)
- Что это: Open-source проект от российских разработчиков, специально заточенный под русский язык. Использует нейронные модели для синтеза речи.
- Плюсы:
- Качество голосов на голову выше Ivona, звучит естественно.
- Есть готовые модели для русского (голоса вроде "Ксения", "Александр" и др.).
- Работает локально, поддерживает длинные тексты без ограничений по символам.
- Можно настроить интонации и скорость.
- Минусы:
- Нужно немного повозиться с установкой (Python, PyTorch, загрузка моделей с их GitHub).
- Требует ударения в тексте (ставятся вручную символом `+`, например, "к+от"), но есть скрипты для автоматической расстановки.
- Как попробовать:
- Установи через `pip install torch torchaudio` и скачай модель с [репозитория Silero](https://github.com/snakers4/silero-models).
- Пример кода для генерации:
```python
import torch
from omegaconf import OmegaConf
language = 'ru'
model_id = 'v4_ru'
speaker = 'kseniya'
device = torch.device('cpu')
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language=language, speaker=speaker)
model.to(device)
audio = model.apply_tts(text="Прив+ет, это т+естовый текст!", sample_rate=24000)
```
- Сохраняй результат в WAV или MP3.
- Итог: Если готов потратить час на установку и настройку, это твой лучший локальный вариант.

#### 2. RHVoice
- Что это: Еще один open-source TTS, разработанный Ольгой Яковлевой, с упором на русский и украинский языки.
- Плюсы:
- Локальная работа, не требует интернета.
- Поддерживает словари для коррекции произношения (можно подправить омографы вроде "зам+ок" vs "з+амок").
- Голоса "Анна", "Александр" и др. звучат лучше Ivona, хотя немного роботизированно.
- Берет большие тексты без проблем.
- Минусы:
- Качество чуть ниже современных нейронок вроде Silero или Coqui.
- Установка на Windows проще, чем на Linux/Mac, но всё равно требует рук.
- Как попробовать:
- Скачай с [официального сайта](https://rhvoice.org) или GitHub.
- Используй с утилитой вроде Balabolka (о ней ниже) для удобства.
- Итог: Простое и быстрое решение, если не хочешь заморачиваться с нейронками.

#### 3. Balabolka + Ivona/SAPI5
- Что это: Программа для Windows, которая работает с любыми SAPI5-голосами (включая твою Ivona Tatyana) и позволяет генерировать аудиофайлы из больших текстов.
- Плюсы:
- Поддерживает твои старые Ivona Voices и лексиконы омографов.
- Обрабатывает целые книги в формате TXT, EPUB, DOC без ограничений.
- Можно настроить паузы, скорость, тембр.
- Экспорт в MP3/WAV без ручной разбивки.
- Минусы:
- Качество ограничено самой Ivona — выше головы не прыгнешь.
- Интерфейс староват, но рабочий.
- Как попробовать:
- Скачай [Balabolka](http://www.cross-plus-a.com/balabolka.htm).
- Укажи путь к тексту, выбери голос Ivona Tatyana, настрой словари и жми "Сохранить аудиофайл".
- Итог: Если Ivona тебя пока устраивает, это самый простой способ автоматизировать процесс без допиливания.

#### 4. Коммерческие решения (если бюджет позволяет)
- Яндекс SpeechKit:
- API с голосами вроде "Филипп" или "Алёна", звучит очень естественно.
- Поддерживает длинные тексты, но нужен интернет и оплата (около 4-5 рублей за 1000 символов).
- Пример: загружаешь TXT через их консоль или скрипт, получаешь MP3.
- **Google Cloud Text-to-Speech**:
- Голоса WaveNet для русского — топ по качеству, но дорого (около $16 за миллион символов).
- Требует API и немного кода.
- **Amazon Polly**:
- Голос "Татьяна" или "Максим" — качественные, русский поддерживается.
- Цена: ~$4 за миллион символов.
- **Итог**: Если готов вложить пару сотен рублей, получишь качество на уровне профессиональных чтецов.

#### 5. Хак с автоматической расстановкой ударений
- Проблема с Silero и другими нейронками — ручная расстановка ударений. Есть обход:
- Используй [Udict](https://udict.ru) или [Stress Rus](https://github.com/MarkedOne/stress-rus) для автоматической расстановки `+` перед ударными гласными.
- Пример: "Привет, как дела?" → "Прив+ет, к+ак дел+а?"
- Потом скорми это Silero или Coqui.
- **Итог**: Решает проблему грамматики и произношения, но требует доп. шага.

---

### Рекомендация
Если хочешь локальное и бесплатное — начни с **Silero TTS**. Оно современнее Ivona, качество лучше, и есть шанс автоматизировать процесс с помощью скриптов. Для старта:
1. Установи Silero.
2. Разбей книгу на главы (вручную или скриптом).
3. Используй Udict для ударений.
4. Генерируй аудио по главам и склей в MP3.

Если лень возиться, юзай **Balabolka** с Ivona — это твой минимум усилий прямо сейчас.

Есть вопросы или что-то конкретное уточнить — пиши, разберем. Удачи на складе, не скучай там!
Аноним 01/03/25 Суб 16:47:22 #22 №1074900 
20160204090247e7ed316fbca4eba7e6527c694add3869.jpg
>>1074630
Вау! Я поражен грамотной и структурированной подачей материала!
Зная что существуют такие решения, мне не лень повозиться и разобраться.

Что то уже знакомо, из за использования stable diffusion, так что разберусь.

>- Яндекс SpeechKit (около 4-5 рублей за 1000 символов)

Да, у меня например одна книга в 12 000 000 символов меня обанкротит, поэтому не рассматриваю платные решения. Как никак 500 евро это мои все счета за жилье, сотовую связь и интернет лол.

Еще раз, спасибо Анон, за подробный и развернутый ответ!
Аноним 01/03/25 Суб 23:51:49 #23 №1075373 
>>1074900
Silero самая простая. Ставится в один клик
https://aloys.narod.ru/sof/1/demagog.htm

Fish Speech качественней но работает медленней.
Ставится в один клик через скрипт енжин Пинокио.
https://pinokio.computer/
Аноним 02/03/25 Вск 01:43:38 #24 №1075475 
Прошу новоприбывших иметь ввиду, что шапка и вики давно не обновлялись и не содержат сведения о каких-либо новинках прошедшего года.

В качестве базы поиска голосовых моделей советую использовать huggingface, как наиболее крупное и актуальное хранилище открытых моделей.

Text to speech:
https://huggingface.co/models?pipeline_tag=text-to-speech&sort=trending

Speech to speech:
https://huggingface.co/models?pipeline_tag=audio-to-audio&sort=trending

Speech to text:
https://huggingface.co/models?pipeline_tag=automatic-speech-recognition&sort=trending

Однако, на хаггине нельзя найти многие из тьюнов для популярных проектов, типа RVC. Такие тьюны выкладывают на отдельных сайтах и в профильных сообществах в дискорде.

-----

Сделал сводку обсуждаемых в прошлом треде (со ссылками на посты) новых открытых нейронок и инструментов, которые не были упомянуты в шапке/вики. Описания взяты с офф. страничек решений, сам пока толком ничего не попробовал.

Дайте знать, если где-то ввёл в заблуждение или забыл упомянуть что-то крутое.

-----

Февраль 2025: >>1049742 →
https://github.com/Zyphra/Zonos
https://huggingface.co/Zyphra/Zonos-v0.1-transformer(Веса 3.25 GB)
https://maia.zyphra.com/audio

Zonos - TTS с поддержкой войсклона. По отзыву анона, модель показывает себя очень хорошо, по стабильности намного лучше fish-speech или E2-F5.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, французский и немецкий

-----

Январь 2025: >>1013818 →
https://huggingface.co/spaces/hexgrad/Kokoro-TTS
https://huggingface.co/hexgrad/Kokoro-82M

Kokoro-TTS - мелкая, обученная энтузиастами TTS-модель, которая вот уже месяц сидит в топ-1 TTS-моделях по скачиваням (больше миллиона загрузок за месяц) на хаггине.

Датасет состоял из нескольких сотен часов, а для обучения было затрачено всего 500 GPU часов (A100 80GB).

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, китайский, испанский, хинди, итальянский и португальский

-----

Ноябрь 2024: >>936013 →
https://huggingface.co/amphion/MaskGCT
https://huggingface.co/spaces/amphion/maskgct
https://x.com/reach_vb/status/1851629504348754202

MaskGCT - очередной TTS.

Особенности:
- Клонирование голоса с нуля
- Эмоциональный TTS
- Обучен на 100 тысячах часов данных
- Синтез длинных форм
- Синтез с переменной скоростью
- Двуязычный - китайский и английский

По отзыву анона, данный TTS близок по качеству к elevenlabs.

✅ Веса в паблике
❌ Русский не поддерживается

-----

Ноябрь 2024: >>917559 →
https://github.com/SWivid/F5-TTS
https://huggingface.co/SWivid/F5-TTS
https://huggingface.co/spaces/mrfakename/E2-F5-TTS

F5-TTS - это система преобразования текста в речь (TTS), которая была обучена на 100 000 часов аудиоданных. Она обладает рядом функций, таких как клонирование голоса без предварительного обучения, контроль скорости воспроизведения, синтез эмоций, синтез длинных текстов и поддержка переключения кодов ( https://ru.wikipedia.org/wiki/Переключение_кодов ).

✅ Веса в паблике
⚠️ Базовая модель не поддерживает русский язык, но есть одобренный оригинальным разработчиком русскоязычный файнтьюн: https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md#russian

-----

Сентябрь 2024: >>883788 →
https://github.com/fishaudio/fish-speech
https://huggingface.co/fishaudio/fish-speech-1.4
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
https://huggingface.co/spaces/fishaudio/fish-speech-1
https://speech.fish.audio/#windows-setup
https://fish.audio/text-to-speech/

Fish Speech - TTS с поддержкой войсклона, на заморском /g/ твердят что он рвёт XTTSv2 в щепки.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаемые языки: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский

-----

Июль 2024 (сам проект начался в мае 2024): >>815109 →
https://github.com/2noise/ChatTTS
https://huggingface.co/2Noise/ChatTTS

ChatTTS - ещё один TTS. Модель может прогнозировать и контролировать тонкие просодические особенности, включая смех, паузы и междометия. По заявлениям автора, превосходит большинство открытых TTS-моделей в плане просодии.

Основная модель обучена на китайском и английском аудиоматериале объемом более 100 000 часов. Открытая версия на HuggingFace - это предварительно обученная модель на 40 000 часов.

✅ Веса в паблике
❌ Русский не поддерживается - поддерживаются английский и китайский

-----

Июнь 2024: >>802138 →
https://play.google.com/store/apps/details?id=org.futo.voiceinput
https://github.com/futo-org/voice-input

Приложение FUDO добавляет функции голосового ввода в ваш телефон, интегрируясь с другими приложениями и клавиатурами, которые поддерживают стандартные API голосового ввода Android. Все обработка выполняется полностью в автономном режиме на вашем устройстве, и ваши записи НИКОГДА не сохраняются и не отправляются в другие места. Приложение подключается к Интернету только тогда, когда вы решаете скачать дополнительные модели. Приложение FUTO Voice Input обеспечивает конфиденциальность ваших данных.

✅ Веса в паблике - под капотом используется опенсорсный whisper от OpenAI
✅ Нативная поддержка русского

-----

Июнь 2024: >>800694 →
https://www.camb.ai
https://github.com/Camb-ai/MARS5-TTS

MARS5 - этот TTS, который позволяет создавать речь с разнообразной интонацией, такой как спортивные репортажи или озвучка аниме, используя всего 5 секунд аудио и текст.

⚠️ В публичный доступ выложена только англоязычная модель, прочие модели доступны только онлайн: https://github.com/Camb-ai/MARS5-TTS/issues/77#issuecomment-2236018914
⚠️ Русский доступен только в веб-сервисе

-----

Апрель 2024: >>667657 →
https://research.myshell.ai/open-voice
https://github.com/myshell-ai/OpenVoice/
https://github.com/Alienpups/OpenVoice/blob/main/docs/USAGE_WINDOWS.md

OpenVoice - данная STS-система позволяет клонировать голос на разных языках с сохранением индивидуальных особенностей голоса человека - тембра, эмоций, акцента, ритма речи и т.п., даже если язык генерации не входил в тренировочный датасет системы (Zero-shot Cross-lingual Voice Cloning). В качестве референса для клонирования можно использовать небольшой отрывок голоса длиною в несколько секунд.

В апреле 2024 вышла версия OpenVoice v2 с улучшенным качеством генерации речи, нативной поддержкой шести языков (английский, испанский, французский, китайский, японский и корейский).

✅ Веса в паблике
⚠️ Заявлена поддержка любых языков, но русского не было в исходном датасете
Аноним 03/03/25 Пнд 19:43:06 #25 №1077751 
Как сейчас самый топовый войс ченджер? https://github.com/w-okada/voice-changer/tree/master этот норм?
Аноним 05/03/25 Срд 06:00:04 #26 №1080693 
Какая из локальных моделей может справиться с такой задачей? Например, заливаю ролик с озвучкой на английском языке, а ИИ переводит его на русский? В идеале озвучит, а не просто перевод в виде текста.
Подскажите в какую тему идти, если не по адресу. Спасибо
Аноним 05/03/25 Срд 08:46:01 #27 №1080758 
chrome.05.Март.2025.58.43.13.e288j.png
>>1080693
Локальных моделей не находил. ИМХО проще всего использовать интернет API от яндекса.
Аноним 05/03/25 Срд 14:36:41 #28 №1081215 
>>1080758
А локальные видео (на пк) он переводит? Или только потоковые с ютуба к примеру
Аноним 05/03/25 Срд 16:41:51 #29 №1081366 
>>1081215
Локальные модели с таким функционалом не встречал. Так что да, переводит с ютуба и твича. В принципе можно попердолится и сделать так чтоб переводил и локальные видео запущенные в браузере, но всем лень.
Аноним 06/03/25 Чтв 19:28:03 #30 №1083443 
image.png
кто может перевести с инглиша на русиш ?
елевен лабс меня нахуй посылает

вот сурсы:
https://www.youtube.com/watch?v=yyUrw8TJDHM No Photographs of Earth!
https://www.youtube.com/watch?v=BJZ9sqvH9dY Puppet Show
https://www.youtube.com/watch?v=S1D65NMBfmo Do you still believe we went to the moon?
https://www.youtube.com/watch?v=WcqKUhU0WDc Space is Fake!
https://www.youtube.com/watch?v=bS4jPjs6JPw Welcome to the Satellite Hoax

mp4 есть в этих постах # 68 69 70
https://2ch.hk/zog/res/836637.html#859519
https://2ch.hk/zog/res/836637.html#859520
https://2ch.hk/zog/res/836637.html#859521
Аноним 06/03/25 Чтв 19:38:33 #31 №1083456 
>>1083443
mp3
https://voca.ro/15rQ0QmlDPjd Space is Fake!
https://voca.ro/12G01pwbqlGo Do you still believe we went to the moon?
https://voca.ro/1exoii6p5PDW Puppet Show
https://voca.ro/11JFX4Pt942x Welcome to the Satellite Hoax
https://voca.ro/1nPGlfXcrmrO No Photographs of Earth!
Аноним 07/03/25 Птн 03:30:00 #32 №1084222 
>>1083443
Элевен платный. Для бомжей есть Яндекс
https://github.com/ilyhalight/voice-over-translation
Аноним 07/03/25 Птн 06:35:38 #33 №1084338 
image.png
>>1084222

такс, способ рабочий, даже даёт сразу качнуть дорогу
каким способом / софтом можно прикрутить дорогу к mp4, скодированному гуглом / тытрубой, без перекодирования видеодороги ? чтобы не всирать качество видео повторным кодированием
Аноним 07/03/25 Птн 07:13:13 #34 №1084350 
>>1084338
Avidenux просто выбери в настройках копирование дорожки без пережатия.
Аноним 07/03/25 Птн 07:27:55 #35 №1084357 
>>1084350
а я уже через LosslessCut https://github.com/mifi/lossless-cut всё замутила
короче,
- с высокой вероятностью перевод-дубляж бесплатно хуй где найдешь (убирание оригинального голоса + с сохранением музыки + наложение перевода новым голосом)
- поэтому самое быстрое, бесплатное и без всяких ебучих регистраций на 300 видеопереводческих сайтах - получится перевод-MVO, гайд такой:
1. https://github.com/ilyhalight/voice-over-translation - хуйня которая переведёт тытрубу и выдаст тебе mp3 с переводом бездушной говорилки без сохранения оригинальной тональности, интонаций и музыки
2. плюсом качаешь ориг видос с тытрубы + извлекаешь оттуда ориг аудиодорогу
3. в любом аудиоредакторе делаешь MVO, соединяя оригинальную дорогу с переведённой, понижая громкость оригинала, чтобы MVO слышалось лучше и не воевало с оригинальной громкостью - получаешь новую ебейшую аудиодорогу
4. дальше либо сжимаешь видео заново с подменой аудиодороги (что хуже) или подменяешь без пережатия через LosslessCut или Avidemux (что лучше)
5. получаешь норм качество для бомжей за цену интернета
Аноним 07/03/25 Птн 07:28:55 #36 №1084358 
>>1084357
>LosslessCut
тут поправочка, в релизах на гитхабе не видно релиза для винды, но на самой странице описания есть ссылка на виндузный релиз, который запускается и норм отрабатывает
Аноним 07/03/25 Птн 07:30:44 #37 №1084360 
>>1084357
весь этот вариант будет без наложения субтитров, но зато в любом браузере
а с наложенными субтитрами можно сделать через второй вариант - запустить тытрубу в яндекс браузере и запустить перевод с авто наложением субтитров + записать экран
Аноним 07/03/25 Птн 07:54:09 #38 №1084369 
>>1084357
>2.извлекаешь оттуда ориг аудиодорогу
кстати извлечь можно тоже через LosslessCut
Аноним 08/03/25 Суб 10:55:12 #39 №1085921 
>>1074507

Яндекс читалка отлично озвучивает книги, ничего лучшего не видел.
Аноним 12/03/25 Срд 00:10:35 #40 №1093303 
>>1055415
БАМП РЕКВЕСТУ
Аноним 12/03/25 Срд 20:33:04 #41 №1094864 
>>1074630
>3. Balabolka + Ivona/SAPI5
Не знаю насчет балаболки, но Ivona Reader для винды отлично справляется с большими текстами. Мне он трехсоткилобайтный текст зачитал. Единственный минус, что голос Татьяны мягко говоря заезженный и легко узнаваемый. Он может и надоесть.
Для разнообразия я юзаю alltalk_tts, с которым можно использовать любой голос, если есть хотя бы десять секунд его записи. Минус в том, что генерируется много артефактов, да и максимальная длина текста по ощущениям где-то пять килобайт.
Аноним 13/03/25 Чтв 17:41:12 #42 №1095913 
17418763453400.mp4
У КОГО ЕСТЬ ПЛАТНИК ELEVEN LABS ?

МОЖЕТЕ НАЗАД ПЕРЕВЕСТИ С ФРАНЦУЗСКОГО НА РУС ?

интересует не оригинал, а именно перевод назад
Аноним 13/03/25 Чтв 19:30:22 #43 №1095979 
Хмм, а возможна ли такая схема? При которой через интернет, человек говорит в микрофон смартфона, это всё дело идёт на пк, воспринимается rvc как входящий звук, обрабатывается соответственно, и на выход он отсылает звук обратно на смартфон через его динамик собственно. Да, пинг будет знатный, но всё же.
Аноним 13/03/25 Чтв 23:00:27 #44 №1096340 
LkEKQMrbp6.png
>>1073727
Теперь в опенсорс
https://github.com/SesameAILabs/csm
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Правда есть нюанс - это базовая модель без голосов maya и miles.
Аноним 14/03/25 Птн 02:01:33 #45 №1096506 
>>1096340
Пример войсклона
https://vocaroo.com/15c8cFYfgiiZ
https://commons.wikimedia.org/wiki/File:Alison_Balsom_voice.ogg
Аноним 14/03/25 Птн 08:44:13 #46 №1096611 
>>1095979
Да в принципе легко, но смысла нет. Производительности смартфона достаточно чтоб обрабатывать звук стационарно на смартфоне.
Аноним 14/03/25 Птн 16:00:49 #47 №1096994 
В общем, есть монолог на русском. Я хочу его переозвучить голосом фурины. Как это сделать проще всего?
comments powered by Disqus

Отзывы и предложения