Разработка локального сервиса TextToSpeech

Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! Да и на ютубе куча роликов про голосовых агентов за 10 мин. Правда никто не говорит сколько это стоит )

В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог.

И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами.

В итоге получился неплохой локальный голосовой агент, который:
- Распознаёт речь в реальном времени через WebSocket
- Использует VAD (Silero) для определения пауз
- Транскрибирует с помощью faster-whisper
- Общается через LangChain + локальные LLM модели
- Синтезирует речь обратно моим голосом
- Работает с минимальной задержкой

В общем в этот четверг начнем с разработки TTS сервиса. Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы )

Ссылка на исходники https://disk.yandex.ru/d/JcXar6TYpiCydg

Полный курс по ссылке: https://nizamov.school/courses/ai/chatgpt-1s

#1с #ai #ии #голосовойагент #whisper #langchain #fastapi #websocket #voiceai #локальныеии

Видео Разработка локального сервиса TextToSpeech канала nizamov school