- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Разработка локального сервиса TextToSpeech
Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! Да и на ютубе куча роликов про голосовых агентов за 10 мин. Правда никто не говорит сколько это стоит )
В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог.
И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами.
В итоге получился неплохой локальный голосовой агент, который:
- Распознаёт речь в реальном времени через WebSocket
- Использует VAD (Silero) для определения пауз
- Транскрибирует с помощью faster-whisper
- Общается через LangChain + локальные LLM модели
- Синтезирует речь обратно моим голосом
- Работает с минимальной задержкой
В общем в этот четверг начнем с разработки TTS сервиса. Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы )
Ссылка на исходники https://disk.yandex.ru/d/JcXar6TYpiCydg
Полный курс по ссылке: https://nizamov.school/courses/ai/chatgpt-1s
#1с #ai #ии #голосовойагент #whisper #langchain #fastapi #websocket #voiceai #локальныеии
Видео Разработка локального сервиса TextToSpeech канала nizamov school
В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог.
И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами.
В итоге получился неплохой локальный голосовой агент, который:
- Распознаёт речь в реальном времени через WebSocket
- Использует VAD (Silero) для определения пауз
- Транскрибирует с помощью faster-whisper
- Общается через LangChain + локальные LLM модели
- Синтезирует речь обратно моим голосом
- Работает с минимальной задержкой
В общем в этот четверг начнем с разработки TTS сервиса. Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы )
Ссылка на исходники https://disk.yandex.ru/d/JcXar6TYpiCydg
Полный курс по ссылке: https://nizamov.school/courses/ai/chatgpt-1s
#1с #ai #ии #голосовойагент #whisper #langchain #fastapi #websocket #voiceai #локальныеии
Видео Разработка локального сервиса TextToSpeech канала nizamov school
Комментарии отсутствуют
Информация о видео
7 ноября 2025 г. 9:28:22
02:21:04
Другие видео канала




















