Voicebox — это настольное приложение с открытым исходным кодом, которое позволяет синтезировать и клонировать любой голос с помощью модели Qwen3‑TTS. Все, что создаётся с помощью Voicebox, выполняется локально на вашем ПК, так что вам не придётся зависеть от токенов или платных подписок. В Voicebox вы можете клонировать голоса всего по нескольким секундам эталонного аудио (максимум 30 секунд), используя возможности Qwen3‑TTS для высокоточной передачи тона, тембра и акцента. Чтобы использовать эталонное аудио, сначала необходимо загрузить голосовой файл или записать его напрямую с микрофона. После этого вам нужно сообщить приложению, что вы сказали, или воспользоваться встроенной функцией транскрибации, чтобы преобразовать это в текст. Имея только эту информацию, приложение сохранит профиль, и вы затем сможете использовать его для генерации аудио, не переобучая его. После того как профиль создан, вы пишете текст, который должен произнести голос, и Voicebox генерирует соответствующее аудио. Это полезно, например, для создания переводов текстов на другие языки с сохранением вашего тона речи. Это также позволяет вам делать забавные самодельные дубляжи или даже озвучивать видеоигры. Кроме того, вы можете экспортировать каждый голосовой профиль и отправить его кому-нибудь, чтобы он мог создавать с его помощью аудио на своём ПК. Voicebox нативно интегрирует Whisper для расшифровки входного аудио и синхронизации текста с сгенерированным голосом. Это позволяет вам напрямую редактировать текст на временной шкале и видеть, как меняется произношение, что очень полезно, если вы хотите исправить ошибки, скорректировать паузы или отредактировать диалоги, сохраняя при этом тот же клонированный голос. Он также включает захват системного звука, так что вы можете записывать звук, исходящий от вашего ПК (например, из игры или разговора), и использовать его в качестве образца для клонирования голоса или как основу для звуковой сцены. Помимо своего графического интерфейса, Voicebox создан для интеграции в другие проекты: он предлагает REST API и локальный сервер, который можно запустить одним нажатием, чтобы использовать генерацию голоса в играх, приложениях или ИИ-агентах. Из этого API вы можете отправлять текст, выбирать голосовые профили и получать сгенерированное аудио в стандартном формате, что позволяет автоматизировать озвучивание, диалоги или голосовые уведомления без необходимости обращаться к облачным сервисам. Приложение создано с использованием Tauri, Rust и Python, что делает его сравнительно лёгким по сравнению с решениями на базе Electron и позволяет запускать его локально без серьёзных требований к оборудованию. Тем не менее, производительность будет зависеть от вашего GPU/CPU и от того, как модель Qwen3-TTS настроена на вашем компьютере, поскольку вся обработка выполняется на вашем собственном оборудовании. Помимо генерации аудио, Voicebox имеет раздел для создания историй с использованием голосов, где можно ввести, что вы хотите, чтобы произошло в истории. Это идеально подходит для создания контента, чтобы развлечь ваших детей, или даже для рассказывания шуток разными голосами. При тестировании Voicebox на моём ПК я обнаружил, что очень легко клонировать голос всего по нескольким секундам аудио, сохранять профиль, а затем создавать несколько текстовых фрагментов, чтобы собрать на временной шкале небольшой диалог. Однако некоторые функции отсутствуют, например возможность добавить больше аудио или выполнить расширенную настройку голоса, чтобы сделать его звучание более реалистичным. • Что мне понравилось больше всего: что всё клонирование и синтез выполняются локально, без облака и подписки. • Что бы я улучшил: возможность настраивать голоса и использовать несколько образцов, чтобы итоговое сгенерированное аудио звучало лучше. Кроме того, в зависимости от мощности вашего ПК, на создание контента может уйти несколько минут. Есть более лёгкие модели, которые можно использовать для генерации контента, но чем сложнее модель, тем лучше будет результат. Скачайте Voicebox и начните использовать студию синтеза и клонирования голоса, которая полностью работает на вашем компьютере, с поддержкой Qwen3‑TTS и Whisper. ✓ Хотите клонировать голоса и синтезировать речь, не полагаясь на облачные сервисы и не платя за подписки ✓ Работаете с подкастами, дубляжом, играми или ИИ‑агентами и вам нужен таймлайн‑редактор, чтобы собирать голосовые сцены ✓ Предпочитаете локальное, приватное и открытое решение, которое можно интегрировать в другие проекты












