Кыргызстанский стартап NineNineSix представил технологию синтеза речи мирового уровня

Кыргызстанский стартап NineNineSix представил технологию синтеза речи мирового уровня

Кыргызстанский стартап NineNineSix представил KaniTTS — новую модель синтеза речи, которая по качеству и скорости работы сопоставима с решениями ведущих мировых компаний, таких как ElevenLabs, OpenAI, Google, Microsoft и Hume.Ai. Об этом сообщает Парк высоких технологий КР.

Модель KaniTTS способна создавать реалистичную, эмоционально выразительную речь в реальном времени и уже названа экспертами одной из самых передовых open-source разработок в мире в области генерации голоса.

Модель разработали кыргызстанцы Уланбек Абдуразаков, Денис Павлов и Нурсултан Бакашов. KaniTTS уже скачали более 15 тысяч раз на Hugging Face — крупной платформе для ИИ-моделей и датасетов, где разработчики и компании выкладывают, находят и запускают модели в пару кликов.

Что делает KaniTTS уникальной

KaniTTS — не просто программа, которая превращает текст в голос. Это система, способная понимать смысл, интонацию, паузы и эмоции, делая речь максимально естественной.

Главное достижение — скорость: модель генерирует 15 секунд звука всего за 1 секунду, что делает ее пригодной для реального времени: от голосовых ассистентов и чат-ботов до игр, фильмов и образовательных приложений. И все это работает на потребительском компьютере с NVIDIA RTX 5080, без каких-либо топовых серверных ускорителей.

Модель уже говорит на английском, немецком, корейском, арабском, китайском и испанском языках. Сейчас команда готовит к релизу кыргызский и японский языки. 

Кроме того, KaniTTS полностью открыта, выложена в свободный доступ с открытым исходным кодом (лицензия Apache 2.0), чтобы разработчики и исследователи со всего мира могли использовать и дорабатывать ее бесплатно.

«Мы хотели создать не просто технологию, а инструмент, который демократизирует доступ к голосовому AI. Теперь не только крупные корпорации, но и небольшие команды или исследователи смогут использовать технологию, которая раньше стоила миллионы», — говорят в NineNineSix.

В ближайшее время модель научат клонировать голоса. Voice cloning: технология, которая по короткому образцу голоса создает синтетическую копию тембра, интонаций и манеры речи, чтобы озвучивать любой текст «тем же» голосом.

Прорыв из Кыргызстана в мировую AI-индустрию

Запуск KaniTTS — знаковое событие для всей IT-экосистемы Кыргызстана. Это первая модель такого уровня, созданная в стране, и она уже получила внимание международных сообществ разработчиков.  

Появление подобных продуктов показывает, что Кыргызстан способен создавать технологии мирового класса — не только пользоваться, но и формировать будущее AI-индустрии. 

«KaniTTS — доказательство того, что талант, амбиция и правильная среда могут рождать решения мирового уровня. Мы гордимся тем, что Парк высоких технологий стал площадкой, где такие идеи становятся реальностью», — отметили в ПВТ.

Где применяется модель

  • Виртуальные ассистенты и чат-боты.
  • Игровая индустрия и озвучка персонажей.
  • Медиаконтент и подкасты.
  • Образовательные платформы.
  • Доступность и технологии для людей с нарушениями зрения.
NineNineSix — кыргызстанский стартап, занимающийся исследованиями и разработкой систем искусственного интеллекта, генеративных моделей и технологий взаимодействия человека и машины. Команда специализируется на создании высокопроизводительных open-source решений в области речи, языка и мультимодальных систем.

Еще статьи из категории

Еще статьи из категории