Французский стартап в сфере искусственного интеллекта Mistral AI представил открытую модель распознавания речи под названием Voxtral, присоединившись к конкуренции на аудиорынке.
Инструмент рассчитан на бизнес и предназначен для внедрения в производственные процессы. Его позиционируют как решение для создания по-настоящему практичного речевого интеллекта.
Другими словами, предполагается, что разработчикам больше не придется выбирать между:
дешевой и открытой системой, которая плохо справляется с транскрипцией и не понимает сказанное;
хорошо работающей, но закрытой и более дорогой моделью.
Компания утверждает, что Voxtral предлагает доступную альтернативу, которая стоит «менее половины» по сравнению с аналогами.
Модель способна транскрибировать до 30 минут аудио и понимать до 40 минут, позволяет задавать вопросы о содержимом, создавать резюме или превращать голосовые команды в действия вроде вызова API или запуска функций в реальном времени.
Voxtral поддерживает несколько языков и способна понимать английский, испанский, французский, португальский, хинди, немецкий, нидерландский и итальянский.
Компания предлагает два варианта нейросети.
Voxtral Small — содержит 24 млрд параметров и предназначена для запуска в производственных масштабах;
Voxtral Mini — имеет 3 млрд параметров и подходит для локальных развертываний.
Дополнительно существует сверхдешевая, упрощенная и быстрая версия Voxtral Mini Transcribe, оптимизированная исключительно для транскрипции.
Voxtral можно протестировать бесплатно на Hugging Face или в чат-боте Le Chat. Интеграция API стоит от $0,001 за минуту.
Mistral AI считается флагманским ИИ-стартапом Европы, который способен конкурировать с американскими и китайскими фирмами. В феврале он выпустил мобильное приложение на iOS и Android.