xAI 2 мая на официальном блогe представила функцию Grok Custom Voices. Пользователям достаточно записать в консоли xAI около 1 минуты естественного голоса: система завершит обработку примерно за 2 минуты и выдаст персонализированную голосовую модель, которую можно использовать для TTS и Voice Agent API. Параллельно были запущены модель Grok 4.3 и интерфейс Voice Library, который агрегирует все голосовые ресурсы. Custom Voices также включает механизм двухэтапной проверки личности, чтобы предотвратить клонирование чужих голосов.

Функция: запись 1 минута, генерация 2 минуты, интеграция TTS и Voice Agent API

Пользователи записывают в консоли xAI около 1 минуты естественной речи, а затем в фоновом процессе по очереди выполняются: (1) проверка личности, (2) обработка голоса, (3) выпуск модели. В течение общих 2 минут пользователь получает готовую голосовую модель. Custom Voices наследует все возможности TTS: speech tags (голосовые теги), многоязычный вывод, а также REST и WebSocket-стриминг; её можно напрямую использовать с TTS-эндпоинтом xAI или Voice Agent API для интерактивного диалога с агентом.

Одновременно вышел Voice Library — интерфейс в консоли xAI для единого управления голосовыми ресурсами: он позволяет просматривать, предварительно прослушивать и администрировать все голоса, созданные пользователями, а также предварительно подготовленные, чтобы не приходилось распределять ресурсы по разным интерфейсам. Предзагруженная голосовая библиотека предлагает более 80 голосов и поддерживает 28 языков.

Двухэтапная проверка личности: предотвращение клонирования чужих голосов

Перед генерацией голоса в Custom Voices предусмотрены два этапа проверки личности: сначала пользователь зачитывает проверочную фразу, а система в режиме реального времени расшифровывает этот фрагмент; затем система отдельно рассчитывает speaker embedding (вектор признаков говорящего) по проверочной фразе и по полному аудиозаписанному материалу и сравнивает, принадлежат ли они одному и тому же человеку. Только после прохождения обоих этапов запускаться будет процесс выпуска голосовой модели.

xAI однозначно заявляет: пользователи не могут клонировать голос с помощью уже существующих записей и не могут клонировать чужие голоса. Эта конструкция исключает сценарий «получить запись чужого публичного выступления и просто скопировать её», ограничивая клонирование рамками «пользователь сам записывает голос в реальном времени» — то есть одним входным каналом. Для наблюдателей, которые следят за темами злоупотреблений генерацией AI-голоса (например, телефонное мошенничество, озвучка без разрешения), это решение — конкретный ответ xAI на проблему подделок.

Дальнейшее наблюдение: синхронный релиз с Grok 4.3, расширение темпа Voice Library

Custom Voices и Grok 4.3 вышли в один день; xAI привязала «обновление модели + полное раскрытие линейки голосовых инструментов» к той же волне анонсов. Следующая точка наблюдения — темп расширения предзагруженной голосовой библиотеки Voice Library с отметки 80 голосов и сможет ли карта из 28 языков дополнительно охватить такие малые языки, как традиционный китайский. Ещё одна точка наблюдения — будут ли опубликованы конкретные примеры внедрения Voice Agent API, особенно интеграции для сценариев автоматизации колл-центров, записи podcast и многоязычного обслуживания клиентов.

Эта статья xAI Grok представила Custom Voices: клонирование за 2 минуты, двухэтапная проверка личности впервые появилась на Chain News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

ВМС США заключают контракт с Domino Data Lab почти на 100 миллионов долларов на использование ИИ для обнаружения мин в проливе Ормуз

Инструменты и приложения ИИ

Согласно Xinhua News Agency, недавно командование ВМС США по системам информационной войны подписало контракт с базирующейся в Сан-Франциско компанией Domino Data Lab, занимающейся ИИ, чтобы закупить и развернуть программные решения на основе машинного обучения. Контракт, оцениваемый почти в $100 миллионов при полном исполнении, направлен на

GateNews1ч назад

Настольная версия OpenAI Codex получает функцию с «питомцем»: 3 подсказки статуса, вывод по языку использования

Инструменты и приложения ИИ

Настольная версия OpenAI Codex недавно добавила функцию «Питомцы» (Pets), позволяющую разработчикам во время кодинга в реальном времени отслеживать статус задач Codex через всплывающих анимированных персонажей. Согласно официальной документации OpenAI, оверлей с питомцами будет переключаться в зависимости от текущего состояния Codex на 3

ChainNewsAbmedia4ч назад

MoonPay запускает MoonAgents Card — виртуальную Mastercard для AI-агентов — в пятницу

Партнёрства и экосистема ИИ-агент Инструменты и приложения ИИ

По данным The Block, MoonPay в пятницу запустила MoonAgents Card — виртуальную дебетовую карту Mastercard. Карта предназначена как для AI-агентов, так и для пользователей: она конвертирует стейблкоины в фиат непосредственно в момент оплаты и позволяет тратить средства у любого онлайн-торговца по всему миру, который принимает Mastercard. Карточка i

GateNews14ч назад

Разбор Berkeley GEPA: ИИ может научиться новым задачам без обновления весов, при этом затраты на обучение в 35 раз ниже, чем у RL

Инструменты и приложения ИИ

GEPA — это новый подход к обучению ИИ, предложенный командой UC Berkeley: без обновления весов, без необходимости в GPU. Метод работает за счет того, что рефлексирующий LLM читает полные записи заданий и переписывает подсказки, а не просто дает обратную связь по оценкам. В шести задачах средняя победа над GRPO составила 6%, а максимум — 20%; число train rollouts сокращено в 35 раз. Интегрированный с DSPy Full Program Adapter заметно улучшает математические и мультимодальные рабочие процессы — 93% точности. Код с открытым исходным кодом; среди авторов — Matei Zaharia и другие.

ChainNewsAbmedia22ч назад

OpenAI запускает Codex Pets — AI-ориентированного виртуального компаньона с пользовательской генерацией

Новости индустрии ИИ Инструменты и приложения ИИ

Согласно Beating, OpenAI добавила новую функцию «Codex Pets» в настольное приложение Codex, позволяющую пользователям создавать и взаимодействовать с анимированным виртуальным питомцем. Пользователи могут активировать питомца, введя /pet в редакторе. Функция работает как индикатор состояния агента, отображая a

GateNews23ч назад

MoonPay запускает карту MoonAgents для AI-агентов в сети Mastercard

Партнёрства и экосистема ИИ-агент Инструменты и приложения ИИ

По данным The Block, MoonPay запустила MoonAgents Card в пятницу — виртуальную дебетовую карту Mastercard, которая в реальном времени конвертирует стейблкоины в фиат непосредственно в момент оплаты. Карта выпускается через Monavate — регулируемую платежную платформу и основного участника Mastercard — в партнерстве с Exodus M

GateNews05-02 01:11

комментарий

0/400

Нет комментариев