OpenAI представила новые голосовые функции для реального взаимодействия
OpenAI объявила в четверг, что её API теперь включает ряд новых функций голосового интеллекта, разработанных для помощи разработчикам в создании приложений, способных вести разговоры, транскрибировать и переводить общение с пользователями.
nnНовая модель компании GPT-Realtime-2 представляет собой ещё одну голосовую модель, созданную для формирования реалистичной вокальной симуляции, способной вести диалог с пользователями. В отличие от своего предшественника (GPT-Realtime-1.5), эта модель построена на основе рассуждений уровня GPT-5, которые, по словам OpenAI, были созданы для обработки более сложных запросов пользователей.
nnКомпания также запускает GPT-Realtime-Translate, который, как следует из названия, предназначен для предоставления услуг реального времени перевода, которые "держат темп" в разговоре с пользователем. Эта функция включает более 70 языков входных данных (то есть языков, которые она может воспринимать) и 13 языков выходных данных (языков, которые она передаёт говорящему).
nnНаконец, компания также представила новую возможность транскрибации - GPT-Realtime-Whisper, которая даёт пользователям возможность живого преобразования речи в текст, фиксируемое по мере возникновения взаимодействий.
nn"Совокупно модели, которые мы запускаем, продвигают аудио в реальном времени от простой ответной реакции к интерфейсам голосового типа, которые действительно могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и предпринимать действия по мере развития разговора", - говорится в заявлении компании.
nnДля кого эти обновления будут полезны? Компании, желающие расширить возможности обслуживания клиентов, являются очевидной целевой аудиторией. Однако OpenAI также отмечает, что её новые функции помогут в широком спектре областей, включая образование, медиа, мероприятия и платформы для создателей контента, среди прочих.
nnНесмотря на полезность этих инструментов с корпоративной точки зрения, также представляется вероятным, что они могут быть использованы не по назначению. Компания сообщила, что она встроила защитные механизмы для предотвращения злоупотребления новыми функциями для создания спама, мошенничества или других форм интернет-злоупотреблений. В систему внедрены определённые триггеры, чтобы "разговоры можно было прервать, если они обнаруживаются как нарушающие наши руководящие принципы по вредному контенту", - сообщила OpenAI.
nnВсе новые голосовые модели включены в Realtime API от OpenAI. Translate и Whisper оплачиваются за минуту использования, в то время как GPT-Realtime-2 оплачивается в зависимости от потребления токенов.
Комментарии
Комментариев пока нет.