ChatGPT: Голосовой режим стал умнее и нагляднее

OpenAI представила значительное обновление для своего голосового режима ChatGPT, делая взаимодействие с ИИ на веб-платформе и в мобильном приложении более интуитивным и информативным. Теперь пользователи могут общаться с ChatGPT голосом непосредственно в окне текущего чата, одновременно наблюдая за текстовой расшифровкой диалога и визуальными материалами, иллюстрирующими ответы модели.

Запустить голосовую сессию стало проще простого: достаточно нажать на иконку «волновой формы» рядом с полем ввода текста. Вместо привычного интерфейса с «орбитами», голосовые чаты теперь интегрированы в основной поток беседы. В демонстрационном видео, опубликованном OpenAI, показано, как ChatGPT не только выводит транскрипцию разговора, но и отображает карту с популярными пекарнями и фотографии выпечки, когда речь заходит о гастрономических темах.

Для тех, кто предпочитает прежний, отдельный интерфейс голосового режима, предусмотрена возможность переключения. Это можно сделать, активировав опцию «Separate mode» (Отдельный режим) в настройках голосового режима ChatGPT.

Интеграция визуальных ответов с голосовыми — закономерное развитие мультимодальных способностей ChatGPT. Поскольку модель уже умеет обрабатывать запросы, включающие голос и изображения или видео, логично ожидать, что голосовые ответы также будут обладать подобным уровнем детализации. Google, к слову, экспериментирует с похожими подходами, стремясь сделать Gemini Live более выразительным, в том числе с помощью наложения элементов на видео в реальном времени. Хотя новая функция ChatGPT не обладает такой же реактивностью, она, безусловно, делает голосовые беседы с искусственным интеллектом более содержательными и увлекательными.