Speechify: Новый голос для вашего браузера

Speechify, известный ранее как помощник для прослушивания статей и документов, расширяет функционал своего Chrome-расширения. Теперь оно включает возможности голосового ввода текста и интеллектуального голосового ассистента, способного отвечать на вопросы.

В последнее время наблюдается бурный рост инструментов, работающих с голосом, что обусловлено значительным улучшением технологий распознавания речи. Speechify активно включился в этот тренд, представив собственный инструмент для диктовки с поддержкой английского языка. Подобно другим аналогичным решениям, функция голосового ввода от Speechify способна корректировать ошибки и удалять слова-паразиты.

В ходе краткого тестирования, продлившегося чуть больше суток, стало очевидно, что инструменту Speechify есть куда расти. Например, он отлично справляется с работой в Gmail и Google Docs, однако на платформах вроде WordPress возникали сложности с активацией и стабильной работой голосового ввода. Представители компании заверили, что оптимизация для популярных сайтов будет добавляться постепенно.

Что касается точности, то уровень ошибок словесного распознавания оказался выше, чем у некоторых конкурентов, таких как Wispr Flow, Willow и Monologue. Speechify отмечает, что их модель быстро обучается по мере использования, и процент ошибок будет неуклонно снижаться.

Кроме того, стартап запускает диалогового голосового ассистента, интегрированного в боковую панель браузера. Вы сможете задавать ему вопросы о содержимом веб-страницы, например: «Каковы три основные идеи?» или «Объясни это проще».

Хотя ChatGPT и Gemini также предлагают разговорные режимы, Speechify подчеркивает, что в их приложениях голосовое взаимодействие часто является второстепенным. По мнению стартапа, их инструмент ставит голос во главу угла. «Мы верим, что чат всегда будет основным способом взаимодействия в ChatGPT и Gemini при открытии приложений. Таковы ожидания их пользователей. Голос же будет второстепенным, а зачастую и вовсе второстепенным для ChatGPT и Gemini. Из многолетнего опыта разработки Speechify мы знаем, что значительная часть рынка, включая наших пользователей, желает, чтобы голос был основным, стандартным режимом при каждом обращении к приложению и общении с ИИ», — поделился Рохан Павулури, главный операционный директор компании, в электронном письме TechCrunch.

Стоит отметить, что ассистент Speechify в настоящее время не работает с браузерами, имеющими встроенные боковые панели помощников, такими как Atlas от OpenAI, Comet от Perplexity и Dia. Однако стартап не слишком обеспокоен этим, так как расширение в основном ориентировано на Chrome и его обширную пользовательскую базу.

Speechify планирует постепенно интегрировать функции голосового ввода и голосового ассистента во все свои приложения для настольных компьютеров и мобильных устройств.

Стартап также намерен разработать агентов, способных выполнять задачи от имени пользователя. Хотя полный план развития не раскрывается, в качестве примера приводится возможность совершать звонки для записи на прием или ожидания на линии в службе поддержки клиентов. Над схожими задачами работают и другие компании, такие как Truecaller и Cloacked.