Распознать речь в текст

Для того, чтобы распознать речь и перевести её из аудио или видео в текст, существуют программы и расширения (плагины) для браузеров. Однако зачем всё это, если есть онлайн сервисы? Программы надо устанавливать на компьютер, более того, большинство программ распознавания речи далеко не бесплатны.

Основной функционал сервиса:

  • поддержка 30 языков, среди которых присутствуют даже венгерский, турецкий, арабский, китайский, малайский и пр.
  • автораспознавание произношения знаков препинания, перевода строки и пр.
  • возможность интеграции со страницами любого сайта
  • наличие плагина для Google Chrome (называется «VoiceRecognition»)

В деле распознавания речи самое важное значение имеет именно качество перевода речи в текст. Приятные «плюшки» и вохможности – не более чем хороший плюс. Так чем же могут похвастаться в этом плане оба сервиса?

Сравнительный тест сервисов

Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты. Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой! Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов ). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!

Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

Друзья, понравился ли Вам данный сервис? Знаете ли Вы более качественные аналоги? Делитесь своими впечатлениями в комментариях.

Сергей, очень признателен за ссылки на приложения распознавания речи.
Для меня тема по прежнему актуальна. Попробовал Speechpad.ru.
Первое впечатление — замечательный продукт, полностью соответствующей моей потребности.
При моей тугоухости — просто панацея. Передаю микрофон собеседнику и в своем смартфоне вижу текст, практически без искажений. Давно отслеживаю прогресс Google translate для получения титров на youtube. Однако здесь эта технология реализована в очень удачной форме для использования людьми имеющими большие проблемы со слухом.

Очень рад, что информация из статьи Вам пригодилась!

Уважаемый автор статьи, хочу спросить Вашего совета или рекомендации по интересующей меня жизненно важной теме. Я слабослышащий (проблемы распознавания речи), современные цифровые са проблему не решают, начал искать подходящее приложение для гаджета (или бм специализированный гаджет) позволяющее видеть на экране гаджета в on line речь собеседника (как непосредственного, так и контактирующего по каналам связи (телефон, WiFi и пр.).
Что мне можете посоветовать ?
Марк Михайлович
Надеюсь на конструктивный ответ.

С подобными устройствами и программными средствами не знаком.

Посмотрите приложение Яндекс.Разговор для смартфона на Android. Его ещё в 2015г. запустили.

ЕWA , Speechpad.ru работает с Latviešu, Lietuviešu (Латышский, Литовский) и другими языками. Но надо диктовать чётко и медленно, так как в школе диктанты учителя диктуют детям. И микрофон надо хороший, тогда всё тип топ.

Однако,если темп речи средний,то программа ничего не распознает. Обидно(

Вообще то я скачал всё это для того чтобы иметь возможность РАСПОЗНАВАНИЯ звучащего видео тогда когда язык его мне неизвестен. Через гугл мне долго предлагали всякую дрянь, которая якобы может это сделать. Вот кажется и эта не работает.

Что вы скачивали, если речь в статье идет про онлайн сервисы?

Сергей, скажите, пожалуйста, можно ли получить код, чтобы вставить ваш продукт на свой сайт для некоммерческого использования? Заодно мы сможем провести многоуровневое тестирование (если надо, конечно)

Татьяна Борисовна, сервисы распознавания речи это не мой продукт. Я всего лишь пишу обзоры. Обратитесь к владельцу этих ресурсов.

А если сервисом пользоваться для написания книг, то авторские права идут лесом, наверное?

Какая тут взаимосвязь вообще?

Для написания книг используйте VOCO, работает без доступа к сети. Если успеете написать книгу за 30 дней, тоже получится бесплатно.

Уважаемый Сергей. А нет ли какого-нибудь бесплатного онлайн сервиса преобразования аудио в текст без браузера Гугл Хром? Я боюсь скачивать этот браузер, у меня уже один комп накрылся, потому что там какой-то скрипт проблемный. Помогите, пожалуйста.

Никакой проблемы с Гугл Хромом нет — скачивайте спокойно.

Смените хром на его аналог без шпионских модулей — Comodo Dragon.

Это приложение является средством считывания речи/голоса Что это значит? Это значит, что Вы можете просто надиктовать текст не пошевелив пальцем – и система запишет его.

Приложение имеет такие функциональные особенности:

  • Оно бесплатно и доступно онлайн
  • Не требует загрузок, установки или регистрации. Поддерживает разные платформы
  • Имеет мультиязычную поддержку
  • Вы можете поставить на паузу или остановить диктовку (будет сохранено положение последнего слова)
  • Распознает голосовые команды для знаков пунктуации: например, скажите "запятая" – и синтезатор напечатает ","
  • Умное проставление заглавных букв
  • Вы можете сохранять, копировать, распечатывать или отправлять надиктованный текст.

Для кого предназначен этот инструмент?

Средство распознавания речи предназначено для тех, кто испытывает проблемы со здоровьем: глазами и/или спиной. Вы можете просто диктовать текст лежа на диване и не напрягая глаз.

Также это средство предназначено для людей, которые печатают медленно или просто слишком ленивы, чтобы печатать 🙂

Обнаружение и устранение проблем

Могут возникнуть следующие проблемы:

  • Аппаратная проблема с микрофоном
  • Браузер не поддерживает синтез речи (последняя версия "Chrome" поддерживает его)
  • Нет разрешения доступа к микрофону
  • Браузер слушает не тот микрофон

Для решения проблемы с разрешением доступа к микрофону нажмите на иконку камеры в адресной строке браузера (она появится, когда Вы нажмете на кнопку "Воспроизвести"), далее выставьте разрешение для использования микрофона и выберите необходимый микрофон из выпадающего списка.

В случае каких-либо других проблем, просто попробуйте перезагрузить браузер несколько раз или свяжитесь с нами, детально описав суть проблемы.

Использовать голосовой набор не всегда удобно, если это не запросы в поисковики. В шумной обстановке не получается прослушать запись голосового сообщения, некоторые люди в принципе лишены такой возможности. Если надиктованная информация нужна в печатном виде, войсы приходится переслушивать и перепечатывать, это тратит время и силы. Расшифровать интервью и аудиодорожку к видео тоже хорошо бы не собственными руками.

Зачем может понадобиться конвертировать аудио в текст

  1. Расшифровать запись длинного интервью или подкаста.
  2. Сделать транскрибацию озвучки видео.
  3. Надиктовать себе идей, пока есть вдохновение.
  4. Понять, о чем говорят в голосовом сообщении, когда нет возможности послушать.
  5. Общаться с людьми с особенностями слуха.

Для помощи в расшифровке аудио в текст есть сервисы. Мы составили список из программ и ботов в социальных сетях, их существует больше, но мы выбрали самые удачные. Некоторые работают с русскими, некоторые с иностранными текстами. Всеми сервисами из подборки можно пользоваться бесплатно, но в некоторых нужно будет зарегистрироваться.

Сервисы для перевода речи в текст

Блокнот для речевого ввода

Возможности: перевод диктуемых слов в текст, транскрибирование речи из аудио и видео с Ютуба.

Сервис автоматически расшифровывает произносимые слова по ходу надиктовки, причем умеет распознавать знаки препинания, если отметить пункт «Заменять слова пунктуации». Мы надиктовали ему «Привет восклицательный знак мы тестируем запятая как справляется сервис с расшифровкой текста точка» и так далее, самые часто употребляемые знаки он распознал, но не справился с многоточием, тире, скобками и кавычками.

Тест сервиса на знаки препинания

Транскрибирование текстов из загруженных аудиозаписей и из видео с Ютуба происходит в реальном времени при воспроизведении. Загружаем файл в сервис или указываем > Сервис транскрибирует речь ведущего

Бесплатно сервис работает с транскрибированием онлайн без ограничений, а также с распознаванием голоса на аудио и видео не дольше 15 минут.

Сервис не идеальный, но работает бесплатно, прост в управлении и не требует регистрации. Результат расшифровки может быть довольно чистым — всё зависит от дикции и скорости речи. Лишний повод потренироваться, если диктуете для себя, но нужно привыкнуть называть знаки препинания, если не хочется расставлять их потом.

Инструмент полезен, когда нужно надиктовать себе материал для текста или в заметку, расшифровать подкаст или интервью. Его можно включить фоном в процессе интервью, чтобы сервис расшифровывал речь в реальном времени.

Расширение «Голосовой ввод текста» для Google Chrome

Возможности: диктовка текста в соцсетях, строке поиска и на сайтах. Диктовка в приложениях Windows,Linux и Mac.

От сервиса «Голосовой блокнот» есть браузерное расширение для переписки в соцсетях и речевого ввода текста на сайтах, а еще дополнительный модуль для использования в приложениях Windows.

Расширение для соцсетей и форумов

Расширение умеет переводить голос в текст: можно диктовать поисковые запросы, сообщения в социальных сетях и на форумах.

Попробуем надиктовать сообщение в ВКонтакте. Открываем диалог, кликаем правой кнопкой мыши и выбираем расширение.

Выбор расширения по клику правой кнопкой

Ввод подсвечивается красным, в браузере появляется окно разрешения доступа к микрофону. Разрешаем доступ, диктуем сообщение, называя знаки препинания: « Настя запятая привет восклицательный знак как твои дела вопросительный знак» , готовый текст отображается в поле ввода.

Готовый текст сообщения

Сложно привыкнуть диктовать знаки препинания, на их озвучивание уходит много времени, но зато не нужно расставлять запятые вручную.

Результат расшифровки зависит от дикции говорящего, но в целом расширение для ввода хорошо справляется.

Расшифровка в любых приложениях Windows, Linux и Mac

Дополнительный бесплатный модуль для интеграции открывает тестовый период режима, который позволяет вводить текст напрямую в любые браузеры и приложения Windows: Word, Excel, Google Docs и другие — в любые места, где используется клавиатура. Для этого нужно зарегистрироваться в Голосовом блокноте и установить модуль.

Как установить модуль интеграции Голосового блокнота:

Оцените статью
Ремонт оргтехники
Добавить комментарий