Голосовое распознавание состояния Linux

Я трачу много времени на исследования статей, и нередко я думаю о предмете статьи, когда хожу на вокзал или когда и вообще.

Однажды вечером, прогуливаясь в 1,5 милях от станции, я подумал: «Было бы неплохо, если бы я мог записать то, что я хотел сказать, а затем автоматически ее транскрибировать в текстовый файл, который я мог бы редактировать и форматировать позже», ,

Я потратил много долгих часов на различные варианты, доступные для распознавания голоса и диктовки, включая запись непосредственно через микрофон с использованием программного обеспечения диктовки в Linux, запись файла в формат MP3 или WAV и преобразование его через командную строку, а также использование Chrome и приложения для Android.

Эта статья освещает мои результаты после нескольких дней каторжных работ.

Параметры Linux

Попытка найти диктовку и программное обеспечение для распознавания голоса в Linux не так проста, как могло бы быть, и доступные варианты не настолько умны.

На этой странице википедии есть список возможных вариантов, включая CMU Sphinx, Julius и Simon.

Я использую SparkyLinux, который основан на тестировании Debian на данный момент, и могу сказать, что единственным пакетом распознавания голоса, доступным в репозиториях, является Sphinx.

На родные программы Linux, которые я в конечном итоге пытался, были PocketSphinx, который я использовал для преобразования WAV-файлов в текст и Freespeech-VR, который является приложением python, которое позволяет записывать прямо с микрофона.

Я также попробовал несколько приложений Chrome, включая VoiceNote II и Dictanote.

Наконец, я попробовал приложения для Android «Диктовка и электронная почта» и «Talk And Talk Dictation».

Freespeech-VR

Freespeech-VR недоступен в стандартных репозиториях. Я загрузил файлы здесь.

После загрузки и извлечения содержимого zip-файла я открыл терминал и перешел в папку, в которую были извлечены файлы. Я набрал следующую команду, чтобы открыть freespeech-vr.

sudo python freespeech-vr

У меня есть пара наушников с довольно приличным микрофоном и довольно четким южным английским акцентом.

В окне freespeech-vr появился следующий текст:

Добро пожаловать в единичные собаки исхода Сегодня Уверяем, как управляемые тесты нужно проверять Когда на текст Используется системный способ Речь я по одному каждый был только в а Чтобы надеяться на то, чтобы остаться и на одно из цыплят золотистое как система Ea, когда это мое имя, следующий из них вызывает телефон. Этот файл. Достаточно достаточно, чтобы телефон делал в Hands-Space. Сфинкс. Going. Это не телефоны, которые будут доступны. Обученные и инструменты. Использование речи. Когда вы закончите. Say A used file Last a рассказ А И использовать по Когда это так, как успех Этот Linux был таким, Как избежать

Я хотел бы сейчас сказать, что это не сайт Unit Of Dogs, и ни в коем случае я не упоминал ничего общего с Золотыми цыплятами. Я действительно пытался описать процесс использования программного обеспечения для распознавания голоса.

Я пробовал программное обеспечение несколько раз, включая изменение высоты тона и скорости, но точность была плохой.

PocketSphinx

PocketSphinx может использовать WAV-файл и преобразовывать его в текст с помощью командной строки. PocketSphinx доступен через репозитории Debian и должен быть доступен для большинства дистрибутивов.

Основная проблема, которую я нашел с PocketSphinx, заключается в том, что вам практически необходима определенная степень в понятиях распознавания голоса, языковых файлов, словарей и способах обучения системы.

После установки PocketSphinx вы должны перейти на веб-сайт CMU Sphinx и прочитать как можно больше информации. Вам также необходимо загрузить следующий файл модели.

Американская модель английского языка

(Если вы не являетесь носителем английского языка, выберите подходящую для вас модель языка).

Документацию для PocketSphinx и Sphinx в целом трудно понять для мирянина, но из того, что я могу разглядеть, файлы словарей используются для предоставления списка возможных слов, а языковые модели имеют список потенциальных произношений.

Чтобы проверить PocketSphinx, я использовал запись собственного голоса, фрагмент из альбома Al Pacino в «Адвокат дьяволов» и фрагмент из «Morgan Freeman». Дело в том, чтобы попробовать разные голоса, и для меня нет никого, кто мог бы рассказать историю так же ясно, как Морган Фримен, и никто не поставляет такую линию, как Аль Пачино.

Для работы PocketSphinx необходим WAV-файл, и он должен быть в определенном формате. Если файл находится в формате MP3, используйте команду ffmpeg для преобразования в WAV-формат:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Для запуска PocketSphinx используйте следующую команду:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-ru-us.lm 2> voice2.log

pocketsphinx_continuous принимает WAV-файл и преобразует его в текст.

В команде выше pocketsphinx предлагается использовать файл словаря «/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic» с языковой моделью «cmusphinx-5.0-ru-us.lm». Файл, преобразованный в текст, называется voice2.wav (это запись, которую я сделал с моим голосом). Наконец, 2> помещает весь подробный вывод, который вам не обязательно нужен, в файл voice2.log. Фактические результаты теста отображаются в окне терминала.

Результаты, используя мой голос, выглядят следующим образом:

добро пожаловать в следующий, о том, что на этой неделе не было проблем, о том, какое программное обеспечение для распознавания через минуту

Результаты не так ужасны, как у freespeech-vr, но до сих пор не используются. Затем я попытался использовать PocketSphinx с Al Pacino, но это не дало никаких результатов.

Наконец я попытался использовать голос Моргана Фримена из фильма «Брюс Всемогущий», и вот результаты:

000000000: мы будем на ней000000001: все это круто, да, в тот день, когда прямо сейчас, да, это самое большее, что мы были живы. Я часть горячего000000002: в лифте, который является ключевым из бит бейсбола или знает, что делать в жизни000000003: какие будут восстанавливаться000000004: они не пишут000000005: у меня есть000000006: вы должны быть правилами000000007: Я ждал тебя000000008: и он узнал здесь, что это была иллюстрация, была рождественская вечеринка убийцы000000009: получается один из способов написать o. я думал, что некоторые из них всегда носят000000010: как объединившаяся проблема не даст ему хорошего, я оценил их в тот момент, когда мы не все, что вы думаете, что я нахожусь в мире, будут дома, и я видел это000000011: отец, у которого есть это000000012: что много об этом000000013: делает это000000014: все, что вы, которые не падают много000000015: прямо осенью000000016: хорошо держись за меня000000017: Это несчастный, если я тоже думаю, что у них будет то, что все, что вышло замуж, не было нам, мне нравится, в отличие от этого

Мой тест вряд ли можно считать научным, и разработчики PocketSphinx могут заявить, что я неправильно использую программное обеспечение. Существует также технология, называемая голосовым обучением, которая может использоваться для создания лучших словарей и языковых файлов.

Мое главное мнение заключается в том, что это слишком сложно для обычного повседневного использования.

VoiceNote II

VoiceNote II - это приложение Chrome, в котором используется API распознавания Google Voice.

Если вы используете браузер Chrome или Chromium, вы можете установить VoiceNote II через интернет-магазин.

Значки на VoiceNote II выложены странным образом, так как вам нужно настроить язык в нижней части окна, а кнопка редактирования также находится внизу, однако кнопка записи находится в верхнем правом положении.

Первое, что вам нужно сделать, это выбрать язык, и это можно достичь, щелкнув значок мира.

Чтобы начать запись, щелкните значок микрофона и начните говорить в микрофон. Для достижения наилучших результатов я нашел, что говорить медленно было ключевым, так что у программного обеспечения была бы возможность идти в ногу со временем.

Результаты не были такими большими, как показано ниже:

Приветствуем и приветствуем подключение. Go-Travels.com сегодняшние статьи о преобразовании голоса в текст dunelm farrell рецессии 2008 в качестве конверсий, и он сказал, что хорошо поддерживает лучший способ, которым я нашел голосовой текстовый аддон, чтобы показать пакет 2014debian или rpm, чтобы открыть его тип голоса для речи, чтобы текст открыл его, если вы хотите выбрать vs выбрал в эдинбургском французском немецком, чтобы вы нашли время в объединенном королевском дворе в море, в то время как вы закончили писать свой текст в виде текстового файла для его успеха, и это очень стандартный английский акцент с юга Англии для этого, но я собираюсь в textvia this torrentalong с фактическим документом, и вы можете видеть ошибки, которые заставляют вас слушать друзей

Dictanote

Dictanote - это еще одно приложение для Chrome, которое можно использовать для целей диктовки и показало, что оно более интуитивное, но результаты не были лучше, чем VoiceNote II.

Я использовал только демоверсию Dictanote, которая мешает вам создавать новые документы, но позволяет вам разговаривать над текстом, который уже находится в редакторе. Я смог проверить распознавание голоса, но результаты были не лучше, чем VoiceNote II, поэтому я не подписался на версию pro.

Диктовка и почта

«Dictation And Mail» - приложение для Android, которое использует собственный API распознавания голоса Google.

Результаты «Диктовки и почты» были намного лучше, чем любая другая программа, предпринятая до этого момента.

привет, добро пожаловать в Linux lifewire., сегодня мы говорим о преобразовании звука в текст

Трюк с «Диктовкой и письмом» заключается в том, чтобы говорить медленно и произносить так же, как вы можете с ровным акцентом.

После того, как вы закончите говорить, вы можете отправить результаты по электронной почте себе.

Разговоры и разговоры

Другое приложение для Android, которое я пробовал, было «Talk and Talk Dictation».

Интерфейс для этого приложения был лучшим из связки, и распознавание голоса работало очень хорошо. После записи диктовки я смог поделиться результатами различными способами, в том числе по электронной почте.

Добро пожаловать в linux Go-Travels.com сегодня мы говорим о преобразовании речи в текст

Как вы можете видеть, текст выше настолько очевиден, насколько вы можете ожидать. Говорить медленно - это ключ.

Резюме

У Native Linux есть какой-то способ в отношении распознавания голоса и, в частности, диктовки. Есть некоторые приложения, которые используют Google Voice API, но они еще не перечислены в репозиториях.

Приложения ChromeOS немного лучше, но, безусловно, лучшие результаты были достигнуты с помощью моего телефона Android. Возможно, у телефона есть лучший микрофон, и поэтому программное обеспечение для распознавания голоса имеет больше шансов на конверсию.

Чтобы распознавание голоса стало действительно полезным, оно должно быть более интуитивно понятным, если требуется меньше настроек. Вам не нужно возиться с языковыми моделями и словарями, чтобы сделать его понятным.

Я признателен, однако, что все искусство распознавания голоса является очень сложным, потому что у каждого свой голос, и в одной стране так много диалектов из региона в регион, не беспокоясь о сотнях языков, используемых во всем мире.

Поэтому мой анализ заключается в том, что программное обеспечение для распознавания голоса все еще работает.