Съдържание:

Разпознаване на реч с помощта на Google Speech API и Python: 4 стъпки
Разпознаване на реч с помощта на Google Speech API и Python: 4 стъпки

Видео: Разпознаване на реч с помощта на Google Speech API и Python: 4 стъпки

Видео: Разпознаване на реч с помощта на Google Speech API и Python: 4 стъпки
Видео: Generate Studio Quality Realistic Photos By Kohya LoRA Stable Diffusion Training - Full Tutorial 2024, Декември
Anonim
Разпознаване на реч с помощта на Google Speech API и Python
Разпознаване на реч с помощта на Google Speech API и Python

Гласово разпознаване

Разпознаването на реч е част от обработката на естествен език, която е подполе на изкуствения интелект. Казано по -просто, разпознаването на реч е способността на компютърен софтуер да идентифицира думи и фрази на говорим език и да ги преобразува в текст, който може да се чете от човека. Използва се в няколко приложения, като системи за гласови асистенти, домашна автоматизация, гласови чатботове, гласово взаимодействащ робот, изкуствен интелект и др.

Има различни API (Application Programming Interface) за разпознаване на реч. Те предлагат безплатни или платени услуги. Това са:

  • CMU Сфинкс
  • Разпознаване на реч от Google
  • API на Google Cloud Speech
  • Wit.ai
  • Гласово разпознаване на Microsoft Bing
  • Houndify API
  • IBM говор към текст
  • Snowboy Hotword Detection

Тук ще използваме Google Разпознаване на реч, тъй като не изисква API ключ. Този урок има за цел да представи въведение за това как да използвате библиотеката за разпознаване на реч на Google на Python с помощта на външен микрофон като ReSpeaker USB 4-Mic Array от Seeed Studio. Въпреки че не е задължително да се използва външен микрофон, може да се използва дори вграден микрофон на лаптоп.

Стъпка 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic е устройство с четири микрофона, предназначено за AI и гласови приложения, разработено от Seeed Studio. Той разполага с 4 високопроизводителни, вградени всенасочени микрофона, предназначени да улавят гласа ви от всяка точка на стаята и 12 програмируеми RGB LED индикатора. USB микрофонът на ReSpeaker поддържа операционни системи Linux, macOS и Windows. Подробности можете да намерите тук.

USB микрофонът на ReSpeaker се предлага в хубава опаковка, съдържаща следните елементи:

  • Ръководство за потребителя
  • ReSpeaker USB Mic Array
  • Micro USB към USB кабел

Така че сме готови да започнем.

Стъпка 2: Инсталирайте необходимите библиотеки

За този урок предполагам, че използвате Python 3.x.

Нека инсталираме библиотеките:

pip3 инсталирайте SpeechRecognition

За macOS първо ще трябва да инсталирате PortAudio с Homebrew и след това да инсталирате PyAudio с pip3:

варете инсталирайте portaudio

Изпълняваме командата по -долу, за да инсталираме pyaudio

pip3 инсталирайте pyaudio

За Linux можете да инсталирате PyAudio с apt:

sudo apt-get install python-pyaudio python3-pyaudio

За Windows можете да инсталирате PyAudio с pip:

pip install pyaudio

Създайте нов python файл

nano get_index.py

Поставете на get_index.py под кодов фрагмент:

внос pyaudio

p = pyaudio. PyAudio () информация = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') за i в обхват (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i). Cene ('max '))> 0: print ("Идентификатор на входното устройство", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' име '))

Изпълнете следната команда:

python3 get_index.py

В моя случай командата дава следния изход на екрана:

Идент. № на входното устройство - ReSpeaker 4 Mic Array (UAC1.0)

Идентификатор на входно устройство 2 - MacBook Air микрофон

Променете device_index на индексния номер по ваш избор в кодовия фрагмент по -долу.

импортиране на speech_recognition като sr

r = sr. = r. („Не можах да поискам резултати от услугата за разпознаване на реч на Google; {0}“. Формат (д))

Индексът на устройството е избран 1, тъй като ReSpeaker 4 Mic Array ще бъде основен източник.

Стъпка 3: Текст в реч в Python с библиотека Pyttsx3

Налични са няколко API за преобразуване на текст в реч в python. Един от тези API е pyttsx3, който е най-добрият наличен пакет за преобразуване на текст в реч според мен. Този пакет работи в Windows, Mac и Linux. Проверете официалната документация, за да видите как се прави това.

Инсталиране на пакета Използвайте pip, за да инсталирате пакета.

pip install pyttsx3

Ако сте в Windows, ще ви е необходим допълнителен пакет, pypiwin32, който ще му е необходим за достъп до родния API за говор на Windows.

pip install pypiwin32

Конвертиране на текст в реч python скрипт По -долу е фрагментът от код за текст в реч с помощта на pyttsx3:

импортиране на pyttsx3

engine = pyttsx3.init ()

engine.setProperty ('rate', 150) # Процент на скоростта

engine.setProperty ('том', 0.9) # том 0-1

engine.say ("Здравей, свят!")

engine.runAndWait ()

Стъпка 4: Обединяване на всичко: Изграждане на разпознаване на реч с Python с помощта на API за разпознаване на реч на Google и библиотеката Pyttsx3

Кодът по -долу отговаря за разпознаването на човешката реч с помощта на Google Speech Recognition и преобразуването на текста в реч с помощта на библиотеката pyttsx3.

импортиране на speech_recognition като sr

импортиране на pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () govor = sr. Microphone (device_index = 1) с реч като източник: audio = r.adjust_for_ambient_noise (източник) audio = r.listen (източник) опит: разпознаване = r.recognize_google (аудио, език = 'en-US') print ("Казахте:" + разпознаване) engine.say (" Казахте: " + разпознаване) engine.runAndWait () с изключение на sr. UnknownValueError: engine.say (" Google Разпознаване на речта не може да разбере аудио ") engine.runAndWait () с изключение на sr. RequestError като e: engine.say (" Не може поискайте резултати от услугата за разпознаване на реч на Google; {0} ". формат (д)) engine.runAndWait ()

Той отпечатва изхода на терминала. Освен това той ще бъде преобразуван и в реч.

Казахте: Лондон е столицата на Великобритания

Надявам се, че сега имате по -добро разбиране за това как разпознаването на реч работи като цяло и най -важното как да го приложите с помощта на API за разпознаване на реч на Google с Python.

Ако имате въпроси или обратна връзка? Оставете коментар по -долу. Останете на линия!

Препоръчано: