Агуулгын хүснэгт:

Google Speech API болон Python ашиглан яриа таних: 4 алхам
Google Speech API болон Python ашиглан яриа таних: 4 алхам

Видео: Google Speech API болон Python ашиглан яриа таних: 4 алхам

Видео: Google Speech API болон Python ашиглан яриа таних: 4 алхам
Видео: Все новые ошибки ChatGPT c которыми ты можешь столкнуться 2024, Арванхоёрдугаар сар
Anonim
Google Speech API болон Python ашиглан яриа таних
Google Speech API болон Python ашиглан яриа таних

Яриа таних

Яриа таних нь хиймэл оюун ухааны дэд талбар болох байгалийн хэл боловсруулах нэг хэсэг юм. Энгийнээр хэлэхэд яриаг таних гэдэг нь компьютерийн програм хангамжийн тусламжтайгаар ярианы хэл дээрх үг, хэллэгийг таньж, хүний унших боломжтой текст болгон хөрвүүлэх чадвар юм. Үүнийг дуут туслах систем, гэрийн автоматжуулалт, дуут суурилсан чатбот, дуут харилцан үйлчлэгч робот, хиймэл оюун ухаан гэх мэт хэд хэдэн програмд ашигладаг.

Яриа танихад зориулагдсан өөр өөр API (Application Programming Interface) байдаг. Тэд үнэгүй эсвэл төлбөртэй үйлчилгээг санал болгодог. Эдгээр нь:

  • CMU сфинкс
  • Google Яриа таних
  • Google Cloud Speech API
  • Wit.ai
  • Microsoft Bing дуу таних төхөөрөмж
  • Houndify API
  • IBM -ийн текст рүү унших
  • Цасан хүүгийн түлхүүр үгийг илрүүлэх

API түлхүүр шаардлагагүй тул бид энд Google Speech Recognition -ийг ашиглах болно. Энэхүү заавар нь Seeed Studio-ийн ReSpeaker USB 4-Mic Array гэх мэт гадаад микрофон ашиглан Python дээрх Google яриа таних номын санг хэрхэн ашиглах талаар танилцуулга өгөх зорилготой юм. Хэдийгээр гадны микрофон ашиглах шаардлагагүй боловч зөөврийн компьютерын микрофоныг ч ашиглаж болно.

Алхам 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB 4-Мик массив
ReSpeaker USB 4-Мик массив
ReSpeaker USB 4-Мик массив
ReSpeaker USB 4-Мик массив
ReSpeaker USB 4-Мик массив
ReSpeaker USB 4-Мик массив

ReSpeaker USB Mic нь Seeed Studio-ийн зохион бүтээсэн хиймэл оюун ухаан болон дуут програмуудад зориулагдсан дөрвөн микрофонтой төхөөрөмж юм. Энэ нь өрөөний хаанаас ч хамаагүй таны дуу хоолойг сонсох зориулалттай 4 чиглэлтэй олон талын микрофонтой бөгөөд програмчлагдах боломжтой RGB LED 12 индикатортой. ReSpeaker USB микрофон нь Linux, macOS, Windows үйлдлийн системийг дэмждэг. Дэлгэрэнгүй мэдээллийг эндээс авах боломжтой.

ReSpeaker USB Mic нь дараахь зүйлийг агуулсан сайхан багцтай ирдэг.

  • Хэрэглэгчийн гарын авлага
  • ReSpeaker USB микро массив
  • Микро USB -ээс USB кабель

Тиймээс бид эхлэхэд бэлэн байна.

Алхам 2: Шаардлагатай номын санг суулгах

Энэхүү гарын авлагын хувьд та Python 3.x -ийг ашиглаж байна гэж бодож байна.

Номын санг суулгаж үзье.

pip3 SpeechRecognition -ийг суулгана уу

MacOS -ийн хувьд эхлээд PortAudio -г Homebrew -ээр, дараа нь pip3 -тай PyAudio -г суулгах хэрэгтэй болно.

portaudio нэрэх

Бид pyaudio суулгахын тулд доорх тушаалыг ажиллуулна

pip3 pyaudio суулгах

Linux -ийн хувьд та PyAudio -ийг apt ашиглан суулгаж болно.

sudo apt-get python-pyaudio python3-pyaudio суулгаарай

Windows -ийн хувьд та PyAudio -ийг pip ашиглан суулгаж болно.

pyaudio -ийг суулгах

Шинэ python файл үүсгэх

нано get_index.py

Get_index.py дээр кодын хэсгийг оруулна уу:

пяудио импортлох

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i for range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get) '))> 0: хэвлэх ("Оруулах төхөөрөмжийн id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' нэр '))

Дараах тушаалыг ажиллуулна уу.

python3 get_index.py

Миний хувьд тушаал нь дэлгэцэнд дараах гаралтыг өгдөг.

Оролтын төхөөрөмжийн id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Оруулах төхөөрөмжийн id 2 - MacBook Air микрофон

Доорх кодын хэсэг дэх device_index -ийг индексийн дугаар болгон өөрчилнө үү.

speech_recognition -ийг sr болгон импортлох

r = sr. Recognizer () яриа = sr. Микрофон (device_index = 1) нь эх сурвалж болох яриа бүхий: хэвлэх ("ямар нэг юм хэл! …") аудио = r.adjust_for_ambient_noise (эх сурвалж) аудио = r. сонсох (эх сурвалж) оролдох: recog = r.recognize_google (аудио, хэл = 'en-US') хэвлэх ("Та хэлсэн:" + recog ") sr. UnknownValueError-аас бусад ("Google Яриа таних үйлчилгээнээс үр дүн хүсэх боломжгүй байна; {0}". Формат (e))

Төхөөрөмжийн индексийг 1 болгон сонгосон тул ReSpeaker 4 Mic Array нь үндсэн эх сурвалж болно.

Алхам 3: Python-тэй Pyttsx3 номын санд текст унших

Python дээр текстийг яриа руу хөрвүүлэх хэд хэдэн API байдаг. Ийм API-ийн нэг бол pyttsx3 бөгөөд энэ нь миний бодлоор текстээс ярианд ашиглах боломжтой хамгийн сайн багц юм. Энэ багц нь Windows, Mac, Linux дээр ажилладаг. Үүнийг хэрхэн яаж хийхийг харахын тулд албан ёсны баримт бичгийг шалгана уу.

Багцыг суулгахын тулд pip ашиглана уу.

pip суулгах pyttsx3

Хэрэв та Windows -д байгаа бол танд pypiwin32 нэмэлт багц хэрэгтэй бөгөөд энэ нь эх хэлний Windows ярианы API -д хандах шаардлагатай болно.

pip суулгах pypiwin32

Текстийг python скрипт рүү хөрвүүлэх Доорх нь pyttsx3 ашиглан текстийг ярианд бичих кодын хэсэг юм.

pyttsx3 импортлох

хөдөлгүүр = pyttsx3.init ()

engine.setProperty ('rate', 150) # Хурдны хувь

engine.setProperty ('эзлэхүүн', 0.9) # Боть 0-1

engine.say ("Сайн уу, дэлхий!")

engine.runAndWait ()

Алхам 4: Бүгдийг нэгтгэх: Google Speech Recognition API болон Pyttsx3 номын санг ашиглан Python ашиглан яриа таних чадварыг бий болгох

Доорх код нь Google Speech Recognition ашиглан хүний яриаг таньж, pyttsx3 номын санг ашиглан текстийг яриа болгон хувиргах үүрэгтэй.

speech_recognition -ийг sr болгон импортлох

pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr.: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Та хэлэхдээ:" + recog) engine.say (" Та хэлсэн: " + recog) engine.runAndWait () sr. UnknownValueError -ээс бусад: engine.say (" Google Яриа таних нь аудиог ойлгохгүй байна ") engine.runAndWait () sr. RequestError гэж e: engine.say (" Болж чадсангүй. Google Яриа таних үйлчилгээнээс үр дүн хүсэх; {0} ". format (e)) engine.runAndWait ()

Энэ нь гаралтыг терминал дээр хэвлэдэг. Түүнчлэн, үүнийг яриа болгон хөрвүүлэх болно.

Та: Лондон бол Их Британийн нийслэл юм

Яриа таних нь ерөнхийдөө хэрхэн ажилладаг, хамгийн гол нь үүнийг Google Speech Recognition API -ийг Python ашиглан хэрхэн хэрэгжүүлэх талаар илүү сайн ойлголттой болсон гэж найдаж байна.

Хэрэв танд асуулт эсвэл санал хүсэлт байвал? Доорх сэтгэгдлийг үлдээнэ үү. Хүлээж байгаарай!

Зөвлөмж болгож буй: