Google Speech API болон Python ашиглан яриа таних: 4 алхам

Агуулгын хүснэгт:

Алхам 1: ReSpeaker USB 4-Mic Array
Алхам 2: Шаардлагатай номын санг суулгах
Алхам 3: Python-тэй Pyttsx3 номын санд текст унших
Алхам 4: Бүгдийг нэгтгэх: Google Speech Recognition API болон Pyttsx3 номын санг ашиглан Python ашиглан яриа таних чадварыг бий болгох

2025 Зохиолч: John Day | [email protected]. Хамгийн сүүлд өөрчлөгдсөн: 2025-01-23 15:00

Яриа таних

Яриа таних нь хиймэл оюун ухааны дэд талбар болох байгалийн хэл боловсруулах нэг хэсэг юм. Энгийнээр хэлэхэд яриаг таних гэдэг нь компьютерийн програм хангамжийн тусламжтайгаар ярианы хэл дээрх үг, хэллэгийг таньж, хүний унших боломжтой текст болгон хөрвүүлэх чадвар юм. Үүнийг дуут туслах систем, гэрийн автоматжуулалт, дуут суурилсан чатбот, дуут харилцан үйлчлэгч робот, хиймэл оюун ухаан гэх мэт хэд хэдэн програмд ашигладаг.

Яриа танихад зориулагдсан өөр өөр API (Application Programming Interface) байдаг. Тэд үнэгүй эсвэл төлбөртэй үйлчилгээг санал болгодог. Эдгээр нь:

CMU сфинкс
Google Яриа таних
Google Cloud Speech API
Wit.ai
Microsoft Bing дуу таних төхөөрөмж
Houndify API
IBM -ийн текст рүү унших
Цасан хүүгийн түлхүүр үгийг илрүүлэх

API түлхүүр шаардлагагүй тул бид энд Google Speech Recognition -ийг ашиглах болно. Энэхүү заавар нь Seeed Studio-ийн ReSpeaker USB 4-Mic Array гэх мэт гадаад микрофон ашиглан Python дээрх Google яриа таних номын санг хэрхэн ашиглах талаар танилцуулга өгөх зорилготой юм. Хэдийгээр гадны микрофон ашиглах шаардлагагүй боловч зөөврийн компьютерын микрофоныг ч ашиглаж болно.

Алхам 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic нь Seeed Studio-ийн зохион бүтээсэн хиймэл оюун ухаан болон дуут програмуудад зориулагдсан дөрвөн микрофонтой төхөөрөмж юм. Энэ нь өрөөний хаанаас ч хамаагүй таны дуу хоолойг сонсох зориулалттай 4 чиглэлтэй олон талын микрофонтой бөгөөд програмчлагдах боломжтой RGB LED 12 индикатортой. ReSpeaker USB микрофон нь Linux, macOS, Windows үйлдлийн системийг дэмждэг. Дэлгэрэнгүй мэдээллийг эндээс авах боломжтой.

ReSpeaker USB Mic нь дараахь зүйлийг агуулсан сайхан багцтай ирдэг.

Хэрэглэгчийн гарын авлага
ReSpeaker USB микро массив
Микро USB -ээс USB кабель

Тиймээс бид эхлэхэд бэлэн байна.

Алхам 2: Шаардлагатай номын санг суулгах

Энэхүү гарын авлагын хувьд та Python 3.x -ийг ашиглаж байна гэж бодож байна.

Номын санг суулгаж үзье.

pip3 SpeechRecognition -ийг суулгана уу

MacOS -ийн хувьд эхлээд PortAudio -г Homebrew -ээр, дараа нь pip3 -тай PyAudio -г суулгах хэрэгтэй болно.

portaudio нэрэх

Бид pyaudio суулгахын тулд доорх тушаалыг ажиллуулна

pip3 pyaudio суулгах

Linux -ийн хувьд та PyAudio -ийг apt ашиглан суулгаж болно.

sudo apt-get python-pyaudio python3-pyaudio суулгаарай

Windows -ийн хувьд та PyAudio -ийг pip ашиглан суулгаж болно.

pyaudio -ийг суулгах

Шинэ python файл үүсгэх

нано get_index.py

Get_index.py дээр кодын хэсгийг оруулна уу:

пяудио импортлох

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i for range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get) '))> 0: хэвлэх ("Оруулах төхөөрөмжийн id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' нэр '))

Дараах тушаалыг ажиллуулна уу.

python3 get_index.py

Миний хувьд тушаал нь дэлгэцэнд дараах гаралтыг өгдөг.

Оролтын төхөөрөмжийн id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Оруулах төхөөрөмжийн id 2 - MacBook Air микрофон

Доорх кодын хэсэг дэх device_index -ийг индексийн дугаар болгон өөрчилнө үү.

speech_recognition -ийг sr болгон импортлох

r = sr. Recognizer () яриа = sr. Микрофон (device_index = 1) нь эх сурвалж болох яриа бүхий: хэвлэх ("ямар нэг юм хэл! …") аудио = r.adjust_for_ambient_noise (эх сурвалж) аудио = r. сонсох (эх сурвалж) оролдох: recog = r.recognize_google (аудио, хэл = 'en-US') хэвлэх ("Та хэлсэн:" + recog ") sr. UnknownValueError-аас бусад ("Google Яриа таних үйлчилгээнээс үр дүн хүсэх боломжгүй байна; {0}". Формат (e))

Төхөөрөмжийн индексийг 1 болгон сонгосон тул ReSpeaker 4 Mic Array нь үндсэн эх сурвалж болно.

Алхам 3: Python-тэй Pyttsx3 номын санд текст унших

Python дээр текстийг яриа руу хөрвүүлэх хэд хэдэн API байдаг. Ийм API-ийн нэг бол pyttsx3 бөгөөд энэ нь миний бодлоор текстээс ярианд ашиглах боломжтой хамгийн сайн багц юм. Энэ багц нь Windows, Mac, Linux дээр ажилладаг. Үүнийг хэрхэн яаж хийхийг харахын тулд албан ёсны баримт бичгийг шалгана уу.

Багцыг суулгахын тулд pip ашиглана уу.

pip суулгах pyttsx3

Хэрэв та Windows -д байгаа бол танд pypiwin32 нэмэлт багц хэрэгтэй бөгөөд энэ нь эх хэлний Windows ярианы API -д хандах шаардлагатай болно.

pip суулгах pypiwin32

Текстийг python скрипт рүү хөрвүүлэх Доорх нь pyttsx3 ашиглан текстийг ярианд бичих кодын хэсэг юм.

pyttsx3 импортлох

хөдөлгүүр = pyttsx3.init ()

engine.setProperty ('rate', 150) # Хурдны хувь

engine.setProperty ('эзлэхүүн', 0.9) # Боть 0-1

engine.say ("Сайн уу, дэлхий!")

engine.runAndWait ()

Алхам 4: Бүгдийг нэгтгэх: Google Speech Recognition API болон Pyttsx3 номын санг ашиглан Python ашиглан яриа таних чадварыг бий болгох

Доорх код нь Google Speech Recognition ашиглан хүний яриаг таньж, pyttsx3 номын санг ашиглан текстийг яриа болгон хувиргах үүрэгтэй.

speech_recognition -ийг sr болгон импортлох

pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr.: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Та хэлэхдээ:" + recog) engine.say (" Та хэлсэн: " + recog) engine.runAndWait () sr. UnknownValueError -ээс бусад: engine.say (" Google Яриа таних нь аудиог ойлгохгүй байна ") engine.runAndWait () sr. RequestError гэж e: engine.say (" Болж чадсангүй. Google Яриа таних үйлчилгээнээс үр дүн хүсэх; {0} ". format (e)) engine.runAndWait ()

Энэ нь гаралтыг терминал дээр хэвлэдэг. Түүнчлэн, үүнийг яриа болгон хөрвүүлэх болно.

Та: Лондон бол Их Британийн нийслэл юм

Яриа таних нь ерөнхийдөө хэрхэн ажилладаг, хамгийн гол нь үүнийг Google Speech Recognition API -ийг Python ашиглан хэрхэн хэрэгжүүлэх талаар илүү сайн ойлголттой болсон гэж найдаж байна.

Хэрэв танд асуулт эсвэл санал хүсэлт байвал? Доорх сэтгэгдлийг үлдээнэ үү. Хүлээж байгаарай!

Зөвлөмж болгож буй:

Arduino ашиглан яриа таних (Bluetooth + LCD + Android): 6 алхам

Arduino-ийн тусламжтайгаар яриа таних (Bluetooth + LCD + Android): Энэхүү төсөлд бид Arduino, Bluetooth модуль (HC-05), LCD ашиглан яриа таних ажлыг хийх гэж байна. Өөрийн яриа таних төхөөрөмжийг бүтээцгээе

K210 самбар болон Arduino IDE/Micropython ашиглан зураг таних: 6 алхам (зурагтай)

K210 самбар, Arduino IDE/Micropython ашиглан зураг таних: Би Sipeed Maix Bit дээр OpenMV демо програмыг хэрхэн ажиллуулах талаар нэг нийтлэл бичсэн бөгөөд энэ самбараар объект илрүүлэх демо видео хийсэн. Хүмүүсийн асуусан олон асуултуудын нэг бол мэдрэлийн сүлжээ биш гэдгийг би яаж таних вэ?

Нүүр таних ба таних - OpenCV Python болон Arduino ашиглан Arduino Face ID: 6 алхам

Нүүр таних ба таних | OpenCV Python болон Arduino ашиглан Arduino Face ID: Нүүр царай таних нь орчин үеийн гар утасны хамгийн чухал онцлогуудын нэг юм. Тиймээс надад " Arduino төслийнхөө нүүр царайг таних боломжтой юу " хариулт нь тийм … Миний аялал дараах байдлаар эхэлсэн: Алхам 1: Бидэнд хандах

ESP32 болон ESP8266-ийг ашиглан ESP-NOW ашиглан олон ESP яриа хэрхэн хийх вэ: 8 алхам

ESP32 болон ESP8266-ийг ашиглан ESP-NOW ашиглан хэрхэн олон ESP яриа хийх вэ: Миний хэрэгжүүлж буй төсөл дээр чиглүүлэгчгүйгээр хоорондоо ярихын тулд надад олон ESP хэрэгтэй болно. Үүнийг хийхийн тулд би ESP-NOW-ийг ашиглан ESP дээр чиглүүлэгчгүйгээр хоорондоо утасгүй холбоо тогтоох боломжтой болно

AWS IOT ашиглан Андройд програмыг хэрхэн холбох, дуу хоолой таних API -ийг ойлгох: 3 алхам

AWS IOT ашиглан Андройд програмыг хэрхэн холбох, дуу таних API -ийг ойлгох нь: Энэхүү заавар нь хэрэглэгчдэд Андройд аппликейшнийг AWS IOT сервертэй хэрхэн холбох, кофены машиныг хянадаг дуу хоолой таних API -ийг ойлгохыг заадаг. Дуут үйлчилгээ, Апп тус бүрийн

Google Speech API болон Python ашиглан яриа таних: 4 алхам

Агуулгын хүснэгт:

Яриа таних

Алхам 1: ReSpeaker USB 4-Mic Array

Алхам 2: Шаардлагатай номын санг суулгах

Алхам 3: Python-тэй Pyttsx3 номын санд текст унших

Алхам 4: Бүгдийг нэгтгэх: Google Speech Recognition API болон Pyttsx3 номын санг ашиглан Python ашиглан яриа таних чадварыг бий болгох

Зөвлөмж болгож буй:

Arduino ашиглан яриа таних (Bluetooth + LCD + Android): 6 алхам

K210 самбар болон Arduino IDE/Micropython ашиглан зураг таних: 6 алхам (зурагтай)

Нүүр таних ба таних - OpenCV Python болон Arduino ашиглан Arduino Face ID: 6 алхам

ESP32 болон ESP8266-ийг ашиглан ESP-NOW ашиглан олон ESP яриа хэрхэн хийх вэ: 8 алхам

AWS IOT ашиглан Андройд програмыг хэрхэн холбох, дуу хоолой таних API -ийг ойлгох: 3 алхам

Гитарын өсгөгчдөө диод хайчлах гажуудлыг нэмээрэй: 6 алхам (зурагтай)

Гэрээ Laserbeams ашиглан хамгаалаарай!: 7 алхам (зурагтай)

Дотоод Bluetooth ашиглан 5G видео IPod хийх: 8 алхам (зурагтай)

Алтоидын цагаан тугалга бүхий дэлхийн анхны тоос сорогч: 18 алхам (зурагтай)

Android + Arduino Labyrith тоглоом: 5 алхам (зурагтай)

PHP болон MYSQL ашиглан мессеж бичих вэбсайтыг хэрхэн хийх вэ: 5 алхам

Зүүж болох Arduino худлаа таних бөгж: 7 алхам

Energia Sem Fio: 11 алхам

Arduino болон үйлдвэрийн төхөөрөмжүүдийн хооронд Modbus TCP холбоо: 3 алхам

Нимбэгний цахилгаан ба гэрэл: 3 алхам

NET Framework 1.0-ийг 64 битийн Windows дээр суулгах: 8 алхам

4.75 инчийн идэвхгүй радиаторын чанга яригчийн шороог зурааснаас хямд (хосоор) хий: 10 алхам

Хичээл Energia Sem Fio: 7 алхам

2 Raspberry Pis нь хялбар бөгөөд хямд алсын RAID: 19 алхам

123 MONTESSORI: TABLERO DE RESTAS: 6 алхам

PLSD холболтын гарын авлага: AirPlay -ээр дамжуулан Apple TV -тэй холбогдох [Албан бус]: 10 алхам