Агуулгын хүснэгт:
- Алхам 1: ReSpeaker USB 4-Mic Array
- Алхам 2: Шаардлагатай номын санг суулгах
- Алхам 3: Python-тэй Pyttsx3 номын санд текст унших
- Алхам 4: Бүгдийг нэгтгэх: Google Speech Recognition API болон Pyttsx3 номын санг ашиглан Python ашиглан яриа таних чадварыг бий болгох
Видео: Google Speech API болон Python ашиглан яриа таних: 4 алхам
2024 Зохиолч: John Day | [email protected]. Хамгийн сүүлд өөрчлөгдсөн: 2024-01-30 11:02
Яриа таних
Яриа таних нь хиймэл оюун ухааны дэд талбар болох байгалийн хэл боловсруулах нэг хэсэг юм. Энгийнээр хэлэхэд яриаг таних гэдэг нь компьютерийн програм хангамжийн тусламжтайгаар ярианы хэл дээрх үг, хэллэгийг таньж, хүний унших боломжтой текст болгон хөрвүүлэх чадвар юм. Үүнийг дуут туслах систем, гэрийн автоматжуулалт, дуут суурилсан чатбот, дуут харилцан үйлчлэгч робот, хиймэл оюун ухаан гэх мэт хэд хэдэн програмд ашигладаг.
Яриа танихад зориулагдсан өөр өөр API (Application Programming Interface) байдаг. Тэд үнэгүй эсвэл төлбөртэй үйлчилгээг санал болгодог. Эдгээр нь:
- CMU сфинкс
- Google Яриа таних
- Google Cloud Speech API
- Wit.ai
- Microsoft Bing дуу таних төхөөрөмж
- Houndify API
- IBM -ийн текст рүү унших
- Цасан хүүгийн түлхүүр үгийг илрүүлэх
API түлхүүр шаардлагагүй тул бид энд Google Speech Recognition -ийг ашиглах болно. Энэхүү заавар нь Seeed Studio-ийн ReSpeaker USB 4-Mic Array гэх мэт гадаад микрофон ашиглан Python дээрх Google яриа таних номын санг хэрхэн ашиглах талаар танилцуулга өгөх зорилготой юм. Хэдийгээр гадны микрофон ашиглах шаардлагагүй боловч зөөврийн компьютерын микрофоныг ч ашиглаж болно.
Алхам 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic нь Seeed Studio-ийн зохион бүтээсэн хиймэл оюун ухаан болон дуут програмуудад зориулагдсан дөрвөн микрофонтой төхөөрөмж юм. Энэ нь өрөөний хаанаас ч хамаагүй таны дуу хоолойг сонсох зориулалттай 4 чиглэлтэй олон талын микрофонтой бөгөөд програмчлагдах боломжтой RGB LED 12 индикатортой. ReSpeaker USB микрофон нь Linux, macOS, Windows үйлдлийн системийг дэмждэг. Дэлгэрэнгүй мэдээллийг эндээс авах боломжтой.
ReSpeaker USB Mic нь дараахь зүйлийг агуулсан сайхан багцтай ирдэг.
- Хэрэглэгчийн гарын авлага
- ReSpeaker USB микро массив
- Микро USB -ээс USB кабель
Тиймээс бид эхлэхэд бэлэн байна.
Алхам 2: Шаардлагатай номын санг суулгах
Энэхүү гарын авлагын хувьд та Python 3.x -ийг ашиглаж байна гэж бодож байна.
Номын санг суулгаж үзье.
pip3 SpeechRecognition -ийг суулгана уу
MacOS -ийн хувьд эхлээд PortAudio -г Homebrew -ээр, дараа нь pip3 -тай PyAudio -г суулгах хэрэгтэй болно.
portaudio нэрэх
Бид pyaudio суулгахын тулд доорх тушаалыг ажиллуулна
pip3 pyaudio суулгах
Linux -ийн хувьд та PyAudio -ийг apt ашиглан суулгаж болно.
sudo apt-get python-pyaudio python3-pyaudio суулгаарай
Windows -ийн хувьд та PyAudio -ийг pip ашиглан суулгаж болно.
pyaudio -ийг суулгах
Шинэ python файл үүсгэх
нано get_index.py
Get_index.py дээр кодын хэсгийг оруулна уу:
пяудио импортлох
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i for range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get) '))> 0: хэвлэх ("Оруулах төхөөрөмжийн id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' нэр '))
Дараах тушаалыг ажиллуулна уу.
python3 get_index.py
Миний хувьд тушаал нь дэлгэцэнд дараах гаралтыг өгдөг.
Оролтын төхөөрөмжийн id 1 - ReSpeaker 4 Mic Array (UAC1.0)
Оруулах төхөөрөмжийн id 2 - MacBook Air микрофон
Доорх кодын хэсэг дэх device_index -ийг индексийн дугаар болгон өөрчилнө үү.
speech_recognition -ийг sr болгон импортлох
r = sr. Recognizer () яриа = sr. Микрофон (device_index = 1) нь эх сурвалж болох яриа бүхий: хэвлэх ("ямар нэг юм хэл! …") аудио = r.adjust_for_ambient_noise (эх сурвалж) аудио = r. сонсох (эх сурвалж) оролдох: recog = r.recognize_google (аудио, хэл = 'en-US') хэвлэх ("Та хэлсэн:" + recog ") sr. UnknownValueError-аас бусад ("Google Яриа таних үйлчилгээнээс үр дүн хүсэх боломжгүй байна; {0}". Формат (e))
Төхөөрөмжийн индексийг 1 болгон сонгосон тул ReSpeaker 4 Mic Array нь үндсэн эх сурвалж болно.
Алхам 3: Python-тэй Pyttsx3 номын санд текст унших
Python дээр текстийг яриа руу хөрвүүлэх хэд хэдэн API байдаг. Ийм API-ийн нэг бол pyttsx3 бөгөөд энэ нь миний бодлоор текстээс ярианд ашиглах боломжтой хамгийн сайн багц юм. Энэ багц нь Windows, Mac, Linux дээр ажилладаг. Үүнийг хэрхэн яаж хийхийг харахын тулд албан ёсны баримт бичгийг шалгана уу.
Багцыг суулгахын тулд pip ашиглана уу.
pip суулгах pyttsx3
Хэрэв та Windows -д байгаа бол танд pypiwin32 нэмэлт багц хэрэгтэй бөгөөд энэ нь эх хэлний Windows ярианы API -д хандах шаардлагатай болно.
pip суулгах pypiwin32
Текстийг python скрипт рүү хөрвүүлэх Доорх нь pyttsx3 ашиглан текстийг ярианд бичих кодын хэсэг юм.
pyttsx3 импортлох
хөдөлгүүр = pyttsx3.init ()
engine.setProperty ('rate', 150) # Хурдны хувь
engine.setProperty ('эзлэхүүн', 0.9) # Боть 0-1
engine.say ("Сайн уу, дэлхий!")
engine.runAndWait ()
Алхам 4: Бүгдийг нэгтгэх: Google Speech Recognition API болон Pyttsx3 номын санг ашиглан Python ашиглан яриа таних чадварыг бий болгох
Доорх код нь Google Speech Recognition ашиглан хүний яриаг таньж, pyttsx3 номын санг ашиглан текстийг яриа болгон хувиргах үүрэгтэй.
speech_recognition -ийг sr болгон импортлох
pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr.: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Та хэлэхдээ:" + recog) engine.say (" Та хэлсэн: " + recog) engine.runAndWait () sr. UnknownValueError -ээс бусад: engine.say (" Google Яриа таних нь аудиог ойлгохгүй байна ") engine.runAndWait () sr. RequestError гэж e: engine.say (" Болж чадсангүй. Google Яриа таних үйлчилгээнээс үр дүн хүсэх; {0} ". format (e)) engine.runAndWait ()
Энэ нь гаралтыг терминал дээр хэвлэдэг. Түүнчлэн, үүнийг яриа болгон хөрвүүлэх болно.
Та: Лондон бол Их Британийн нийслэл юм
Яриа таних нь ерөнхийдөө хэрхэн ажилладаг, хамгийн гол нь үүнийг Google Speech Recognition API -ийг Python ашиглан хэрхэн хэрэгжүүлэх талаар илүү сайн ойлголттой болсон гэж найдаж байна.
Хэрэв танд асуулт эсвэл санал хүсэлт байвал? Доорх сэтгэгдлийг үлдээнэ үү. Хүлээж байгаарай!
Зөвлөмж болгож буй:
Arduino ашиглан яриа таних (Bluetooth + LCD + Android): 6 алхам
Arduino-ийн тусламжтайгаар яриа таних (Bluetooth + LCD + Android): Энэхүү төсөлд бид Arduino, Bluetooth модуль (HC-05), LCD ашиглан яриа таних ажлыг хийх гэж байна. Өөрийн яриа таних төхөөрөмжийг бүтээцгээе
K210 самбар болон Arduino IDE/Micropython ашиглан зураг таних: 6 алхам (зурагтай)
K210 самбар, Arduino IDE/Micropython ашиглан зураг таних: Би Sipeed Maix Bit дээр OpenMV демо програмыг хэрхэн ажиллуулах талаар нэг нийтлэл бичсэн бөгөөд энэ самбараар объект илрүүлэх демо видео хийсэн. Хүмүүсийн асуусан олон асуултуудын нэг бол мэдрэлийн сүлжээ биш гэдгийг би яаж таних вэ?
Нүүр таних ба таних - OpenCV Python болон Arduino ашиглан Arduino Face ID: 6 алхам
Нүүр таних ба таних | OpenCV Python болон Arduino ашиглан Arduino Face ID: Нүүр царай таних нь орчин үеийн гар утасны хамгийн чухал онцлогуудын нэг юм. Тиймээс надад " Arduino төслийнхөө нүүр царайг таних боломжтой юу " хариулт нь тийм … Миний аялал дараах байдлаар эхэлсэн: Алхам 1: Бидэнд хандах
ESP32 болон ESP8266-ийг ашиглан ESP-NOW ашиглан олон ESP яриа хэрхэн хийх вэ: 8 алхам
ESP32 болон ESP8266-ийг ашиглан ESP-NOW ашиглан хэрхэн олон ESP яриа хийх вэ: Миний хэрэгжүүлж буй төсөл дээр чиглүүлэгчгүйгээр хоорондоо ярихын тулд надад олон ESP хэрэгтэй болно. Үүнийг хийхийн тулд би ESP-NOW-ийг ашиглан ESP дээр чиглүүлэгчгүйгээр хоорондоо утасгүй холбоо тогтоох боломжтой болно
AWS IOT ашиглан Андройд програмыг хэрхэн холбох, дуу хоолой таних API -ийг ойлгох: 3 алхам
AWS IOT ашиглан Андройд програмыг хэрхэн холбох, дуу таних API -ийг ойлгох нь: Энэхүү заавар нь хэрэглэгчдэд Андройд аппликейшнийг AWS IOT сервертэй хэрхэн холбох, кофены машиныг хянадаг дуу хоолой таних API -ийг ойлгохыг заадаг. Дуут үйлчилгээ, Апп тус бүрийн