Automatesch Speecherkennung

De Sammelprozess vun Audiodaten fir automatesch Riederkennung verstoen

Automatesch Speech Recognition Systemer a virtuelle Assistenten wéi Siri, Alexa a Cortana sinn allgemeng Deeler vun eisem Liewen ginn. Eis Ofhängegkeet vun hinnen ass wesentlech eropgaang wéi se méi clever ginn. Vun eis Luuchten opzemaachen fir Uruff ze maachen fir Fernsehkanäl z'änneren, benotze mir dës intelligent Technologien fir alldeeglech Aufgaben ze kompletéieren.

Wéi och ëmmer, hutt Dir Iech jeemools gefrot wéi dës Riederkennungssystemer funktionnéieren?

Gutt, dëse Blog wäert Iech iwwer e puer vun de Fundamenter vun der Automatescher Speech Recognition educéieren. Och wäerte mir seng Aarbecht entdecken a wéi funktionell virtuell Assistenten wéi Siri gebaut ginn.

Wat ass Automatesch Speech Recognition?

Automatic Speech Recognition (ASR) ass Software déi de Computersystem et erméiglecht mënschlech Ried an Text ze konvertéieren, andeems verschidde kënschtlech Intelligenz a Maschinnléiere Algorithmen benotzt.

Nom Ëmwandlung an Analyse vum gegebene Kommando reagéiert de Computer mat engem passenden Output fir de Benotzer. ASR gouf fir d'éischt am Joer 1962 agefouert, an zënterhier huet et seng Operatiounen kontinuéierlech verbessert a grouss Luucht kritt wéinst populäre Applikatiounen wéi Alexa a Siri.

Wousst Dir datt Automatesch Speech Recognition och als Speech-to-Text Reader bekannt ass? Liest méi doriwwer an dësem Blog! 

Wat ass de Prozess fir Speech Collection fir Training ASR Modeller?

Ried Kollektioun Prozess

Speech Sammlung zielt fir verschidde Probe Opzeechnunge vu verschiddene Beräicher ze sammelen déi benotzt gi fir ASR Modeller z'ernähren an ze trainéieren. ASR System liwwert déi héchst Effizienz wann grouss Datesätz vu Ried & Audio gesammelt a fir säi System geliwwert ginn.

Fir nahtlos ze schaffen, mussen déi gesammelt Riedsdatesätz all Zildemographie, Sproochen, Akzenter an Dialekter enthalen. De folgende Prozess weist wéi een de Maschinnléiermodell a verschidde Schrëtt trainéiert:

  • Fänkt un mam Bau vun enger demographescher Matrix

    Virun allem sammelt d'Donnéeën fir verschidden Demographie wéi d'Location, Geschlechter, Sprooch, Alter, an Akzenter. Gitt och sécher eng Vielfalt vun Ëmweltgeräischer z'erfaassen wéi Stroossegeräischer, Waarderaumgeräischer, ëffentleche Bürorauschen, etc.

  • Sammelen an transkriberen d'Speechdaten

    De nächste Schrëtt ass mënschlech Audio- a Ried Echantillon ze sammelen baséiert op verschiddene geographesche Plazen fir Ären ASR Modell ze trainéieren. Et ass e wichtege Schrëtt a erfuerdert mënschlech Experten laang a kuerz Aussoe vu Wierder auszeféieren fir dat echt Gefill vum Saz ze kréien an déiselwecht Sätz a verschiddenen Akzenter an Dialekter ze widderhuelen.

  • Erstellt e separaten Test Set

    Wann Dir den transkribéierten Text gesammelt hutt, ass de nächste Schrëtt et mat entspriechend Audiodaten ze koppelen. Dann, segmentéiert d'Donnéeë weider an enthält eng Ausso vun hinnen. Elo, aus de segmentéierten Dateparen, kënnt Dir zoufälleg Daten aus engem Set fir weider Tester zéien.

  • Trainéiert Ären ASR Sproochmodell

    Wat méi Informatioun Är Datesätz hunn, wat besser Ären AI-trainéierte Modell géif Leeschtunge. Dofir generéiert verschidde Variatiounen vun Text a Rieden déi Dir virdru opgeholl hutt. Paraphrase déiselwecht Sätz mat verschiddene Riednotatiounen.

  • Evaluéiert d'Ausgab a schliisslech, Iteréieren

    Endlech moosst d'Ausgab vun Ärem ASR Modell fir seng Leeschtung ze fixéieren. Test de Modell géint en Testset fir seng Effizienz ze bestëmmen. Gëeegent, engagéiert Ären ASR Modell an enger Feedback Loop fir de gewënschten Output ze generéieren an all Lücken ze fixéieren.

[Lies och: Eng ëmfaassend Iwwersiicht iwwer Automatesch Riederkennung]

Wat sinn déi verschidde Benotzungsfäll vu Riederkennung?

Speech Unerkennung Technologie ass héich verbreet a ville Industrien haut. E puer Industrien déi dës enorm Technologie benotzen, sinn wéi follegt:

  • Food Industrie Liewensmëttel Industrie: Liewensmëttel Risen wéi Wendy's a McDonald's sinn agestallt fir hir Clientserfarungen mat ASR ze verbesseren. A ville vun hiren Outlets hu se voll funktionell ASR Modeller agesat fir Bestellungen ze huelen, a weider an d'Kachsektioun weiderginn fir de Client Bestellung fäerdeg ze maachen.

     

  • Telecommunicatiounsacteuren Telekommunikatioun: Vodafone ass ee vun de gréissten Telekom Ubidder op der Welt. Et huet seng Clientsfleeg an Telefonrelaisservicer entworf mat ASR Modeller déi Iech guidéieren fir verschidde Ufroen ze léisen an Är Uriff op betreffend Departementer ëmzebréngen.

     

  • Rees an Transport Rees an Transport: Google Android Auto oder Apple CarPlay sinn allgemeng ginn. Déi meescht Leit benotze se fir Navigatiounssystemer z'aktivéieren, Messagen ze schécken oder Musek Playlists ze wiesselen. Wéi och ëmmer, mat technologesche Fortschrëtter, ginn esou Systemer méi raffinéiert.
    BMW Intelligent Personal Assistant lancéiert a senger BMW 3 Serie ass vill méi clever wéi normale Stëmmassistenten. Et kann de Chauffeuren erlaben Auto-relatéiert Informatioun ze fannen an den Auto mat Stëmmbefehle ze bedreiwen.
  • Medien an Ënnerhalung Medien an Ënnerhalung: D'Medienindustrie benotzt och ASR a ville vu senge Projeten. Youtube huet en AI-baséiert Assistent lancéiert deen live Auto-Ënnerschrëften generéiert. Wéi Dir um Écran schwätzt, wäert den Assistent d'Ënnertitelen ubidden fir de Video fir eng méi grouss Grupp vu Youtube Benotzer zougänglech ze maachen.

 

[Lies och: Wat ass Speech-To-Text Technologie a wéi funktionnéiert et]

Wéi kann Shaip hëllefen?

Shaip ass ee vun de féierende AI Trainingsservicer déi Expertise a ville Beräicher vun AI a ML hält. Si kënnen Iech hëllefen mat Ärem eegene Datesaz ze bauen dee fir verschidden Uwendungen a Projete benotzt ka ginn.

E puer vun de Servicer geliwwert vum Shaip sinn:

  • Automatiséierter Speech Recognition (ASR)
  • Scripted Speech Collection
  • Transcreation
  • Spontan Speech Kollektioun
  • Aussprooch Sammlung / Wake-up Words,
  • Text-zu-Speech (TTS)

Dir kënnt vun dëse Servicer profitéieren fir déi bescht Resultater fir Är AI-baséiert Projeten ze kréien. Wësst méi iwwer dës Servicer andeems Dir eis Expert Team haut erreechen!

Sozial Share