Case Study: Automatic Speech Recognition

Iwwer 8k Audio Stonne gesammelt, 800 Stonnen transkribéiert fir Multilingual Voice Technology

Gespréich ai

Aféierung

Indien huet eng Plattform gebraucht, déi sech op d'Schafe vu méisproochege Datesätz an AI-baséiert Sproochtechnologieléisungen konzentréiere fir digital Servicer an indesche Sproochen ze bidden. Fir dës Initiativ ze lancéieren, huet de Client sech mam Shaip zesummegeschafft fir indesch Sprooch ze sammelen an ze transkribéieren fir méisproocheg Riedmodeller ze bauen.

Volume

Stonnen vun Daten gesammelt
10
Zuel vun Säiten annotéiert
10 +
Projet Dauer
< 1 Méint

Erausfuerderunge

Fir de Client mat hirer Speech Technology Ried Roadmap fir indesch Sproochen ze hëllefen, huet d'Team gebraucht fir grouss Volumen vun Trainingsdaten ze kréien, segmentéieren an ze transkriberen fir AI Modell ze bauen. Déi kritesch Ufuerderunge vum Client waren:

Datesammelung

  • Kaaft 8000 Stonnen Trainingsdaten aus Fernplazen vun Indien
  • De Fournisseur fir Spontan Ried aus Altersgruppen vun 20-70 Joer ze sammelen
  • Sécherstellen eng divers Mëschung vu Spriecher no Alter, Geschlecht, Ausbildung an Dialekter
  • All Audioopnam soll op d'mannst 16kHz mat 16 Bits / Sample sinn.
Datenerfassung

Daten Transkriptioun

Follegt Detailer Transkriptiounsrichtlinne ronderëm Charaktere a speziell Symboler, Schreifweis a Grammatik, Kapitaliséierung, Ofkierzungen, Kontraktioune, Individuell geschwat Buschtawen, Zuelen, Punktuatioune, Akronyme an Initialismen, Disfluent Ried, Onverständlech Ried, Net-Zilsproochen, Net-Speech

Daten Transkriptioun

Qualitéit Check & Feedback

All Opzeechnunge fir Qualitéitsbeurteilung a Validatioun ze maachen, nëmmen validéiert Riedopname fir geliwwert ze ginn

Léisung

Mat eisem déiwe Verständnis vu konversativen AI, hu mir dem Client gehollef d'Audiodaten ze sammelen, ze transkriéieren mat engem Team vun Expert Sammler, Linguisten an Annotateuren fir e grousse Korpus vun Audiodaten aus Ferndeeler vun Indien ze bauen.

Den Ëmfang vun der Aarbecht fir Shaip abegraff awer war net limitéiert fir grouss Volumen vun Audio Trainingsdaten ze kréien, d'Donnéeën ze transkriéieren an entspriechend JSON Dateien ze liwweren déi d'Metadaten enthalen [fir béid Spriecher an Transcribers. Fir all Spriecher enthält d'Metadaten eng anonymiséiert Speaker ID, Apparatdetailer, demographesch Informatioun wéi Geschlecht, Alter, an Ausbildung, zesumme mat hirem Pincode, sozio-ekonomesche Status, geschwate Sproochen an e Rekord vun hirem Liewensdauer. Fir all Transcriber enthalen d'Donnéeën eng anonymiséiert Transcriber ID, demographesch Detailer ähnlech wéi d'Spriecher, hir Transkriptiounserfahrung Dauer, an eng grëndlech Ënnerdeelung vu Sproochen déi se kënne liesen, schreiwen a schwätzen.

Shaip gesammelt 8000 Stonnen vun Audiodaten / Spontan Ried op Skala an transkribéiert 800 Stonnen wärend gewënschte Qualitéitsniveauen erhalen, déi néideg sinn fir Riedtechnologie fir komplex Projeten ze trainéieren. Explizit Zoustëmmungsform gouf vun jidderengem vun de Participanten geholl. D'Spontan Ried gesammelt war baséiert op Universitéit geliwwert Biller. Vun 3500 Fotoen 1000 sinn generesch an 2500 bezéien sech op d'Bezierksspezifesch Kultur, Fester, etc. Biller weisen verschidden Domainen wéi Gare, Mäert, Wieder, a méi.

Datesammelung

StatDistrikterAudio HrTranskriptioun
(Hrs)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, Nord 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
opgoenNord + Süd Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
spéitSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Ganzen8000800

Allgemeng Richtlinnen

Format

    • Audio bei 16 kHz, 16 Bits / Sample.
    • Single Kanal.
    • Raw Audio ouni Transkodéierung.

Stil

    • Spontan Ried.
    • Sätz baséiert op Universitéit geliwwert Biller. Vun 3500 Biller sinn 1000 generesch an 2500 bezéien sech op Bezierksspezifesch Kultur, Fester, etc. Biller weisen verschidden Domainen wéi Gare, Mäert, Wieder, a méi.

Opnam Hannergrond

    • Opgeholl an engem rouegen, echo-fräi Ëmfeld.
    • Keng Smartphone Stéierungen (Vibratioun oder Notifikatiounen) wärend der Opnam.
    • Keng Verzerrungen wéi Ausschnëtter oder wäitfeldeffekter.
    • Vibratiounen vum Telefon inakzeptabel; extern Schwéngungen sinn tolerabel wann Audio kloer ass.

Speaker Spezifizéierung

    • Alter Gamme vun 20-70 Joer mat equilibréiert Geschlecht Verdeelung pro Bezierk.
    • Minimum vun 400 Mammesproochler an all Distrikt.
    • Spriecher sollen hir Heemsprooch/Dialekt benotzen.
    • Zoustëmmung Formen obligatoresch fir all Participanten.


Qualitéitskontroll & kritesch Qualitéitssécherung

De QA Prozess prioritär Qualitéitssécherung fir Audioopnamen an Transkriptiounen. Audiostandards konzentréieren sech op präzis Stillen, Segmentdauer, Kloerheet fir eenzel Spriecher, an detailléiert Metadaten abegraff Alter a sozio-ekonomesche Status. Transkriptiounskriterien ënnersträichen Taggenauegkeet, Wuertwieregkeet a korrekt Segmentdetailer. D'Akzeptanzbenchmark diktéiert datt wa méi wéi 20% vun enger Audio-Batch dës Norme feelt, et refuséiert gëtt. Fir manner wéi 20% Ënnerscheeder sinn Ersatzopzeechnunge mat ähnlechen Profiler erfuerderlech.

Daten Transkriptioun

Transkriptiounsrichtlinnen ënnersträichen Genauegkeet a verbatim Transkriptioun nëmme wann d'Wierder kloer a verständlech sinn; onkloer Wierder ginn als [onverständlech] oder [onhörbar] markéiert baséiert op dem Thema. Satz Grenzen an laang Audio sinn markéiert mat , a keng Parafraséierung oder Korrektur vu grammatesche Feeler ass erlaabt. Verbatim Transkriptioun deckt Feeler, Schlaangen, a Widderhuelungen, awer verléisst falsch Starten, Füllkläng, a Stutteren. Hannergrond- a Virdergrondgeräischer gi mat deskriptiven Tags transkribéiert, wärend eegent Nimm, Titelen an Zuelen spezifesch Transkriptiounsregelen befollegen. Lautsprecheretikett gi fir all Saz benotzt, an onkomplett Sätz gi mat uginn.

Projet Workflow

De Workflow beschreift den Audio Transkriptiounsprozess. Et fänkt mat Onboarding an Training Participanten un. Si notéieren Audio mat enger App, déi op eng QA Plattform eropgeluede gëtt. Dësen Audio erfëllt Qualitéitskontrollen an automatesch Segmentatioun. D'Tech Team preparéiert dann Segmenter fir Transkriptioun. No der manueller Transkriptioun gëtt et e Qualitéitssécherungsschrëtt. Transkriptiounen ginn dem Client geliwwert, a wann et ugeholl gëtt, gëtt d'Liwwerung als komplett ugesinn. Wann net, gi Versioune gemaach baséiert op Client Feedback.

Resultat

Déi héichqualitativ Audiodaten vun Expert Linguisten erlaben eise Client präzis méisproocheg Speech Recognition Modeller a verschiddenen indesche Sproochen mat verschiddenen Dialekter an der virgeschriwwener Zäit ze trainéieren an ze bauen. D'Spriecherkennungsmodeller kënne benotzt ginn fir:

  • Sproochbarriär fir digital Inclusioun iwwerwannen andeems d'Bierger mat den Initiativen an hirer eegener Mammesprooch verbannen.
  • Fördert Digital Gouvernance
  • Katalysator fir en Ökosystem fir Servicer a Produkter an indesche Sproochen ze bilden
  • Méi lokaliséiert digital Inhalter an de Beräicher vum ëffentlechen Interesse, besonnesch Gouvernance & Politik

Mir sinn iwwerrascht iwwer dem Shaip seng Expertise am Gespréichs-AI Räich. D'Aufgab fir 8000 Stonnen Audiodaten ze handhaben zesumme mat 800 Stonnen Transkriptioun iwwer 80 verschidden Distrikter war monumental, fir d'mannst ze soen. Et war dem Shaip säi déiwe Verständnis vun de komplizéierten Detailer an Nuancen vun dësem Domain, deen déi erfollegräich Ausféierung vun esou engem usprochsvollen Projet méiglech gemaach huet. Hir Fäegkeet fir nahtlos duerch d'Komplexitéite vun dëser grousser Quantitéit un Daten ze managen an ze navigéieren, wärend d'Top-Notch Qualitéit assuréieren ass wierklech luewenswäert.

Golden-5-Stär

Beschleunegt Är Conversational AI
Applikatioun Entwécklung vun 100%