Fallstudie: Conversational AI

Iwwer 3k Stonnen Daten gesammelt, Segmentéiert & Transkriptéiert fir ASR an 8 indesche Sproochen ze bauen
Gespréich ai
D'Regierung zielt hir Bierger einfach Zougang zu Internet & digitale Servicer an hirer eegener Mammesprooch duerch de Bhashini Project z'erméiglechen.

BHASHINI, Indien seng AI-driven Sprooch Iwwersetzungsplattform, ass e wesentleche Bestanddeel vun der Digital India Initiative.

Entworf fir Kënschtlech Intelligenz (AI) an Natural Language Processing (NLP) Tools fir MSMEs, Startups an onofhängeg Innovateuren ze bidden, d'Bhashini Plattform déngt als ëffentlech Ressource. Säin Zil ass digital Inklusioun ze förderen andeems d'indianesch Bierger et erlaben mat den digitalen Initiativen vum Land an hiren Mammesproochen ze interagéieren.

Zousätzlech ass et als Zil d'Disponibilitéit vum Internetinhalt an indesche Sproochen wesentlech auszebauen. Dëst riicht sech virun allem un Beräicher vun ëffentlechen Interessi wéi Gouvernance a Politik, Wëssenschaft an Technologie, etc. Dofir wäert dëst d'Bierger encouragéieren den Internet an hirer eegener Sprooch ze benotzen an hir aktiv Participatioun ze förderen.

Real World Léisung

Entlooss d'Kraaft vun der Lokaliséierung mat Daten

Indien brauch eng Plattform déi sech op d'Schafe vu méisproochege Datesätz an AI-baséiert Sproochtechnologieléisungen konzentréiere géif fir digital Servicer an indesche Sproochen ze bidden. Fir dës Initiativ ze lancéieren, huet Indian Institute of Technology, Madras (IIT Madras) sech mam Shaip zesummegeschafft fir indesch Sproochdatesets ze sammelen, segmentéieren an ze transkribéieren fir méisproocheg Riedmodeller ze bauen.

Erausfuerderunge

Fir de Client mat hirer Speech Technology Ried Roadmap fir indesch Sproochen ze hëllefen, huet d'Team gebraucht fir grouss Volumen vun Trainingsdaten ze kréien, segmentéieren an ze transkriberen fir AI Modell ze bauen. Déi kritesch Ufuerderunge vum Client waren:

Datesammelung

  • Kaaft 3000 Stonnen Trainingsdaten an 8 indesche Sprooche mat 4 Dialekter pro Sprooch.
  • Fir all Sprooch sammelt de Fournisseur Extempore Speech an
    Gespréichsried aus Altersgruppen vun 18-60 Joer
  • Sécherstellen eng divers Mëschung vu Spriecher no Alter, Geschlecht, Ausbildung & Dialekter
  • Assuréiert eng divers Mëschung vun Opnamëmfeld wéi pro Spezifikatioune.
  • All Audioopnam soll op d'mannst 16kHz sinn, awer am léifsten 44kHz

Daten Segmentatioun

  • Erstellt Riedssegmenter vu 15 Sekonnen & Zäitstempel den Audio op Millisekonnen fir all bestëmmte Spriecher, Typ vum Toun (Ried, Babbel, Musek, Kaméidi), Wendungen, Aussoen, & Ausdréck an engem Gespréich
  • Erstellt all Segment fir säi geziilten Tounsignal mat enger 200-400 Millisekonnen Polsterung um Start & Enn.
  • Fir all Segmenter mussen déi folgend Objete gefëllt sinn dh Startzäit, Endzäit, Segment ID, Loudness Level, Sound Type, Sproochcode, Speaker ID, etc.

Daten Transkriptioun

  • Follegt Detailer Transkriptiounsrichtlinne ronderëm Charaktere a speziell Symboler, Schreifweis a Grammatik, Kapitaliséierung, Ofkierzungen, Kontraktioune, Individuell geschwat Buschtawen, Zuelen, Punctuatiounen, Akronyme, Disfluent, Ried, Onverständlech Ried, Net-Zilsproochen, Net-Speech etc.

Qualitéit Check & Feedback

  • All Opzeechnunge fir Qualitéitsbewäertung & Validatioun ze maachen, nëmmen validéiert Ried geliwwert

Léisung

Mat eisem déiwe Verständnis vu konversativen AI, hu mir dem Client gehollef d'Donnéeën ze sammelen, segmentéieren an ze transkriéieren mat engem Team vun Expert Sammler, Linguisten an Annotateuren fir e grousse Korpus vun Audiodates an 8 indesche Sproochen ze bauen

Den Ëmfang vun der Aarbecht fir Shaip abegraff awer war net limitéiert fir grouss Volumen vun Audio Trainingsdaten ze kréien, d'Audioopnamen a Multiple segmentéieren, d'Donnéeën ze transkriéieren an entspriechend JSON Dateien ze liwweren déi d'Metadaten enthalen [SpeakerID, Alter, Geschlecht, Sprooch, Dialekt,
Mammesprooch, Qualifikatioun, Beruff, Domain, Dateiformat, Frequenz, Kanal, Audiotyp, Zuel vu Spriecher, Zuel vun Friemsproochen, benotzte Setup, Narrowband oder Wideband Audio, etc.].

Shaip huet 3000 Stonnen Audiodaten op Skala gesammelt, wärend de gewënschte Qualitéitsniveau erhale bleift fir Sproochtechnologie fir komplexe Projeten ze trainéieren. Explizit Zoustëmmungsform gouf vun jidderengem vun de Participanten geholl.

1. Datesammlung

2. Donnéeën Segmentatioun

  • D'Audiodaten, déi gesammelt goufen, goufen weider a Riedssegmenter vu jidderee vun 15 Sekonnen opgedeelt an Zäitstempel op d'Millisekonnen fir all bestëmmte Spriecher, Typ vum Toun, Wendungen, Aussoen an Ausdréck an engem Gespréich
  • Erstellt all Segment fir säi geziilten Tounsignal mat enger 200-400 Millisekonnen Padding um Ufank an Enn vun engem Tounsignal.
  • Fir all Segmenter waren déi folgend Objekter präsent a gefëllt dh Startzäit, Endzäit, Segment ID, Loudnessniveau (Laut, Normal, Rou), Primär Sound Typ (Speech, Babble, Music, Noise, Overlap), Language Code Speaker ID, Transkriptioun etc.

3. Qualitéit Check an Feedback

  • All Opzeechnunge goufen fir Qualitéit beurteelt an nëmmen validéiert Riedsopname mat WER vun 90% an TER vun 90% goufen geliwwert
  • Qualitéitschecklist gefollegt:
    » Max 15 Sekonnen Segmentlängt
    » Transkriptioun vu spezifesche Domainen, nämlech: Wieder, verschidden Aarte vun Neiegkeeten, Gesondheet, Landwirtschaft, Educatioun, Aarbechtsplazen oder Finanzen
    » Niddereg Hannergrond Kaméidi
    » Keen Audio Clip aus - Keng Verzerrung
    »Korrekt Audio Segmentatioun fir Transkriptioun

4. Donnéeën Transkriptiouns
All geschwat Wierder, inklusiv Zécken, Fëllwierder, falsch Starten, an aner verbal Tics, goufen präzis an der Transkriptioun ageholl. Mir hunn och Detailer Transkriptiounsrichtlinne ronderëm Haapt- a kleng Buschtawen gefollegt, Schreifweis, Kapitaliséierung, Ofkierzungen, Kontraktioune, Zuelen,
Punktuatioun, Akronyme, Disfluent Speech, Net-Speech Geräischer etc. Ausserdeem ass den Work Flow gefollegt fir Sammlung an Transkriptioun wéi hei ënnen:

Resultat

Déi héichqualitativ Audiodaten vun Expert Linguisten erlaben Indian Institute of Technology - Madras, fir méisproocheg Speech Recognition Modeller an 8 indesche Sprooche mat verschiddenen Dialekter an der virgeschriwwener Zäit präzis ze trainéieren an ze bauen. D'Spriecherkennungsmodeller kënne benotzt ginn fir:

  • Sproochbarriär fir digital Inclusioun iwwerwannen andeems d'Bierger mat den Initiativen an hirer eegener Mammesprooch verbannen.
  • Fördert Digital Gouvernance
  • Katalysator fir en Ökosystem fir Servicer a Produkter an indesche Sproochen ze bilden
  • Méi lokaliséiert digital Inhalter an de Beräicher vum ëffentlechen Interesse, besonnesch Gouvernance & Politik
Golden-5-Stär

Mir ware beandrockt mat dem Shaip seng Expertise am Gespréich AI Raum. Hir Gesamtprojetausféierungskompetenz vum Sourcing, Segmentéieren, Transkriptioun an d'Liwwerung vun den erfuerderlechen Trainingsdaten vun Expert Linguisten an 8 Sproochen innerhalb vun strenge Timelines a Richtlinnen; wärend ëmmer nach den akzeptablen Qualitéitsstandard behalen."

Beschleunegt Är Conversational AI Applikatioun Entwécklung ëm 100%

Featured Clienten

Empowering Teams fir weltwäit féierend AI Produkter ze bauen.