Fallstudie: Conversational AI

Iwwer 3k Stonnen Daten gesammelt, Segmentéiert & Transkriptéiert fir ASR an 8 indesche Sproochen ze bauen

Ausso Sammlung
D'Regierung zielt hir Bierger einfach Zougang zu Internet & digitale Servicer an hirer eegener Mammesprooch duerch de Bhashini Project z'erméiglechen.

BHASHINI, Indien seng AI-driven Sprooch Iwwersetzungsplattform, ass e wesentleche Bestanddeel vun der Digital India Initiative.

Entworf fir Kënschtlech Intelligenz (AI) an Natural Language Processing (NLP) Tools fir MSMEs, Startups an onofhängeg Innovateuren ze bidden, d'Bhashini Plattform déngt als ëffentlech Ressource. Säin Zil ass digital Inklusioun ze förderen andeems d'indianesch Bierger et erlaben mat den digitalen Initiativen vum Land an hiren Mammesproochen ze interagéieren.

Zousätzlech ass et als Zil d'Disponibilitéit vum Internetinhalt an indesche Sproochen wesentlech auszebauen. Dëst riicht sech virun allem un Beräicher vun ëffentlechen Interessi wéi Gouvernance a Politik, Wëssenschaft an Technologie, etc. Dofir wäert dëst d'Bierger encouragéieren den Internet an hirer eegener Sprooch ze benotzen an hir aktiv Participatioun ze förderen.

Harness NLP fir en diversen Ökosystem vu Bäiträg, Partnerentitéiten a Bierger z'erméiglechen fir d'Sproochbarrièren z'iwwerschreiden, doduerch digital Inklusioun & Empowerment ze garantéieren

Real World Léisung

Entlooss d'Kraaft vun der Lokaliséierung mat Daten

Indien brauch eng Plattform déi sech op d'Schafe vu méisproochege Datesätz an AI-baséiert Sproochtechnologieléisungen konzentréiere géif fir digital Servicer an indesche Sproochen ze bidden. Fir dës Initiativ ze lancéieren, huet Indian Institute of Technology, Madras (IIT Madras) sech mam Shaip zesummegeschafft fir indesch Sproochdatesets ze sammelen, segmentéieren an ze transkribéieren fir méisproocheg Riedmodeller ze bauen.

Erausfuerderunge

Fir de Client mat hirer Speech Technology Ried Roadmap fir indesch Sproochen ze hëllefen, huet d'Team gebraucht fir grouss Volumen vun Trainingsdaten ze kréien, segmentéieren an ze transkriberen fir AI Modell ze bauen. Déi kritesch Ufuerderunge vum Client waren:

Datesammelung

  • Kaaft 3000 Stonnen Trainingsdaten an 8 indesche Sprooche mat 4 Dialekter pro Sprooch.
  • Fir all Sprooch sammelt de Fournisseur Extempore Speech an
    Gespréichsried aus Altersgruppen vun 18-60 Joer
  • Sécherstellen eng divers Mëschung vu Spriecher no Alter, Geschlecht, Ausbildung & Dialekter
  • Assuréiert eng divers Mëschung vun Opnamëmfeld wéi pro Spezifikatioune.
  • All Audioopnam soll op d'mannst 16kHz sinn, awer am léifsten 44kHz

Daten Segmentatioun

  • Erstellt Riedssegmenter vu 15 Sekonnen & Zäitstempel den Audio op Millisekonnen fir all bestëmmte Spriecher, Typ vum Toun (Ried, Babbel, Musek, Kaméidi), Wendungen, Aussoen, & Ausdréck an engem Gespréich
  • Erstellt all Segment fir säi geziilten Tounsignal mat enger 200-400 Millisekonnen Polsterung um Start & Enn.
  • Fir all Segmenter mussen déi folgend Objete gefëllt sinn dh Startzäit, Endzäit, Segment ID, Loudness Level, Sound Type, Sproochcode, Speaker ID, etc.

Daten Transkriptioun

  • Follegt Detailer Transkriptiounsrichtlinne ronderëm Charaktere a speziell Symboler, Schreifweis a Grammatik, Kapitaliséierung, Ofkierzungen, Kontraktioune, Individuell geschwat Buschtawen, Zuelen, Punctuatiounen, Akronyme, Disfluent, Ried, Onverständlech Ried, Net-Zilsproochen, Net-Speech etc.

Qualitéit Check & Feedback

  • All Opzeechnunge fir Qualitéitsbewäertung & Validatioun ze maachen, nëmmen validéiert Ried geliwwert

Léisung

Mat eisem déiwe Verständnis vu konversativen AI, hu mir dem Client gehollef d'Donnéeën ze sammelen, segmentéieren an ze transkriéieren mat engem Team vun Expert Sammler, Linguisten an Annotateuren fir e grousse Korpus vun Audiodates an 8 indesche Sproochen ze bauen

Den Ëmfang vun der Aarbecht fir Shaip abegraff awer war net limitéiert fir grouss Volumen vun Audio Trainingsdaten ze kréien, d'Audioopnamen a Multiple segmentéieren, d'Donnéeën ze transkriéieren an entspriechend JSON Dateien ze liwweren déi d'Metadaten enthalen [SpeakerID, Alter, Geschlecht, Sprooch, Dialekt,
Mammesprooch, Qualifikatioun, Beruff, Domain, Dateiformat, Frequenz, Kanal, Audiotyp, Zuel vu Spriecher, Zuel vun Friemsproochen, benotzte Setup, Narrowband oder Wideband Audio, etc.]. 

Shaip huet 3000 Stonnen Audiodaten op Skala gesammelt, wärend de gewënschte Qualitéitsniveau erhale bleift fir Sproochtechnologie fir komplexe Projeten ze trainéieren. Explizit Zoustëmmungsform gouf vun jidderengem vun de Participanten geholl.

1. Datesammlung