NLP Datenset fir ML

33 Bescht NLP Datesets fir Är natierlech Sproochveraarbechtungsmodeller ze trainéieren

Natierlech Sproochveraarbechtung ass e wesentleche Stéck an der Maschinn Léieren Rüstung. Wéi och ëmmer, et brauch massiv Quantitéiten un Daten an Training fir datt de Modell gutt funktionnéiert. Ee vun de bedeitende Probleemer mat NLP ass de Mangel u Trainingsdatesätz déi grouss Interessefelder am Domain ofdecken.

Wann Dir an dësem grousse Feld ufänkt, kënnt Dir et usprochsvoll a praktesch iwwerflësseg fannen Är Datesätz ze kreéieren. Besonnesch wann et Qualitéit NLP Datesätz verfügbar ass fir Är Maschinn Léieren Modeller op Basis vun hirem Zweck ze trainéieren.

Den NLP Maart ass geplangt fir bei engem CAGR vun 11.7% wärend 2018 an 2026 ze wuessen fir z'erreechen $ 28.6 Milliarde bis 2026. Dank der wuessender Nofro fir NLP a Maschinnléieren, ass et elo méiglech Är Hänn op Qualitéitsdatesätz ze kréien, déi op Sentimentanalyse, Rezensiounen, Froen an Äntwerten Analyse, a Riedanalyse Datesets suergen.

D'NLP Datesets Fir Machine Learning Dir kënnt Vertrauen

Zënter enger Onmass Datesätz - déi sech op verschidde Bedierfnesser fokusséieren - bal all Dag verëffentlecht ginn, kann et Erausfuerderung sinn fir Qualitéit, zouverlässeg a bescht Datesätz ze kréien. Hei hu mir d'Aarbecht fir Iech méi einfach gemaach, well mir Iech curated Datesätz virgestallt hunn, getrennt op Basis vun de Kategorien déi se déngen.

allgemeng

  • UCI Spambase (Link)

    Spambase, erstallt an den Hewlett-Packard Labs, huet eng Sammlung vu Spam-E-Maile vun de Benotzer, fir e personaliséierte Spamfilter z'entwéckelen. Et huet méi wéi 4600 Observatioune vun E-Mail Messagen, vun deenen no bei 1820 Spam sinn.

  • Enron Dataset (Link)

    D'Enron Dataset huet eng grouss Sammlung vun anonymiséierten 'richtegen' E-Mailen fir de Public verfügbar fir hir Maschinnléiermodeller ze trainéieren. Et bitt méi wéi eng hallef Millioun E-Maile vun iwwer 150 Benotzer, virun allem dem Enron seng Senior Management. Dës Dataset ass verfügbar fir souwuel a strukturéiert wéi och onstrukturéiert Formater ze benotzen. Fir déi onstrukturéiert Donnéeën ze späicheren, musst Dir Datenveraarbechtungstechniken uwenden.

  • Recommender Systems Dataset (Link)

    De Recommender System Dataset ass eng rieseg Sammlung vu verschiddenen Datesätz mat verschiddene Features wéi,

    • Produkt Kritiker
    • Stär Bewäertungen
    • Fitness Tracking
    • Lidd Daten
    • Sozial Netzwierker
    • Zäitstempel
    • Benotzer / Element Interaktiounen
    • GPS Daten
  • Penn Treebank (Link)

    Dëse Corpus, aus dem Wall Street Journal, ass populär fir Sequenz Etikettéierungsmodeller ze testen.

  • NLTK (Link)

    Dës Python Bibliothéik bitt Zougang zu iwwer 100 Corpa a lexikalesch Ressourcen fir NLP. Et enthält och d'NLTK Buch, en Trainingscours fir d'Bibliothéik ze benotzen.

  • Universal Ofhängegkeeten (Link)

    UD bitt e konsequente Wee fir Grammatik ze annotéieren, mat Ressourcen an iwwer 100 Sproochen, 200 Bambanken, an Ënnerstëtzung vun iwwer 300 Gemeinschaftsmemberen.

Gefiller Analyse

  • Dictionnairen fir Filmer a Finanzen (Link)

    Sentimentanalyse
    D'Dictionnairen fir Filmer a Finanzen Dataset bitt Domain-spezifesch Dictionnairen fir positiv oder negativ Polaritéit a Finance Fëllungen a Filmrezensiounen. Dës Dictionnairen ginn aus IMDb an US Form-8 Fëllungen gezunn.

  • Gefill 140 (Link)

    Sentiment 140 huet méi wéi 160,000 Tweets mat verschiddenen Emotioune kategoriséiert a 6 verschiddene Felder: Tweet Datum, Polaritéit, Text, Benotzernumm, ID, an Ufro. Dës Dataset mécht et méiglech fir Iech d'Gefill vun enger Mark, e Produkt oder souguer en Thema op Twitter Aktivitéit ze entdecken. Zënter datt dësen Dataset automatesch erstallt gëtt, am Géigesaz zu anere Mënsch-annotéierten Tweets, klasséiert et Tweets mat positiven Emotiounen an negativen Emotiounen als ongënschteg.

  • Multi-Domain Sentiment Dataset (Link)

    Dëse Multi-Domain Sentiment Dataset ass e Repository vun Amazon Rezensiounen fir verschidde Produkter. E puer Produktkategorien, wéi Bicher, hunn Rezensiounen an Dausende, anerer hunn nëmmen e puer honnert Rezensiounen. Ausserdeem kënnen d'Rezensiounen mat Stärebewäertungen a binäre Etiketten ëmgewandelt ginn.

  • Standford Sentiment TreeBank (Link)

    Dësen NLP Dataset vu Rotten Tomatoes enthält méi laang Ausdréck a méi detailléiert Textbeispiller.

  • The Blog Authorship Corpus (Link)

    Dës Sammlung huet Blogposte mat bal 1.4 Millioune Wierder, all Blog ass eng separat Datesaz.

  • OpinRank Dataset (Link)

    300,000 Rezensiounen vun Edmunds an TripAdvisor, organiséiert vum Automodell oder Reesdestinatioun an Hotel.

Text

  • De Wiki QA Corpus (Link)

    Erstellt fir d'Open-Domain Fro an Äntwert Fuerschung ze hëllefen, de WiKi QA Corpus ass ee vun den extensivsten ëffentlech verfügbaren Datesets. Kompiléiert aus de Bing Sichmotor Ufro Logbicher, kënnt et mat Fro-an-Äntwert Pairen. Et huet méi wéi 3000 Froen an 1500 markéiert Äntwert Sätz.

  • Juristesch Fall Rapporten Dataset (Link)

    Legal Case Reports Dataset huet eng Sammlung vu 4000 juristesche Fäll a ka benotzt ginn fir automatesch Textsumméiere an Zitatanalyse ze trainéieren. All Dokument, Catchphrasen, Zitatiounsklassen, Zitat Catchphrasen, a méi gi benotzt.

  • Jeopardy (Link)

    Jeopardy Dataset ass eng Sammlung vu méi wéi 200,000 Froen déi an der populärer Quiz Fernsehsendung vun engem Reddit Benotzer zesummebruecht goufen. All Datepunkt ass klasséiert no sengem ausgestrahlten Datum, Episodnummer, Wäert, Ronn a Fro / Äntwert.

  • 20 Newsgruppen (Link)

    Eng Sammlung vun 20,000 Dokumenter ëmfaasst 20 Newsgruppen a Sujeten, detailléiert Themen vu Relioun bis populär Sport.

  • Reuters News Datenset (Link)

    Fir d'éischt am Joer 1987 erschéngt, gouf dësen Dataset gelabelt, indexéiert a kompiléiert fir Maschinnléierenzwecker.

  • ArXiv (Link)

    Dës substantiell 270 GB Dataset enthält de kompletten Text vun all arXiv Fuerschungspabeieren.

  • European Parliament Proceedings Parallel Corpus (Link)

    Satzpairen aus Parlamentverfahren enthalen Entréen aus 21 europäesche Sproochen, mat e puer manner üblech Sprooche fir Maschinnléiere Corpa.

  • Milliarde Wuert Benchmark (Link)

    Ofgeleet vum WMT 2011 News Crawl, enthält dës Sproochmodelléierungsdates bal eng Milliard Wierder fir innovativ Sproochmodelléierungstechniken ze testen.

Audio Speech

  • Geschwat Wikipedia Corpora (Link)

    Audio Ried Dësen Dataset ass perfekt fir jiddereen deen iwwer d'Englesch Sprooch wëllt goen. Dësen Dataset huet eng Sammlung vun Artikelen op Hollännesch an Däitsch an Englesch geschwat. Et huet eng divers Palette vun Themen a Lautsprechersets, déi an Honnerte vu Stonnen lafen.

  • 2000 HUB5 Englesch (Link)

    Den 2000 HUB5 Engleschen Dataset huet 40 Telefonsgespréichstranskriptiounen an der englescher Sprooch. D'Date gi vum National Institute of Standards and Technology zur Verfügung gestallt, an hiren Haaptfokus ass d'Erkennung vun der Gespréichssprooch an d'Konvertéierung vun Ried an Text.

  • LibriSpeech (Link)

    LibriSpeech Dataset ass eng Sammlung vu bal 1000 Stonnen Englesch Ried geholl a richteg segmentéiert vun Themen an Kapitelen aus Audiobicher, wat et e perfekte Tool fir Natural Language Processing mécht.

  • Gratis geschwat Zifferen Dateset (Link)

    Dësen NLP Dataset enthält méi wéi 1,500 Opzeechnunge vu geschwaten Zifferen op Englesch.

  • M-AI Labs Speech Dataset (Link)

    Den Dataset bitt bal 1,000 Stonnen Audio mat Transkriptiounen, déi verschidde Sproochen ëmfaasst a kategoriséiert vu männlechen, weiblechen a gemëschte Stëmmen.

  • Kaméidi Speech Datebank (Link)

    Dësen Dataset weist parallel lauter a propper Riedenopnamen, geduecht fir d'Entwécklung vu Sproochverbesserungssoftware awer och profitabel fir Training op Ried an usprochsvollen Konditiounen.

Rezensiounen

  • Yelp Rezensiounen (Link)

    De Yelp Dataset huet eng grouss Sammlung vu ronn 8.5 Millioune Bewäertunge vun 160,000 plus Geschäfter, hir Bewäertungen a Benotzerdaten. D'Rezensiounen kënne benotzt ginn fir Är Modeller op Sentimentanalyse ze trainéieren. Donieft huet dës Dataset och méi wéi 200,000 Biller déi aacht Metropolplazen ofdecken.

  • IMDB Rezensiounen (Link)

    IMDB Bewäertunge gehéieren zu de populäersten Datesätz mat Besetzungsinformatioun, Bewäertungen, Beschreiwung a Genre fir méi wéi 50 Tausend Filmer. Dës Dataset kann benotzt ginn fir Är Maschinnléiermodeller ze testen an ze trainéieren.

  • Amazon Rezensiounen a Bewäertungen Dateset (Link)

    Amazon Bewäertungs- a Bewäertungsdates enthalen eng wäertvoll Sammlung vu Metadaten a Bewäertunge vu verschiddene Produkter vun Amazon gesammelt vun 1996 bis 2014 - ongeféier 142.8 Millioune Rekorder. D'Metadaten enthalen de Präis, d'Produktbeschreiwung, d'Mark, d'Kategorie a méi, während d'Rezensiounen Textqualitéit hunn, d'Nëtzlechkeet vum Text, Bewäertungen a méi.

Fro an Äntwert

  • Stanford Question and Answer Dataset (SQuAD) (Link)

    Dëst Liesverständnesdates huet 100,000 beäntwert Froen a 50,000 onbeäntwertbar, all erstallt vu Wikipedia-Multaarbechter.

  • Natierlech Froen (Link)

    Dësen Trainingsset huet iwwer 300,000 Trainingsbeispiller, 7,800 Entwécklungsbeispiller, a 7,800 Testbeispiller, all mat enger Google Ufro an enger passender Wikipedia Säit.

  • TriviaQA (Link)

    Dësen usprochsvollen Froe Set huet 950,000 QA Pairen, inklusiv mënschlech verifizéiert a Maschinn generéiert Ënnersätz.

  • CLEVR (Compositional Language and Elementary Visual Reasoning) (Link)

    Dës visuell Fro beäntwert Dataset weist 3D rendered Objeten an Dausende vu Froen mat Detailer iwwer déi visuell Szen.

Also, wéi eng Dataset hutt Dir gewielt fir Äre Maschinnléiermodell ze trainéieren?

Wéi mir goen, wäerte mir Iech mat engem verloossen pro-tipp.

Vergewëssert Iech grëndlech duerch d'README Datei ze goen ier Dir en NLP Dataset fir Är Bedierfnesser wielt. Den Dataset enthält all déi néideg Informatioun déi Dir erfuerdert, sou wéi den Inhalt vum Dataset, déi verschidde Parameteren op deenen d'Donnéeën kategoriséiert goufen, an déi méiglech Benotzungsfäll vun der Dataset.

Onofhängeg vun de Modeller déi Dir baut, et gëtt eng spannend Perspektiv fir eis Maschinnen méi enk an intrinsesch mat eisem Liewen z'integréieren. Mat NLP ginn d'Méiglechkeete fir Geschäfter, Filmer, Riederkennung, Finanzen a méi vill erhéicht.

Sozial Share