Wat ass NLP?
NLP (Natural Language Processing) hëlleft Computeren mënschlech Sprooch ze verstoen. Et ass wéi Computeren ze léieren fir Text a Ried ze liesen, ze verstoen an ze reagéieren wéi d'Mënsche maachen.
Wat kann NLP maachen?
- Maacht messy Text an organiséiert Daten
- Verstinn ob Kommentarer positiv oder negativ sinn
- Iwwersetzen tëscht Sproochen
- Erstellt Zesummefaassungen vu laangen Texter
- A vill méi!
- Ufänken mat NLP:
Fir gutt NLP Systemer ze bauen, braucht Dir vill Beispiller fir se ze trainéieren - sou wéi d'Mënsche besser mat méi Praxis léieren. Déi gutt Noriicht ass datt et vill gratis Ressourcen ass wou Dir dës Beispiller fannt: Hugging Gesiicht, Kaggle an GitHub
NLP Maartgréisst a Wuesstem:
Zënter 2023 gouf den Natural Language Processing (NLP) Maart op ongeféier $ 26 Milliarde geschat. Et gëtt erwaart bedeitend ze wuessen, mat engem zesummegesate jährleche Wuesstumsrate (CAGR) vun ongeféier 30% vun 2023 bis 2030. Dëse Wuesstum gëtt duerch d'Erhéijung vun der Nofro fir NLP Uwendungen an Industrien wéi Gesondheetsariichtung, Finanzen a Clientsservice gedriwwen.
Wéi Dir e gudden NLP Dataset wielt, betruecht déi folgend Faktoren:
- Relevanz: Vergewëssert Iech datt den Dataset mat Ärer spezifescher Aufgab oder Ärem Domain ausgeriicht ass.
- Gréisst: Méi grouss Datesätz verbesseren allgemeng Modellleistung, awer balancéieren Gréisst mat Qualitéit.
- Diversitéit: Sich no Datesätz mat variéierte Sproochstiler a Kontexter fir d'Modeller Robustheet ze verbesseren.
- Qualitéit: Iwwerpréift fir gutt markéiert a korrekt Donnéeën fir Feeler ze vermeiden.
- Accessibilitéit: Vergewëssert Iech datt d'Dateset verfügbar ass fir ze benotzen a berücksichtegt all Lizenzbeschränkungen.
- Virveraarbechtung: Bestëmmt ob d'Dateset eng bedeitend Botzen oder Virveraarbechtung erfuerdert.
- Communautéit Ënnerstëtzung: Populär Datesätz hunn dacks méi Ressourcen a Gemeinschaftssupport, wat hëllefräich ka sinn.
Andeems Dir dës Faktoren evaluéiert, kënnt Dir en Dataset auswielen deen am Beschten Äre Bedierfnesser vum Projet passt
Top 33 Must-See Open Datesets fir NLP
allgemeng
UCI Spambase (Link)
Spambase, erstallt an den Hewlett-Packard Labs, huet eng Sammlung vu Spam-E-Maile vun de Benotzer, fir e personaliséierte Spamfilter z'entwéckelen. Et huet méi wéi 4600 Observatioune vun E-Mail Messagen, vun deenen no bei 1820 Spam sinn.
Enron Dataset (Link)
D'Enron Dataset huet eng grouss Sammlung vun anonymiséierten 'richtegen' E-Mailen fir de Public verfügbar fir hir Maschinnléiermodeller ze trainéieren. Et bitt méi wéi eng hallef Millioun E-Maile vun iwwer 150 Benotzer, virun allem dem Enron seng Senior Management. Dës Dataset ass verfügbar fir souwuel a strukturéiert wéi och onstrukturéiert Formater ze benotzen. Fir déi onstrukturéiert Donnéeën ze späicheren, musst Dir Datenveraarbechtungstechniken uwenden.
Recommender Systems Dataset (Link)
De Recommender System Dataset ass eng rieseg Sammlung vu verschiddenen Datesätz mat verschiddene Features wéi,
- Produkt Kritiker
- Stär Bewäertungen
- Fitness Tracking
- Lidd Daten
- Sozial Netzwierker
- Zäitstempel
- Benotzer / Element Interaktiounen
- GPS Daten
Penn Treebank (Link)
Dëse Corpus, aus dem Wall Street Journal, ass populär fir Sequenz Etikettéierungsmodeller ze testen.
NLTK (Link)
Dës Python Bibliothéik bitt Zougang zu iwwer 100 Corpa a lexikalesch Ressourcen fir NLP. Et enthält och d'NLTK Buch, en Trainingscours fir d'Bibliothéik ze benotzen.
Universal Ofhängegkeeten (Link)
UD bitt e konsequente Wee fir Grammatik ze annotéieren, mat Ressourcen an iwwer 100 Sproochen, 200 Bambanken, an Ënnerstëtzung vun iwwer 300 Gemeinschaftsmemberen.
Gefiller Analyse
Dictionnairen fir Filmer a Finanzen (Link)
D'Dictionnairen fir Filmer a Finanzen Dataset bitt Domain-spezifesch Dictionnairen fir positiv oder negativ Polaritéit a Finance Fëllungen a Filmrezensiounen. Dës Dictionnairen ginn aus IMDb an US Form-8 Fëllungen gezunn.Gefill 140 (Link)
Sentiment 140 huet méi wéi 160,000 Tweets mat verschiddenen Emotioune kategoriséiert a 6 verschiddene Felder: Tweet Datum, Polaritéit, Text, Benotzernumm, ID, an Ufro. Dës Dataset mécht et méiglech fir Iech d'Gefill vun enger Mark, e Produkt oder souguer en Thema op Twitter Aktivitéit ze entdecken. Zënter datt dësen Dataset automatesch erstallt gëtt, am Géigesaz zu anere Mënsch-annotéierten Tweets, klasséiert et Tweets mat positiven Emotiounen an negativen Emotiounen als ongënschteg.
Multi-Domain Sentiment Dataset (Link)
Dëse Multi-Domain Sentiment Dataset ass e Repository vun Amazon Rezensiounen fir verschidde Produkter. E puer Produktkategorien, wéi Bicher, hunn Rezensiounen an Dausende, anerer hunn nëmmen e puer honnert Rezensiounen. Ausserdeem kënnen d'Rezensiounen mat Stärebewäertungen a binäre Etiketten ëmgewandelt ginn.
Standford Sentiment TreeBank (Link)
Dësen NLP Dataset vu Rotten Tomatoes enthält méi laang Ausdréck a méi detailléiert Textbeispiller.
The Blog Authorship Corpus (Link)
Dës Sammlung huet Blogposte mat bal 1.4 Millioune Wierder, all Blog ass eng separat Datesaz.
OpinRank Dataset (Link)
300,000 Rezensiounen vun Edmunds an TripAdvisor, organiséiert vum Automodell oder Reesdestinatioun an Hotel.
Text
-
De Wiki QA Corpus (Link)
Erstellt fir d'Open-Domain Fro an Äntwert Fuerschung ze hëllefen, de WiKi QA Corpus ass ee vun den extensivsten ëffentlech verfügbaren Datesets. Kompiléiert aus de Bing Sichmotor Ufro Logbicher, kënnt et mat Fro-an-Äntwert Pairen. Et huet méi wéi 3000 Froen an 1500 markéiert Äntwert Sätz.
-
Juristesch Fall Rapporten Dataset (Link)
Legal Case Reports Dataset huet eng Sammlung vu 4000 juristesche Fäll a ka benotzt ginn fir automatesch Textsumméiere an Zitatanalyse ze trainéieren. All Dokument, Catchphrasen, Zitatiounsklassen, Zitat Catchphrasen, a méi gi benotzt.
-
Jeopardy (Link)
Jeopardy Dataset ass eng Sammlung vu méi wéi 200,000 Froen déi an der populärer Quiz Fernsehsendung vun engem Reddit Benotzer zesummebruecht goufen. All Datepunkt ass klasséiert no sengem ausgestrahlten Datum, Episodnummer, Wäert, Ronn a Fro / Äntwert.
-
20 Newsgruppen (Link)
Eng Sammlung vun 20,000 Dokumenter ëmfaasst 20 Newsgruppen a Sujeten, detailléiert Themen vu Relioun bis populär Sport.
-
Reuters News Datenset (Link)
Fir d'éischt am Joer 1987 erschéngt, gouf dësen Dataset gelabelt, indexéiert a kompiléiert fir Maschinnléierenzwecker.
-
ArXiv (Link)
Dës substantiell 270 GB Dataset enthält de kompletten Text vun all arXiv Fuerschungspabeieren.
-
European Parliament Proceedings Parallel Corpus (Link)
Satzpairen aus Parlamentverfahren enthalen Entréen aus 21 europäesche Sproochen, mat e puer manner üblech Sprooche fir Maschinnléiere Corpa.
-
Milliarde Wuert Benchmark (Link)
Ofgeleet vum WMT 2011 News Crawl, enthält dës Sproochmodelléierungsdates bal eng Milliard Wierder fir innovativ Sproochmodelléierungstechniken ze testen.
Audio Speech
-
Geschwat Wikipedia Corpora (Link)
-
2000 HUB5 Englesch (Link)
Den 2000 HUB5 Engleschen Dataset huet 40 Telefonsgespréichstranskriptiounen an der englescher Sprooch. D'Date gi vum National Institute of Standards and Technology zur Verfügung gestallt, an hiren Haaptfokus ass d'Erkennung vun der Gespréichssprooch an d'Konvertéierung vun Ried an Text.
-
LibriSpeech (Link)
LibriSpeech Dataset ass eng Sammlung vu bal 1000 Stonnen Englesch Ried geholl a richteg segmentéiert vun Themen an Kapitelen aus Audiobicher, wat et e perfekte Tool fir Natural Language Processing mécht.
-
Gratis geschwat Zifferen Dateset (Link)
Dësen NLP Dataset enthält méi wéi 1,500 Opzeechnunge vu geschwaten Zifferen op Englesch.
-
M-AI Labs Speech Dataset (Link)
Den Dataset bitt bal 1,000 Stonnen Audio mat Transkriptiounen, déi verschidde Sproochen ëmfaasst a kategoriséiert vu männlechen, weiblechen a gemëschte Stëmmen.
-
Kaméidi Speech Datebank (Link)
Dësen Dataset weist parallel lauter a propper Riedenopnamen, geduecht fir d'Entwécklung vu Sproochverbesserungssoftware awer och profitabel fir Training op Ried an usprochsvollen Konditiounen.
Rezensiounen
-
Yelp Rezensiounen (Link)
De Yelp Dataset huet eng grouss Sammlung vu ronn 8.5 Millioune Bewäertunge vun 160,000 plus Geschäfter, hir Bewäertungen a Benotzerdaten. D'Rezensiounen kënne benotzt ginn fir Är Modeller op Sentimentanalyse ze trainéieren. Donieft huet dës Dataset och méi wéi 200,000 Biller déi aacht Metropolplazen ofdecken.
-
IMDB Rezensiounen (Link)
IMDB Bewäertunge gehéieren zu de populäersten Datesätz mat Besetzungsinformatioun, Bewäertungen, Beschreiwung a Genre fir méi wéi 50 Tausend Filmer. Dës Dataset kann benotzt ginn fir Är Maschinnléiermodeller ze testen an ze trainéieren.
-
Amazon Rezensiounen a Bewäertungen Dateset (Link)
Amazon Bewäertungs- a Bewäertungsdates enthalen eng wäertvoll Sammlung vu Metadaten a Bewäertunge vu verschiddene Produkter vun Amazon gesammelt vun 1996 bis 2014 - ongeféier 142.8 Millioune Rekorder. D'Metadaten enthalen de Präis, d'Produktbeschreiwung, d'Mark, d'Kategorie a méi, während d'Rezensiounen Textqualitéit hunn, d'Nëtzlechkeet vum Text, Bewäertungen a méi.
Fro an Äntwert
-
Stanford Question and Answer Dataset (SQuAD) (Link)
Dëst Liesverständnesdates huet 100,000 beäntwert Froen a 50,000 onbeäntwertbar, all erstallt vu Wikipedia-Multaarbechter.
-
Natierlech Froen (Link)
Dësen Trainingsset huet iwwer 300,000 Trainingsbeispiller, 7,800 Entwécklungsbeispiller, a 7,800 Testbeispiller, all mat enger Google Ufro an enger passender Wikipedia Säit.
-
TriviaQA (Link)
Dësen usprochsvollen Froe Set huet 950,000 QA Pairen, inklusiv mënschlech verifizéiert a Maschinn generéiert Ënnersätz.
-
CLEVR (Compositional Language and Elementary Visual Reasoning) (Link)
Dës visuell Fro beäntwert Dataset weist 3D rendered Objeten an Dausende vu Froen mat Detailer iwwer déi visuell Szen.
Also, wéi eng Dataset hutt Dir gewielt fir Äre Maschinnléiermodell ze trainéieren?
Wéi mir goen, wäerte mir Iech mat engem verloossen pro-tipp.
Vergewëssert Iech grëndlech duerch d'README Datei ze goen ier Dir en NLP Dataset fir Är Bedierfnesser wielt. Den Dataset enthält all déi néideg Informatioun déi Dir erfuerdert, sou wéi den Inhalt vum Dataset, déi verschidde Parameteren op deenen d'Donnéeën kategoriséiert goufen, an déi méiglech Benotzungsfäll vun der Dataset.
Onofhängeg vun de Modeller déi Dir baut, et gëtt eng spannend Perspektiv fir eis Maschinnen méi enk an intrinsesch mat eisem Liewen z'integréieren. Mat NLP ginn d'Méiglechkeete fir Geschäfter, Filmer, Riederkennung, Finanzen a méi vill erhéicht.