Datasets opmaachen
Entdeckt Open Source Datesätz déi Iech erlaabt ML Modeller ze trainéieren
Open Source Datesets Fir Iech mat AI / ML Modeller unzefänken
D'Output vun Ären AI & ML Modeller ass nëmme sou gutt wéi d'Donnéeën déi Dir benotzt fir se ze trainéieren - sou datt d'Präzisioun déi Dir op d'Datenaggregatioun applizéiert an d'Tagging an d'Identifikatioun vun dësen Donnéeën wichteg ass!
Also wann Dir eng nei AI / ML Initiative wëllt starten an elo mierkt Dir séier datt qualitativ héichwäerteg Trainingsdaten ze fannen ass ee vun de méi usprochsvollen Aspekter vun Ärem Projet well héichqualitativ Datesätz de Brennstoff sinn deen den AI / hält. ML Motor lafen. Mir hunn eng Lëscht vun oppene Datesätz gesammelt déi gratis sinn ze benotzen an Är AI/ML Modeller vun der Zukunft ze trainéieren.
Spezialiséierung | Daten Typ | Dateset Numm | Industrie / Dept. | Annotatioun / Benotzungsfall | Beschreiwung | Link |
---|---|---|---|---|---|---|
PNL | Text | Amazon Rezensiounen | E-commerce | Gefiller Analyse | Eng Rei vu 35 Mn Bewäertungen & Bewäertunge vun de leschten 18 Joer am Kloertext mat Benotzer- a Produktdetailer. | Link |
PNL | Text | Wikipedia Linken Daten | allgemeng | Méi wéi 4 Mn. Artikelen mat 1.9 Milliarden. Wuert dat aus Wierder a Sätze wéi och Abschnitter besteet. | Link | |
PNL | Text | Standford Sentiment Treebank | Ënnerhaalung | Gefiller Analyse | Sentiment Annotations Dataset fir iwwer 10,000 Stéck Rezensiounen vu Rotten Tomatoes am HTML Dateiformat | Link |
PNL | Text | Twitter US Airline Sentiment | Airline | Gefiller Analyse | 2015 Tweets op US Airlines verdeelt sech a positiv, negativ an neutral Téin | Link |
CV | Video, Bild | UMDFaces Dateset | allgemeng | Gesiicht Unerkennung | Annotéiert Dataset mat iwwer 367,000 Gesiichter aus iwwer 8,000 Themen déi Still a Video Biller enthält. | Link |
CV | Bild | Imagenet | allgemeng | Dataset mat iwwer 14 Mn. Biller a verschiddene Dateiformater, organiséiert no der WordNet Hierarchie. | Link | |
CV | Bild | Google's Open Biller | allgemeng | 9 mnn. URLen fir ëffentlech Biller aus iwwer 6,000 Kategorien ze kategoriséieren. | Link | |
PNL | Text | MIMIC Critical Care Datebank | Gesondheetswiesen | Computational Physiology Datasets mat de-identifizéierten Donnéeën vu 40,000 kriteschen Pfleegpatienten. Den Dataset enthält Informatioun wéi Demographie, vital Schëlder, Medikamenter, asw. | Link | |
CV | Bild | US National Travel and Tourism Office | Tourismus | Bitt breet Fotoen aus der Tourismusindustrie mat zouverléissege Datenbanken, iwwer Themen wéi Inbound an Outbound Rees an international Touristeninformatioun. | Link | |
PNL | Text | Transportamt | Tourismus | Tourismus Datesätz déi Nationalparken enthalen, Chaufferregistere, Brécke & Eisebunnsinformatioun etc. | Link | |
PNL | Audio | Flickr Audio Caption Corpus | allgemeng | Iwwer 40k geschwat Ënnerschrëften aus 8,000 Fotoen entworf fir oniwwerwaacht Riedmuster | Link | |
PNL | Audio | Speech Commands Dataset | allgemeng | Speech Recognition, Audio Annotation | 1 Sekonn laang Aussoe vun Dausende vun Individuen, fir Basis Stëmm Interface ze bauen. | Link |
PNL | Audio | Ëmwelt- Audio Datesets | allgemeng | Ëmfeld Audiodatesets déi Toun vun Eventtabellen an akustesch Szenen Dëscher enthalen. | Link | |
PNL | Text | COVID-19 Open Research Dataset | Gesondheetswiesen | Medizinesch AI | E Fuerschungsdataset besteet aus 45,000 wëssenschaftlechen Artikelen iwwer COVID-19 & der Coronavirus Famill vu Virussen. | Link |
CV | Bild | Waymo Open Dateset | Automotive | Déi verschiddenst autonom Fuerdatesets verëffentlecht vum Waymo | Link | |
CV | Bild | Labelme | Ëffentlech Govt. | Grousse Set vun annotéiert Biller zougänglech duerch de Labelme Matlab | Link | |
CV | Bild | Stanford Dogs Dataset | allgemeng | Iwwer 20,500+ Biller kategoriséiert a Bildset vun 120 verschiddenen Hondsrassen | Link | |
CV | Bild | Indoor Zeen Unerkennung | allgemeng | Zeen Unerkennung | E spezifescht Dataset besteet aus 15620 Biller aus 67 Indoor Kategorien fir Szenerkennungsmodeller ze bauen | Link |
CV | Bild | VisualQA | allgemeng | En Dataset deen oppe Froen betreffend 265,016 Fotoen enthält, déi Verständnis vu Visioun a Sproochverständnis erfuerderen fir ze reagéieren. | Link | |
PNL | Text | Multidomain Sentiment Analyse Dataset | E-commerce | Gefiller Analyse | Dateset mat Produktrezensiounen vun Amazon | Link |
PNL | Text | IMDB Rezensiounen | Ënnerhaalung | Gefiller Analyse | Dataset mat 25000 Filmreview fir Gefillsanalyse | Link |
PNL | Text | Blogger Corpus | allgemeng | Keyprase Analyse | Dataset mat 681,288 Blogposte vu blogger.com besteet aus minimum 200 Optriede vu wäit benotzten englesche Wierder. | Link |
PNL | Text | Jeopardy | allgemeng | Chatbot Training | Dateset mat méi wéi 200,000 Froen déi benotzt kënne ginn fir Maschinnléiermodeller ze trainéieren fir intelligent automatesch z'äntwerten | Link |
PNL | Text | SMS Spam Sammlung op Englesch | Telecom | Spam Unerkennung | E Spam Message Datesaz besteet aus 5,574 Englesch SMSen | Link |
PNL | Text | Yelp Rezensiounen | allgemeng | Gefiller Analyse | En Dataset mat iwwer 5 mn Bewäertung publizéiert vun Yelp | Link |
PNL | Text | UCI Spambase | Projet | Spam Unerkennung | E grousst Dataset vu Spam E-Mailen, nëtzlech fir Spamfiltering. | Link |
CV | Video, Bild | Berkeley DeepDrive BDD100k | Automotive | Autonom Autoen | Ee vun de gréissten Dataset fir selbstfahrend AI mat 1,100 Stonne Fuererfarungen an iwwer 100,000 Videoe vu verschiddenen Zäiten vum Dag aus New York a San Francisco Regioun. | Link |
CV | Video | Comma.ai | Automotive | Autonom Autoen | Eng 7 Stonne Autobunnsfuerer Datesaz besteet aus Informatioun iwwer Auto Geschwindegkeet, Beschleunegung, Lenkwinkel a GPS Koordinaten | Link |
CV | Video, Bild | Cityscape Dataset | Automotive | Semantesch Label fir Autonom Gefier | En Dataset vu 5,000 Pixel-Niveau Annotatiounen plus e gréissere Set vun 20,000 schwaach annotéiert Frames a Stereo Videosequenzen, opgeholl aus 50 verschiddene Stied | Link |
CV | Bild | KUL Belsch Traffic Sign Dataset | Automotive | Autonom Autoen | Iwwer 10000+ Verkéiersschëlder Annotatiounen aus der Flandern Regioun baséiert op kierperlech ënnerscheede Verkéiersschëlder aus der ganzer Belsch. | Link |
CV | Bild | LISA: Laboratoire fir intelligent a sécher Autoen, UC San Diego Datesets | Automotive | Autonom Autoen | E räiche Dataset mat Verkéiersschëlder, Gefiererkennung, Traffic Luuchten, a Trajectoire Musteren. | Link |
CV | Bild | CIFAR-10 | allgemeng | Objekterkennung | En Dataset besteet aus 50,000 Biller an 10,000 Testbilder (dh 60,000 32 × 32 Faarfbilder an 10 Klassen) fir Objekterkennung. | Link |
CV | Bild | Moud MNIST | Fashion | Eng Bilddatei déi aus 60,000 Beispiller besteet an engem Testset vun 10,000 Beispiller an 28 × 28 Grauskala-Biller, verbonne mat engem Label aus 10 Klassen. | Link | |
CV | Bild | IMDB-Wiki Dateset | Ënnerhaalung | Gesiicht Unerkennung | Eng grouss Datebank vu Gesiichtsbilder mat Etiketten wéi Geschlecht an Alter. Vun den insgesamt 523,051 Gesiichtsbiller ginn 460,723 Biller vun 20,284 Promi vun IMDB & 62,328 vu Wikipedia kritt. | Link |
CV | Video | Kinetics-700 | allgemeng | Fir all Aktiounsklass besteet den héichqualitativen Datesaz aus 650,000 Videoclips an ëmfaasst 700 mënschlech Aktiounsklassen mat mindestens 600 Videoclips. Hei dauert all Clip 10 Sekonnen oder esou. | Link | |
CV | Bild | MS Coco | allgemeng | Objekterkennung, Segmentatioun | Den Dataset enthält 328k Biller an huet insgesamt 2.5 Mn Instanzen an 91 Objektbilder fir grouss-Skala Objekterkennung, Segmentatioun an Datebezeechnung verbonne ML Modeller ze trainéieren. | Link |
CV | Bild | MPII Mënsch Pose Dataset | allgemeng | Ongeféier 25K Fotoen mat iwwer 40K Individuen mat annotéierte Kierpergelenker sinn an der Dataset abegraff, déi benotzt gëtt fir d'mënschlech Poseschätzung ze artikuléieren. Insgesamt deckt den Dataset 410 mënschlech Aktivitéiten an all Bild gëtt mat engem Aktivitéitslabel geliwwert. | Link | |
CV | Bild | Biller opmaachen | allgemeng | Objekt Standuert Annotatiounen | Bilddataset mat ongeféier 9 Mn Biller annotéiert mat Bildniveau Etiketten, Objektbegrenzungsboxen, Objektsegmentéierung etc. D'Dateset besteet och aus 16 Mn. Grenzkëschte fir 600 Objektklassen op 1.9 Mn Biller. | Link |
CV | Video, Bild | Argo, vun Argo, USA | Automotive | Bounding Box, opteschen Flow, Behuelen Label, Semantic Label, Lane Marquage | E selbstfahrend Dataset deen aus HD Kaarten mat geometreschen & semantesche Metadaten besteet, dh Spuerzentren, Spuerrichtung, & fuerbare Beräich. Den Dataset gëtt benotzt fir ML Modeller ze trainéieren, fir méi genee Perceptioun Algorithmen ze maachen, déi selbstfahrend Gefierer hëllefen sécher ze navigéieren. | Link |
CV | Video | Bosch Small Traffic Lights, vun Bosch North America Research | Automotive | Bounding Box | En Dataset besteet aus 13427 Kamera Biller mat 1280 * 720 Resolutioun fir Visioun-baséiert Traffic Luucht Detektioun System ze bauen. Den Dataset huet méi wéi 24000 annotéiert Traffic Luuchten. | Link |
CV | Video | Brain4Cars, vum Cornell Univ., USA | Automotive | Behuelen Label | En Dataset besteet aus enger Rei vu Kabinesensoren (Kameraen, Taktile Sensoren, Smart Geräter, asw.) fir nëtzlech Statistiken iwwer d'Alarmheet vum Chauffer ze extrahieren. Eis Algorithmen kënnen Chauffeuren entdecken déi schlëmm sinn oder ofgelenkt sinn an déi néideg Alarm erhéijen fir de Schutz ze verbesseren. | Link |
CV | Bild | CULane, vum Chinese Univ. vun Hong Kong, Peking, China | Automotive | Lane Markéierung | E Computer Vision Dataset iwwer Verkéiersspurenerkennung, besteet aus 55 Stonnen Videoen, vun deenen 133,235 (88880 Trainingsset, 9675 Validatiounsset, an 34680 Testset) Frames extrahéiert goufen. Et gëtt gesammelt vu Kameraen, déi op sechs verschidde Gefierer montéiert sinn, déi vu verschiddene Chauffeuren zu Peking gefuer sinn. | Link |
CV | Video | DAVIS, Univ. Zürich, ETH ¨ Zürich, Däitschland, Schwäiz | Automotive | En End-to-End Gefier Fuer Training Dataset deen eng DAVIS Event + Frame Kamera benotzt. Autosdaten wéi Lenkung, Drossel, GPS, etc. gi benotzt fir d'Fusioun vu Frame- an Eventdaten fir Automobil Apps ze evaluéieren. | Link | |
CV | Video | DBNet, vum Shanghai Jiao Tong Univ., Xiamen Univ., China | Automotive | Point Cloud, LiDAR | Eng real-Welt 1000 KM Fahrdaten, déi ausgeriicht Video, Punktwolk, GPS a Chaufferverhalen fir déif Fuerschung iwwer Fuerverhalen enthalen. | Link |
CV | Video | Dr(eye)ve, vun Univ. vu Modena a Reggio Emilia, Modena, Italien | Automotive | Behuelen Label | Dataset mat 74 Videosequenze vu jee 5 Minutten, déi a méi wéi 500,000 Frames annotéiert goufen. D'Datesaz besteet aus geo-referenzéierte Plazen, Fahrgeschwindegkeet, Course, an och Etiketten vun de Chauffeuren Bléckfixatiounen an hir temporär Integratioun déi Aufgabspezifesch Kaarten ubitt. | Link |
CV | Video | ETH Pedestrian (2009), ETH Zurich, Zurich, Switzerland | allgemeng | Bounding Box | En Dataset vu 74 Videosequenze vu jee 5 Minutten, annotéiert a méi wéi 500,000 Frames. D'Datebank bitt geo-referenzéierte Positiounen, Fueregeschwindegkeet, Richtung, a markéiert och Bléckfixatioune fir Chauffeuren an hir temporär Integratioun, inklusiv Taskspezifesch Kaarten. | Link |
CV | Video | Ford (2009), vum Univ. vu Michigan, Michigan, US | Automotive | Bounding Box, , LiDAR | En Dataset kompiléiert vun engem automatiséierte Landfahrzeug bewaffnet mat engem Velodyne 3D-Lidar Scanner, zwee Push-Broom Forward-sicht Rieg Lidars, eng technesch a Konsument Inertial Miessung Eenheet (IMU), an e Point Grey Ladybug3 omnidirektional Kamera System. | Link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Däitschland | allgemeng | En Dataset vun e puer Millioune Frames aus ageholl Video Szenen déi eng breet Palette vu verschiddene Wiederkonditiounen enthalen, verschidde Schichten vu Bewegung an Déift; Situatiounen an der Stad an am Land, etc. | Link | |
CV | Video | JAAD, vun der York University, Ukraine, Kanada | Automotive | Bounding Box, Behavioral Label | "JAAD ass en Dataset fir gemeinsam Opmierksamkeet am Kontext vum autonome Fuere ze studéieren. De Fokus ass op Foussgänger- a Chauffeurverhalen um Punkt vun der Kräizung a Faktoren déi se beaflossen. Zu dësem Zweck bitt JAAD Dataset eng räich annotéiert Sammlung vun 346 Kuerzvideoen. Clips (5-10 Sekonnen laang) extrahéiert aus iwwer 240 Stonne Fuermaterial vu verschiddene Plazen an Nordamerika an Osteuropa. Grenzkëschte mat Okklusiounstags gi fir all Foussgänger benotzt, déi dësen Dataset gëeegent fir Foussgängererkennung maachen. Verhalensannotatiounen spezifizéieren Behuelen fir Foussgänger déi mam Chauffer interagéieren oder opmierksam erfuerderen.Fir all Video ginn et e puer Tags (Wieder, Plazen, asw.) an Zäitstempel markéiert Verhalenslabelen (zB gestoppt, trëppelen, kucken, asw.) Ausserdeem gëtt eng Lëscht vun demographeschen Attributer. fir all Foussgänger (z.B. Alter, Geschlecht, Bewegungsrichtung, asw.) souwéi eng Lëscht vu sichtbare Verkéierszeenelementer (z.B. Stoppschëld, Verkéierssignal, etc.) an all Frame zur Verfügung gestallt." | Link |
CV | Bild | LISA Traffic Schëld, vun Univ. vu Kalifornien, San Diego, USA | Automotive | Bounding Box | De Set vun Datesaz mat Videoen an annotéierte Frames mat US Verkéiersschëlder. Et gëtt an zwou Etappe verëffentlecht, eng mat nëmmen de Biller an eng mat béide Biller a Videoen. | Link |
CV | Bild | Mapillary Vistas, vun Mapillary AB, Global | Automotive | Semantesch Label | E Street-Niveau Fotografie Datesaz fir d'Interpretatioun vun Stroossszenen ronderëm d'Welt mat pixel-genauen an instanzspezifesche mënschlechen Annotatiounen. | Link |
CV | Video, Bild | Semantic KITTI, vun der Universitéit Bonn, Karlsruhe, Däitschland | Automotive | Bounding Box, Semantic Label, Lane Marquage | En Dataset deen eng semantesch Annotatioun fir all Odometry Benchmark Sequenzen enthält. Den Dataset annotéiert verschidden Aarte vu bewegt an net-bewegt Verkéier: dorënner Autoen, Vëloen, Vëloen, Foussgänger a Vëlofuerer, wat et erlaabt Objeten an der Szen ze studéieren. | Link |
CV | Video | Stanford Track, vun Stanford Univ., USA | Automotive | Objekterkennung / Klassifikatioun LiDAR, GPS, Coden | En Dataset deen 14,000 markéierten Objektspuren enthält wéi observéiert vun engem Velodyne HDL-64E S2 LIDAR an natierleche Stroosseszenen, déi benotzt kënne ginn fir Maschinnléiermodeller fir 3D Objekterkennung ze trainéieren. | Link |
CV | Video, Bild | The Boxy Dataset, vum Bosch, USA | Automotive | Bounding Box / Gefier Detektioun | E Gefiererkennungsdatenset mat 2 Milliounen annotéiert Gefierer fir Training an Analyse vun Objekterkennungsstrategien fir selbstfahrend Autoen op Autobunnen. | Link |
CV | Video | TME Autobunn, vun der Tschechescher Technescher Univ., Norditalien | Automotive | Bounding Box | En Dataset vun 28 Clips fir insgesamt 27 Minutte verdeelt an 30,000+ Gefier Annotatiounsframes. Annotatioun gouf semi-automatesch produzéiert mat den Donnéeën vum Laser Scanner. Dës Datesammlung beinhalt verännerleche Verkéiersszenarien, Zuel vun de Bunnen, Stroossekrümmung a Beliichtung, déi vill vun de Bedéngungen vun der voller Acquisitioun deckt. | Link |
CV | Video | Oniwwerwaacht Llamas, vum Bosch, USA | Automotive | Lane Marking, LiDAR | Den Unsupervised Llamas Dataset gouf annotéiert andeems se High-Definition automatesch Fuere Kaarten generéieren, dorënner Lidar-baséiert Spuermarker. Dat autonomt Gefier kann géint dës Kaarten ausgeriicht ginn an d'Spurmarkéierunge ginn an de Kamerarahmen projizéiert. D'3D Projektioun gëtt optimiséiert andeems d'Diskrepanz tëscht scho observéierten a virausgesoten Bildmarker miniméiert. | Link |
PNL | Audio | Facebook AI Multilingual LibriSpeech (MLS) | allgemeng | Audio Annotation / Speech Recognition | Facebook AI Multilingual LibriSpeech (MLS), ass e grousst Open Source Dateset entwéckelt fir Fuerschung an der automatescher Riederkennung (ASR) ze hëllefen. MLS bitt méi wéi 50,000 Stonnen Audio an 8 Sproochen: Englesch, Däitsch, Hollännesch, Franséisch, Spuenesch, Italienesch, Portugisesch a Polnesch. | Link |