Datasets opmaachen

Entdeckt Open Source Datesätz déi Iech erlaabt ML Modeller ze trainéieren

Open Datesätz

Open Source Datesets Fir Iech mat AI / ML Modeller unzefänken

D'Output vun Ären AI & ML Modeller ass nëmme sou gutt wéi d'Donnéeën déi Dir benotzt fir se ze trainéieren - sou datt d'Präzisioun déi Dir op d'Datenaggregatioun applizéiert an d'Tagging an d'Identifikatioun vun dësen Donnéeën wichteg ass!

Also wann Dir eng nei AI / ML Initiative wëllt starten an elo mierkt Dir séier datt qualitativ héichwäerteg Trainingsdaten ze fannen ass ee vun de méi usprochsvollen Aspekter vun Ärem Projet well héichqualitativ Datesätz de Brennstoff sinn deen den AI / hält. ML Motor lafen. Mir hunn eng Lëscht vun oppene Datesätz gesammelt déi gratis sinn ze benotzen an Är AI/ML Modeller vun der Zukunft ze trainéieren.

SpezialiséierungDaten TypDateset NummIndustrie / Dept.Annotatioun / BenotzungsfallBeschreiwungLink
PNLTextAmazon RezensiounenE-commerceGefiller AnalyseEng Rei vu 35 Mn Bewäertungen & Bewäertunge vun de leschten 18 Joer am Kloertext mat Benotzer- a Produktdetailer.Link
PNLTextWikipedia Linken DatenallgemengMéi wéi 4 Mn. Artikelen mat 1.9 Milliarden. Wuert dat aus Wierder a Sätze wéi och Abschnitter besteet.Link
PNLTextStandford Sentiment TreebankËnnerhaalungGefiller AnalyseSentiment Annotations Dataset fir iwwer 10,000 Stéck Rezensiounen vu Rotten Tomatoes am HTML DateiformatLink
PNLTextTwitter US Airline SentimentAirlineGefiller Analyse2015 Tweets op US Airlines verdeelt sech a positiv, negativ an neutral TéinLink
CVVideo, BildUMDFaces DatesetallgemengGesiicht UnerkennungAnnotéiert Dataset mat iwwer 367,000 Gesiichter aus iwwer 8,000 Themen déi Still a Video Biller enthält.Link
CVBild ImagenetallgemengDataset mat iwwer 14 Mn. Biller a verschiddene Dateiformater, organiséiert no der WordNet Hierarchie.Link
CVBild Google's Open Billerallgemeng9 mnn. URLen fir ëffentlech Biller aus iwwer 6,000 Kategorien ze kategoriséieren.Link
PNLTextMIMIC Critical Care DatebankGesondheetswiesenComputational Physiology Datasets mat de-identifizéierten Donnéeën vu 40,000 kriteschen Pfleegpatienten. Den Dataset enthält Informatioun wéi Demographie, vital Schëlder, Medikamenter, asw.Link
CVBildUS National Travel and Tourism OfficeTourismusBitt breet Fotoen aus der Tourismusindustrie mat zouverléissege Datenbanken, iwwer Themen wéi Inbound an Outbound Rees an international Touristeninformatioun.Link
PNLTextTransportamtTourismusTourismus Datesätz déi Nationalparken enthalen, Chaufferregistere, Brécke & Eisebunnsinformatioun etc.Link
PNLAudioFlickr Audio Caption CorpusallgemengIwwer 40k geschwat Ënnerschrëften aus 8,000 Fotoen entworf fir oniwwerwaacht RiedmusterLink
PNLAudioSpeech Commands DatasetallgemengSpeech Recognition, Audio Annotation1 Sekonn laang Aussoe vun Dausende vun Individuen, fir Basis Stëmm Interface ze bauen.Link
PNLAudioËmwelt- Audio DatesetsallgemengËmfeld Audiodatesets déi Toun vun Eventtabellen an akustesch Szenen Dëscher enthalen.Link
PNLTextCOVID-19 Open Research Dataset GesondheetswiesenMedizinesch AIE Fuerschungsdataset besteet aus 45,000 wëssenschaftlechen Artikelen iwwer COVID-19 & der Coronavirus Famill vu Virussen.Link
CVBildWaymo Open Dateset AutomotiveDéi verschiddenst autonom Fuerdatesets verëffentlecht vum WaymoLink
CVBildLabelme Ëffentlech Govt.Grousse Set vun annotéiert Biller zougänglech duerch de Labelme MatlabLink
CVBildStanford Dogs DatasetallgemengIwwer 20,500+ Biller kategoriséiert a Bildset vun 120 verschiddenen HondsrassenLink
CVBildIndoor Zeen UnerkennungallgemengZeen UnerkennungE spezifescht Dataset besteet aus 15620 Biller aus 67 Indoor Kategorien fir Szenerkennungsmodeller ze bauenLink
CVBildVisualQAallgemengEn Dataset deen oppe Froen betreffend 265,016 Fotoen enthält, déi Verständnis vu Visioun a Sproochverständnis erfuerderen fir ze reagéieren.Link
PNLTextMultidomain Sentiment Analyse DatasetE-commerceGefiller AnalyseDateset mat Produktrezensiounen vun AmazonLink
PNLTextIMDB RezensiounenËnnerhaalungGefiller AnalyseDataset mat 25000 Filmreview fir GefillsanalyseLink
PNLTextBlogger CorpusallgemengKeyprase AnalyseDataset mat 681,288 Blogposte vu blogger.com besteet aus minimum 200 Optriede vu wäit benotzten englesche Wierder.Link
PNLTextJeopardyallgemengChatbot TrainingDateset mat méi wéi 200,000 Froen déi benotzt kënne ginn fir Maschinnléiermodeller ze trainéieren fir intelligent automatesch z'äntwertenLink
PNLTextSMS Spam Sammlung op EngleschTelecomSpam UnerkennungE Spam Message Datesaz besteet aus 5,574 Englesch SMSenLink
PNLTextYelp RezensiounenallgemengGefiller AnalyseEn Dataset mat iwwer 5 mn Bewäertung publizéiert vun YelpLink
PNLTextUCI SpambaseProjetSpam UnerkennungE grousst Dataset vu Spam E-Mailen, nëtzlech fir Spamfiltering.Link
CVVideo, BildBerkeley DeepDrive BDD100kAutomotiveAutonom AutoenEe vun de gréissten Dataset fir selbstfahrend AI mat 1,100 Stonne Fuererfarungen an iwwer 100,000 Videoe vu verschiddenen Zäiten vum Dag aus New York a San Francisco Regioun.Link
CVVideoComma.aiAutomotiveAutonom Autoen Eng 7 Stonne Autobunnsfuerer Datesaz besteet aus Informatioun iwwer Auto Geschwindegkeet, Beschleunegung, Lenkwinkel a GPS KoordinatenLink
CVVideo, BildCityscape DatasetAutomotiveSemantesch Label fir Autonom GefierEn Dataset vu 5,000 Pixel-Niveau Annotatiounen plus e gréissere Set vun 20,000 schwaach annotéiert Frames a Stereo Videosequenzen, opgeholl aus 50 verschiddene StiedLink
CVBildKUL Belsch Traffic Sign DatasetAutomotiveAutonom AutoenIwwer 10000+ Verkéiersschëlder Annotatiounen aus der Flandern Regioun baséiert op kierperlech ënnerscheede Verkéiersschëlder aus der ganzer Belsch.Link
CVBildLISA: Laboratoire fir intelligent a sécher Autoen, UC San Diego DatesetsAutomotiveAutonom AutoenE räiche Dataset mat Verkéiersschëlder, Gefiererkennung, Traffic Luuchten, a Trajectoire Musteren.Link
CVBildCIFAR-10allgemengObjekterkennungEn Dataset besteet aus 50,000 Biller an 10,000 Testbilder (dh 60,000 32 × 32 Faarfbilder an 10 Klassen) fir Objekterkennung.Link
CVBildMoud MNISTFashionEng Bilddatei déi aus 60,000 Beispiller besteet an engem Testset vun 10,000 Beispiller an 28 × 28 Grauskala-Biller, verbonne mat engem Label aus 10 Klassen.Link
CVBildIMDB-Wiki DatesetËnnerhaalungGesiicht UnerkennungEng grouss Datebank vu Gesiichtsbilder mat Etiketten wéi Geschlecht an Alter. Vun den insgesamt 523,051 Gesiichtsbiller ginn 460,723 Biller vun 20,284 Promi vun IMDB & 62,328 vu Wikipedia kritt.Link
CVVideoKinetics-700allgemengFir all Aktiounsklass besteet den héichqualitativen Datesaz aus 650,000 Videoclips an ëmfaasst 700 mënschlech Aktiounsklassen mat mindestens 600 Videoclips. Hei dauert all Clip 10 Sekonnen oder esou.Link
CVBildMS CocoallgemengObjekterkennung, SegmentatiounDen Dataset enthält 328k Biller an huet insgesamt 2.5 Mn Instanzen an 91 Objektbilder fir grouss-Skala Objekterkennung, Segmentatioun an Datebezeechnung verbonne ML Modeller ze trainéieren.Link
CVBildMPII Mënsch Pose DatasetallgemengOngeféier 25K Fotoen mat iwwer 40K Individuen mat annotéierte Kierpergelenker sinn an der Dataset abegraff, déi benotzt gëtt fir d'mënschlech Poseschätzung ze artikuléieren. Insgesamt deckt den Dataset 410 mënschlech Aktivitéiten an all Bild gëtt mat engem Aktivitéitslabel geliwwert.Link
CVBildBiller opmaachenallgemengObjekt Standuert AnnotatiounenBilddataset mat ongeféier 9 Mn Biller annotéiert mat Bildniveau Etiketten, Objektbegrenzungsboxen, Objektsegmentéierung etc. D'Dateset besteet och aus 16 Mn. Grenzkëschte fir 600 Objektklassen op 1.9 Mn Biller.Link
CVVideo, BildArgo, vun Argo, USAAutomotiveBounding Box, opteschen Flow, Behuelen Label, Semantic Label, Lane MarquageE selbstfahrend Dataset deen aus HD Kaarten mat geometreschen & semantesche Metadaten besteet, dh Spuerzentren, Spuerrichtung, & fuerbare Beräich. Den Dataset gëtt benotzt fir ML Modeller ze trainéieren, fir méi genee Perceptioun Algorithmen ze maachen, déi selbstfahrend Gefierer hëllefen sécher ze navigéieren.Link
CVVideoBosch Small Traffic Lights, vun Bosch North America ResearchAutomotiveBounding BoxEn Dataset besteet aus 13427 Kamera Biller mat 1280 * 720 Resolutioun fir Visioun-baséiert Traffic Luucht Detektioun System ze bauen. Den Dataset huet méi wéi 24000 annotéiert Traffic Luuchten.Link
CVVideoBrain4Cars, vum Cornell Univ., USAAutomotiveBehuelen LabelEn Dataset besteet aus enger Rei vu Kabinesensoren (Kameraen, Taktile Sensoren, Smart Geräter, asw.) fir nëtzlech Statistiken iwwer d'Alarmheet vum Chauffer ze extrahieren. Eis Algorithmen kënnen Chauffeuren entdecken déi schlëmm sinn oder ofgelenkt sinn an déi néideg Alarm erhéijen fir de Schutz ze verbesseren.Link
CVBildCULane, vum Chinese Univ. vun Hong Kong, Peking, ChinaAutomotiveLane MarkéierungE Computer Vision Dataset iwwer Verkéiersspurenerkennung, besteet aus 55 Stonnen Videoen, vun deenen 133,235 (88880 Trainingsset, 9675 Validatiounsset, an 34680 Testset) Frames extrahéiert goufen. Et gëtt gesammelt vu Kameraen, déi op sechs verschidde Gefierer montéiert sinn, déi vu verschiddene Chauffeuren zu Peking gefuer sinn.Link
CVVideoDAVIS, Univ. Zürich, ETH ¨ Zürich, Däitschland, SchwäizAutomotiveEn End-to-End Gefier Fuer Training Dataset deen eng DAVIS Event + Frame Kamera benotzt. Autosdaten wéi Lenkung, Drossel, GPS, etc. gi benotzt fir d'Fusioun vu Frame- an Eventdaten fir Automobil Apps ze evaluéieren.Link
CVVideoDBNet, vum Shanghai Jiao Tong Univ., Xiamen Univ., ChinaAutomotivePoint Cloud, LiDAREng real-Welt 1000 KM Fahrdaten, déi ausgeriicht Video, Punktwolk, GPS a Chaufferverhalen fir déif Fuerschung iwwer Fuerverhalen enthalen.Link
CVVideoDr(eye)ve, vun Univ. vu Modena a Reggio Emilia, Modena, ItalienAutomotiveBehuelen LabelDataset mat 74 Videosequenze vu jee 5 Minutten, déi a méi wéi 500,000 Frames annotéiert goufen. D'Datesaz besteet aus geo-referenzéierte Plazen, Fahrgeschwindegkeet, Course, an och Etiketten vun de Chauffeuren Bléckfixatiounen an hir temporär Integratioun déi Aufgabspezifesch Kaarten ubitt.Link
CVVideoETH Pedestrian (2009), ETH Zurich, Zurich, SwitzerlandallgemengBounding BoxEn Dataset vu 74 Videosequenze vu jee 5 Minutten, annotéiert a méi wéi 500,000 Frames. D'Datebank bitt geo-referenzéierte Positiounen, Fueregeschwindegkeet, Richtung, a markéiert och Bléckfixatioune fir Chauffeuren an hir temporär Integratioun, inklusiv Taskspezifesch Kaarten.Link
CVVideoFord (2009), vum Univ. vu Michigan, Michigan, USAutomotiveBounding Box, , LiDAREn Dataset kompiléiert vun engem automatiséierte Landfahrzeug bewaffnet mat engem Velodyne 3D-Lidar Scanner, zwee Push-Broom Forward-sicht Rieg Lidars, eng technesch a Konsument Inertial Miessung Eenheet (IMU), an e Point Grey Ladybug3 omnidirektional Kamera System.Link
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, DäitschlandallgemengEn Dataset vun e puer Millioune Frames aus ageholl Video Szenen déi eng breet Palette vu verschiddene Wiederkonditiounen enthalen, verschidde Schichten vu Bewegung an Déift; Situatiounen an der Stad an am Land, etc.Link
CVVideoJAAD, vun der York University, Ukraine, KanadaAutomotiveBounding Box, Behavioral Label"JAAD ass en Dataset fir gemeinsam Opmierksamkeet am Kontext vum autonome Fuere ze studéieren. De Fokus ass op Foussgänger- a Chauffeurverhalen um Punkt vun der Kräizung a Faktoren déi se beaflossen. Zu dësem Zweck bitt JAAD Dataset eng räich annotéiert Sammlung vun 346 Kuerzvideoen. Clips (5-10 Sekonnen laang) extrahéiert aus iwwer 240 Stonne Fuermaterial vu verschiddene Plazen an Nordamerika an Osteuropa. Grenzkëschte mat Okklusiounstags gi fir all Foussgänger benotzt, déi dësen Dataset gëeegent fir Foussgängererkennung maachen. Verhalensannotatiounen spezifizéieren Behuelen fir Foussgänger déi mam Chauffer interagéieren oder opmierksam erfuerderen.Fir all Video ginn et e puer Tags (Wieder, Plazen, asw.) an Zäitstempel markéiert Verhalenslabelen (zB gestoppt, trëppelen, kucken, asw.) Ausserdeem gëtt eng Lëscht vun demographeschen Attributer. fir all Foussgänger (z.B. Alter, Geschlecht, Bewegungsrichtung, asw.) souwéi eng Lëscht vu sichtbare Verkéierszeenelementer (z.B. Stoppschëld, Verkéierssignal, etc.) an all Frame zur Verfügung gestallt."Link
CVBildLISA Traffic Schëld, vun Univ. vu Kalifornien, San Diego, USAAutomotiveBounding BoxDe Set vun Datesaz mat Videoen an annotéierte Frames mat US Verkéiersschëlder. Et gëtt an zwou Etappe verëffentlecht, eng mat nëmmen de Biller an eng mat béide Biller a Videoen.Link
CVBildMapillary Vistas, vun Mapillary AB, GlobalAutomotiveSemantesch LabelE Street-Niveau Fotografie Datesaz fir d'Interpretatioun vun Stroossszenen ronderëm d'Welt mat pixel-genauen an instanzspezifesche mënschlechen Annotatiounen.Link
CVVideo, BildSemantic KITTI, vun der Universitéit Bonn, Karlsruhe, DäitschlandAutomotiveBounding Box, Semantic Label, Lane MarquageEn Dataset deen eng semantesch Annotatioun fir all Odometry Benchmark Sequenzen enthält. Den Dataset annotéiert verschidden Aarte vu bewegt an net-bewegt Verkéier: dorënner Autoen, Vëloen, Vëloen, Foussgänger a Vëlofuerer, wat et erlaabt Objeten an der Szen ze studéieren.Link
CVVideoStanford Track, vun Stanford Univ., USAAutomotiveObjekterkennung / Klassifikatioun LiDAR, GPS, CodenEn Dataset deen 14,000 markéierten Objektspuren enthält wéi observéiert vun engem Velodyne HDL-64E S2 LIDAR an natierleche Stroosseszenen, déi benotzt kënne ginn fir Maschinnléiermodeller fir 3D Objekterkennung ze trainéieren.Link
CVVideo, BildThe Boxy Dataset, vum Bosch, USAAutomotiveBounding Box / Gefier DetektiounE Gefiererkennungsdatenset mat 2 Milliounen annotéiert Gefierer fir Training an Analyse vun Objekterkennungsstrategien fir selbstfahrend Autoen op Autobunnen.Link
CVVideoTME Autobunn, vun der Tschechescher Technescher Univ., NorditalienAutomotiveBounding BoxEn Dataset vun 28 Clips fir insgesamt 27 Minutte verdeelt an 30,000+ Gefier Annotatiounsframes. Annotatioun gouf semi-automatesch produzéiert mat den Donnéeën vum Laser Scanner. Dës Datesammlung beinhalt verännerleche Verkéiersszenarien, Zuel vun de Bunnen, Stroossekrümmung a Beliichtung, déi vill vun de Bedéngungen vun der voller Acquisitioun deckt.Link
CVVideoOniwwerwaacht Llamas, vum Bosch, USAAutomotiveLane Marking, LiDARDen Unsupervised Llamas Dataset gouf annotéiert andeems se High-Definition automatesch Fuere Kaarten generéieren, dorënner Lidar-baséiert Spuermarker. Dat autonomt Gefier kann géint dës Kaarten ausgeriicht ginn an d'Spurmarkéierunge ginn an de Kamerarahmen projizéiert. D'3D Projektioun gëtt optimiséiert andeems d'Diskrepanz tëscht scho observéierten a virausgesoten Bildmarker miniméiert.Link
PNLAudioFacebook AI Multilingual LibriSpeech (MLS)allgemengAudio Annotation / Speech RecognitionFacebook AI Multilingual LibriSpeech (MLS), ass e grousst Open Source Dateset entwéckelt fir Fuerschung an der automatescher Riederkennung (ASR) ze hëllefen. MLS bitt méi wéi 50,000 Stonnen Audio an 8 Sproochen: Englesch, Däitsch, Hollännesch, Franséisch, Spuenesch, Italienesch, Portugisesch a Polnesch. Link