DataFlux: AI/ML Dataset Nexus

A comprehensive collection of high-quality datasets specifically curated for artificial intelligence and machine learning workflows.

🔍 Overview

This repository provides a structured catalog of public datasets ideal for:

Training and fine-tuning machine learning models
Building data pipelines and ETL processes
Benchmarking algorithm performance
Practicing data cleaning and preprocessing techniques
Supporting research in various AI domains

📊 Dataset Categories

Browse our dataset collections by type:

Computer Vision Datasets - Image datasets for object detection, classification, and more
Natural Language Processing Datasets - Text datasets for NLP tasks
Tabular Datasets - Structured data for regression and classification
Time Series Datasets - Sequential data for forecasting and analysis
Graph Datasets - Network and relationship data
Audio Datasets - Speech and sound processing collections
Multimodal Datasets - Combined data types for advanced applications

🛠️ Data Pipeline Resources

Data Processing Guides

Data Cleaning Best Practices - Essential techniques for preparing ML-ready data
Model Evaluation Metrics - Comprehensive guide to measuring model performance
ML Data Pipeline Architecture - Building scalable data pipelines for ML

Example Notebooks

Tabular Data Exploration - Walkthrough of exploring and preprocessing tabular data
NLP Text Preprocessing - Techniques for preparing text data for ML models

📚 General Dataset Resources

For a complete list of dataset sources, see our original dataset catalog.

🤝 Contributing

We welcome contributions! Please see our Contributing Guidelines for details on how to add datasets or examples.

📄 License

This catalog is available under the MIT License. Individual datasets may have their own licenses.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
datasets		datasets
guides		guides
linguist-samples		linguist-samples
notebooks		notebooks
.gitattributes		.gitattributes
CONTRIBUTING.md		CONTRIBUTING.md
README.md		README.md
datasets.md		datasets.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataFlux: AI/ML Dataset Nexus

🔍 Overview

📊 Dataset Categories

🛠️ Data Pipeline Resources

Data Processing Guides

Example Notebooks

📚 General Dataset Resources

🤝 Contributing

📄 License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DataFlux: AI/ML Dataset Nexus

🔍 Overview

📊 Dataset Categories

🛠️ Data Pipeline Resources

Data Processing Guides

Example Notebooks

📚 General Dataset Resources

🤝 Contributing

📄 License

About

Topics

Resources

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages