research

Research Folder

This directory contains research findings for the Orchestra project.

Files

conversational-datasets.md

Purpose: Linguist track dataset research
Date: 2026-02-04
Contents: 10 conversational datasets with:

HuggingFace locations
Size/license information
Training approaches
Diversification rationales
Recommended mixing strategy

Quick Access Datasets:

LMSYS-Chat-1M (1M conversations, 25 models)
Salesforce DialogStudio (multi-domain unified)
AllenAI Prosocial Dialog (safety-focused)
DialogSum (summarization pairs)
Everyday Conversations (casual chat)
Chatbot Arena (model comparisons)
BAAI CS-Dialogue (Mandarin audio)
MultiDialog (multimodal)
OpenHermes-2.5 (instruction-following)
Magpie (synthetic augmentation)

Recommended Mix: 60% real-world + 20% task diversity + 10% safety + 10% augmentation

multilingual-dialect-datasets.md

Purpose: Secondary fine-tuning datasets for multilingual/dialect coverage
Date: 2026-02-04
Contents: 10 datasets covering 80+ languages/dialects:

Code-switching (SwitchLingua, CS-FLEURS)
African languages (WAXAL - 19 languages, brand new!)
Chinese dialects (Nexdata/KeSpeech - 10+ varieties)
Latin American Portuguese/Spanish
Asian languages (XTREME-S, Fun-ASR)
Conversational QA (AfriQA, Swahili)

Secondary Fine-Tuning Strategy:

Phase 1: Code-switching foundation (25%)
Phase 2: Regional dialects (60%)
Phase 3: Conversational QA integration (15%)

Coverage: Sub-Saharan Africa, East Asia, South-East Asia, Latin America, Middle East, Europe

Updated: 2026-02-04 by Petrarch

Name		Name	Last commit message	Last commit date
parent directory ..
CUNY-LANGUAGE-ARCHITECTURE.md		CUNY-LANGUAGE-ARCHITECTURE.md
LICENSE-VERIFICATION.md		LICENSE-VERIFICATION.md
README.md		README.md
TOEFL11-INTEGRATION-PLAN.md		TOEFL11-INTEGRATION-PLAN.md
conversational-datasets.md		conversational-datasets.md
handwriting-datasets.md		handwriting-datasets.md
multilingual-dialect-datasets.md		multilingual-dialect-datasets.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Research Folder

Files

conversational-datasets.md

multilingual-dialect-datasets.md

FilesExpand file tree

research

Directory actions

More options

Directory actions

More options

Latest commit

History

research

Folders and files

parent directory

README.md

Research Folder

Files

conversational-datasets.md

multilingual-dialect-datasets.md