DataProphet Metric Toolkit

This repo implements the metric part of the paper DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs.

Implemented metrics:

Similarity: QSim, ASim, ISim (expected cosine similarity)
Perplexity: PPL(source), PPL(target)
Diversity: Silhouette + normalized entropy
Final score:

M(s->t) = QSim * ASim * ISim * PPL(s) * (Sil + H) / PPL(t)

Also included:

Generate embeddings directly from raw JSONL datasets (image, question, answer) via OpenRouter API.
Supports separate embeddings (question, answer, image) and joint embeddings (qa, image+qa).

Training Frameworks

The paper's training experiments are built on:

LLaMA-Factory: https://github.com/hiyouga/LLaMA-Factory
VERL: https://github.com/volcengine/verl

This repository currently focuses on metric computation and embedding generation.

Minimal Setup

pip install -e .

or

pip install -r requirements.txt

Input Files

Supported input: .json, .jsonl, .npz.

Each dataset file should provide:

question_embeddings (2D)
answer_embeddings (2D)
image_embeddings (2D)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
examples		examples
src/dataprophet		src/dataprophet
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataProphet Metric Toolkit

Training Frameworks

Minimal Setup

Input Files

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DataProphet Metric Toolkit

Training Frameworks

Minimal Setup

Input Files

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages