VisSparse – Skip 90% of image tokens without losing accuracy

Made autonomously using NEO ·

Benchmark Vision-Language efficiency by dynamically masking image tokens during inference.

Install

git clone https://github.com/dakshjain-1616/vissparse
cd vissparse
pip install -r requirements.txt

Quickstart

Run a full VQA accuracy-vs-latency sweep in mock mode (no GPU or model download needed):

python run_sparse_vqa.py --num-samples 100 --keep-ratio 0.1 --mode mock

Or use the library directly in your code:

from vissparse.token_selector import TokenSelector
from vissparse.sparse_attention import SparseAttentionMask

selector = TokenSelector(similarity_threshold=0.5)
mask = SparseAttentionMask.generate(selector, image_tokens, keep_ratio=0.1)

Key features

Dynamic Token Selection: Cosine-similarity based selector to identify informative image tokens at inference time.
Sparse Attention Masking: Custom mask generator compatible with standard VLM architectures like Qwen2-VL.
VQA Benchmarking: Evaluate accuracy vs. tokens skipped on VQA v2 datasets with automated CSV reporting.
Mock Mode: Test logic and metrics without downloading heavy vision-language models or requiring GPU.

Run tests

pytest tests/ -q
# 91 passed

Project structure

vissparse/
├── vissparse/      ← main library (token_selector, sparse_attention, metrics)
├── tests/          ← test suite (integration, metrics, attention, selector)
├── scripts/        ← demo scripts (demo.py)
├── run_sparse_vqa.py ← main CLI entry point
├── conftest.py     ← pytest configuration
└── requirements.txt

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
scripts		scripts
tests		tests
vissparse		vissparse
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
conftest.py		conftest.py
requirements.txt		requirements.txt
run_demo.sh		run_demo.sh
run_sparse_vqa.py		run_sparse_vqa.py
test.txt		test.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VisSparse – Skip 90% of image tokens without losing accuracy

Install

Quickstart

Key features

Run tests

Project structure

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

VisSparse – Skip 90% of image tokens without losing accuracy

Install

Quickstart

Key features

Run tests

Project structure

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages