Chen Hao codemmash

🎯

Focusing

MPhil student @ UM · multimodal LLMs / speech models / vision · sometimes the code even runs

Popular repositories Loading

speech-star speech-star Public

SpeechStar: An Audio-Indispensable Benchmark for Evaluating Speech LLMs

Python
audiotoken-bridge audiotoken-bridge Public

A training framework for integrating discrete speech tokens into large language models via instruction tuning

Python
vl-caption-engine vl-caption-engine Public

Scalable vision-language instruction data synthesis pipeline with quality-aware filtering for VLM training

Python
codemmash codemmash Public

Profile README
WAM-Diff WAM-Diff Public

Forked from fudan-generative-vision/WAM-Diff

WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving

Python