本仓库用于展示 Pulsemind 与其它模型(如 Gemini)在医学场景上的 Benchmark 评测流程。
我们将大模型(如 GPT-4)作为裁判,对不同模型在同一测试集上的输出进行对比打分。
✅ 快速使用:只需一条命令完成全部评测流程:
bash eval_all.sh
eval_all.sh会自动依次完成:模型测试 → 生成对比用 prompt → 调用大模型评测 → 汇总统计结果。
下面是完整的手动执行流程及每一步的作用说明。
python test-CMtMedQA.py
# python test-MedDiagnose.pypython get_prompt.pypython call_llm.pypython result.py