本项目旨在在个人笔记本(Lenovo Legion Y9000P,RTX 30 系显卡)上实现对多模态大模型从环境配置、模型推理到应用 Demo 封装的完整流程。
通过使用 Qwen-VL开源中文多模态大模型,实现 图文问答、OCR 识别、跨模态生成 等典型任务。
- 配置 Python + PyTorch + Transformers 环境
- 成功加载并运行 Qwen-VL-Chat 模型(图文问答 demo)
- 尝试 InternVL-Chat-1B,测试 OCR/表格识别任务
- 基于 Gradio / Streamlit 搭建多模态交互 Demo