Skip to content

brotherswatching/multimodal-llm-demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

multimodal-llm-demo

多模态大模型入门实践项目

📌 项目简介

本项目旨在在个人笔记本(Lenovo Legion Y9000P,RTX 30 系显卡)上实现对多模态大模型从环境配置、模型推理到应用 Demo 封装的完整流程。
通过使用 Qwen-VL开源中文多模态大模型,实现 图文问答、OCR 识别、跨模态生成 等典型任务。

📅 两周路线图

第 1 周:环境搭建 & 模型初探

  • 配置 Python + PyTorch + Transformers 环境
  • 成功加载并运行 Qwen-VL-Chat 模型(图文问答 demo)
  • 尝试 InternVL-Chat-1B,测试 OCR/表格识别任务

第 2 周:应用封装 & 项目展示

  • 基于 Gradio / Streamlit 搭建多模态交互 Demo

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors