STA323 Project2 - Data Agent

Data Selection

从 DataMind-12K 中用复杂度过滤、SimHash 近似去重和 reward 评分选择 2000 条训练样本与 500 条验证样本。

Training

在 NVIDIA A30 上使用 Ray Train + LoRA 微调 Qwen3.5-0.8B，训练 3,194,880 个 LoRA 参数。

Demo

参考 Qwen 官方 web_demo.py 的模式，使用流式生成、Regenerate、Clear 和 Gradio Blocks，并扩展上传预览、数据诊断、推荐问题、代码执行和图表输出。

Training Result

Metric	Value
train_loss	0.7628931648731232
validation_loss	0.7091293325424194
global_step	250
checkpoint	`checkpoint_2026-06-01_03-31-48.192484`

Run Model Demo

Important: 这个网站是 GitHub Pages 静态页，只展示项目和本地启动命令；模型后端在你的笔记本本地运行。演示时启动下面的 Gradio 命令，然后打开 http://127.0.0.1:7860。

本地部署命令：

python3 -m venv --system-site-packages .venv
.venv/bin/python -m pip install -r requirements.txt
.venv/bin/python q1_fourth_demo/download_qwen_checkpoint.py --repo-id Qwen/Qwen3.5-0.8B --output-dir models/Qwen3.5-0.8B
NO_PROXY=127.0.0.1,localhost no_proxy=127.0.0.1,localhost GRADIO_ANALYTICS_ENABLED=False .venv/bin/python q1_fourth_demo/web_demo.py --checkpoint-path models/Qwen3.5-0.8B --server-port 7860 --inbrowser

Open Local Gradio Demo