Data Selection
从 DataMind-12K 中用复杂度过滤、SimHash 近似去重和 reward 评分选择 2000 条训练样本与 500 条验证样本。
Training
在 NVIDIA A30 上使用 Ray Train + LoRA 微调 Qwen3.5-0.8B,训练 3,194,880 个 LoRA 参数。
Demo
参考 Qwen 官方 web_demo.py 的模式,使用流式生成、Regenerate、Clear 和 Gradio Blocks,并扩展上传预览、数据诊断、推荐问题、代码执行和图表输出。
Training Result
| Metric | Value |
|---|---|
| train_loss | 0.7628931648731232 |
| validation_loss | 0.7091293325424194 |
| global_step | 250 |
| checkpoint | checkpoint_2026-06-01_03-31-48.192484 |
Run Model Demo
Important: 这个网站是 GitHub Pages 静态页,只展示项目和本地启动命令;模型后端在你的笔记本本地运行。演示时启动下面的 Gradio 命令,然后打开 http://127.0.0.1:7860。
本地部署命令:
python3 -m venv --system-site-packages .venv
.venv/bin/python -m pip install -r requirements.txt
.venv/bin/python q1_fourth_demo/download_qwen_checkpoint.py --repo-id Qwen/Qwen3.5-0.8B --output-dir models/Qwen3.5-0.8B
NO_PROXY=127.0.0.1,localhost no_proxy=127.0.0.1,localhost GRADIO_ANALYTICS_ENABLED=False .venv/bin/python q1_fourth_demo/web_demo.py --checkpoint-path models/Qwen3.5-0.8B --server-port 7860 --inbrowser