项目包含:
src/model.py:基于 ResNet-50 的特征提取器 + BiLSTM + 线性头,使用 CTC 解码src/dataset.py:CSV 格式数据加载器(image_path,label),图像预处理与 collatesrc/train.py:训练命令行脚本(argparse)src/infer_gradio.py:Gradio 推理界面requirements.txt:依赖快速开始:
pip install -r requirements.txt
python src/train.py --train_csv /path/to/train.csv --val_csv /path/to/val.csv --epochs 30 --batch_size 16 --save_dir checkpoints
CSV 格式:每行 image_path,label,例如:
/data/imgs/0001.png,你好 /data/imgs/0002.png,世界
python src/infer_gradio.py --checkpoint checkpoints/best.pt --vocab vocab.txt
说明:模型使用 CTC 损失,词表(vocab.txt)会在首次训练时从训练集自动构建并保存。