TinyRecursiveModels/train_chess.sh at main · FiveTechSoft/TinyRecursiveModels

35 lines (31 loc) · 825 Bytes

#!/bin/bash
# Chess training script for TinyRecursiveModels
# Based on the Q&A training configuration
# Training configuration for chess puzzles
export CUDA_VISIBLE_DEVICES=0
uv run python pretrain.py \
    arch=trm \
    data_paths="[data/chess]" \
    arch.halt_exploration_prob=0.0 \
    arch.halt_max_steps=8 \
    arch.H_cycles=2 \
    arch.L_cycles=2 \
    arch.H_layers=0 \
    arch.L_layers=1 \
    arch.hidden_size=128 \
    arch.num_heads=4 \
    arch.expansion=2 \
    arch.puzzle_emb_ndim=8 \
    arch.forward_dtype=float32 \
    arch.puzzle_emb_len=8 \
    global_batch_size=256 \
    epochs=10000 \
    lr=0.001 \
    puzzle_emb_lr=0.01 \
    weight_decay=0.0 \
    puzzle_emb_weight_decay=0.0 \
    lr_warmup_steps=1000 \
    eval_interval=10 \
    use_wandb=false \
    +project_name=chess_baseline

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

train_chess.sh

Latest commit

History

train_chess.sh

File metadata and controls