ModelConfig

architecture

str

required

Model architecture specification. Supports major dense and MoE Hugging Face architectures including Qwen, LLaMA, Gemma.

init_method

str

default:"normal"

Weight initialization strategy:

model_path

str | None

default:"None"

Path to pre-trained model for continual training. Must be None if init_method is not "none".

load_optimizer

bool | None

default:"None"

Whether to load optimizer state from checkpoint. Set to True for continual training from checkpoint.

precision

str

default:"fp16"

Model precision configuration:

​ModelConfig