为什么scalar_mix、use_raw_hidden_states等参数在所有预训练模型中都为false

还有这些参数也是False:decoder_grad_norm、ret_subtokens_group、separate_optimizer
感觉很奇怪,为什么预训练的模型中都设为False呢?或者换句话说:到底什么场景下需要把这些参数设置为True?