为什么scalar_mix、use_raw_hidden_states等参数在所有预训练模型中都为false

fishfree · February 6, 2025, 3:49am

还有这些参数也是False：decoder_grad_norm、ret_subtokens_group、separate_optimizer
感觉很奇怪，为什么预训练的模型中都设为False呢？或者换句话说：到底什么场景下需要把这些参数设置为True？