网站首页 > 技术文章 正文
在增量预训练过程中通常需要设置三类或四类参数,模型参数,数据参数,训练参数,额外参数。
下面分别针对这四种参数进行说明。
模型参数
- model_type
模型类型,例如bloom,llama,baichuan,qwen等。
- model_name_or_path
模型名称或者路径。
- tokenizer_name_or_path
分词器名称或者路径。如果进行了词表扩充或裁剪,则tokenizer_name_or_path和model_name_or_path不同。
- load_in_8bit
是否以8bit加载模型。
- load_in_4bit
是否以4bit加载模型。
- use_fast_tokenizer
是否使用快速分词器。
- torch_dtype
张量数值类型
- device_map
设置指定设备(也就是在哪张显卡上)
数据参数
- dataset_name
数据集的名称,使用datasets库中的数据。
- dataset_config_name
数据集的配置名称,对应于dataset_name参数。
- train_file_dir
训练文件目录(本地)。
- validation_file_dir
验证文件目录(本地)。
- max_train_samples
最大训练样本数。
6.max_eval_samples
最大评估样本数。
- streaming
设置是否流式输出模式。
- block_size
块大小
- overwrite_cache
是否覆盖缓存
- validation_split_percentage
验证划分比例。若没有指定验证集,需要从训练集中划分。
- preprocessing_num_workers
预处理的线程数。
- keep_linebreaks
是否保留换行符。
额外参数
额外参数是指使用不同的高效微调方法需要进行调整的参数。
- use_peft
是否使用peft。
- target_modules
训练的目标模块。
- lora_rank
lora方法中的秩。
- lora_dropout
lora方法中的dropout参数。
- lora_alpha
lora方法中的缩放系数。
- modules_to_save
保存的其他模块。主要是在词表扩展后使用,设置为’embed_tokens,lm_head‘。
- peft_path
lora包的路径。
- qlora
是否使用qlora微调方法。
训练参数
训练参数来自于transformers.TrainingArguments,训练参数特别多,下面一一介绍。
- output_dir (str):
模型预测和检查点输出的目录
- overwrite_output_dir (bool, optional, defaults to False)
如果该参数为True,在输出目录output_dir已经存在的情况下将删除该目录并重新创建。默认值是False
- do_train (bool, optional, defaults to False)
是否进行训练。
- do_eval (bool, optional)
是否对验证集进行评估。
- do_predict (bool, optional, defaults to False)
是否在测试集上进行预测。
- evaluation_strategy (str or [~trainer_utils.IntervalStrategy], optional, defaults to "no"):
训练期间采用的评估策略,可选的值有:
- "no":训练期间不进行评估
- "steps":每一个eval_steps阶段之后都进行评估
- "epoch":每一个epoch之后进行评估
- prediction_loss_only (bool, optional, defaults to False):
当执行评估和预测的时候,是否仅仅返回损失。
- per_device_train_batch_size (int, optional, defaults to 8):
每一个GPU/TPU 或者CPU核心训练的批次大小。
- per_device_eval_batch_size (int, optional, defaults to 8):
每一个GPU/TPU 或者CPU核心评估的批次大小。
- gradient_accumulation_steps (int, optional, defaults to 1):
在执行向后/更新过程之前,用于累积梯度的更新步骤数。
- eval_accumulation_steps (int, optional):
在将结果移动到CPU之前,累积输出张量的预测步骤数。如果如果未设置,则在移动到CPU之前,整个预测都会在GPU/TPU上累积(速度更快需要更多的内存)。
- eval_delay (float, optional):
在执行第一次评估之前要等待的epoch或step,具体取决于evaluation_strategy。
- learning_rate (float, optional, defaults to 5e-5):
AdamW优化器初始化的学习率。
- weight_decay (float, optional, defaults to 0):
在AdamW优化器中,除了bias和LayerNorm权重,如果weight_decay不是零,则应用于所有层。
- adam_beta1 (float, optional, defaults to 0.9):
AdamW优化器的beta1超参。
- adam_beta2 (float, optional, defaults to 0.999):
AdamW优化器的beta2超参。
- adam_epsilon (float, optional, defaults to 1e-8):
AdamW优化器的epsilon超参。
- max_grad_norm (float, optional, defaults to 1.0):
最大梯度范数(用于梯度剪裁)。
- num_train_epochs(float, optional, defaults to 3.0):
要执行的训练epoch的次数(如果不是整数,将执行停止训练前的最后一个epoch的小数部分百分比)。
- max_steps (int, optional, defaults to -1):
如果设置为正数,则表示要执行的训练step的次数。覆盖num_train_epochs。在使用有限可迭代数据集的情况下,训练可能在所有数据还没训练完成时因达到设定的步数而停止
- lr_scheduler_type (str or [SchedulerType], optional, defaults to "linear"):
选择什么类型的学习率调度器来更新模型的学习率。可选的值有:
- "linear"
- "cosine"
- "cosine_with_restarts"
- "polynomial"
- "constant"
- "constant_with_warmup"
- warmup_ratio (float, optional, defaults to 0.0):
线性预热从0达到learning_rate时,每步学习率的增长率。
- warmup_steps (int, optional, defaults to 0):
线性预热从0达到learning_rate时,预热阶段的步数,它会覆盖warmup_ratio的设置。
- log_level (str, optional, defaults to passive):
设置主进程上使用的日志级别。可选择的值:
- 'debug'
- 'info'
- 'warning'
- 'error'
- 'critical'
- 'passive'
- log_level_replica (str, optional, defaults to passive):
控制训练过程中副本节点的日志级别,设置参数和log_level一样。
- log_on_each_node (bool, optional, defaults to True):
在多节点分布式训练中,是每个节点使用“log_level”进行一次日志记录,还是仅在主节点。
- logging_dir (str, optional):
日志目录,默认记录在:output_dir/runs/CURRENT_DATETIME_HOSTNAME。
- logging_strategy (str or [~trainer_utils.IntervalStrategy], optional, defaults to "steps"):
训练期间采用的日志策略,可选的值有:
- "no":训练期间不记录日志
- "steps":每一个logging_steps阶段之后都记录日志
- "epoch":每一个epoch之后记录日志
- logging_first_step (bool, optional, defaults to False):
global_step 表示训练的全局步数。当训练开始时,global_step 被初始化为 0,每次更新模型时,global_step 会自动递增。是否打印日志和评估第一个global_step。
- logging_steps (int, optional, defaults to 500):
如果 logging_strategy="steps",则两个日志中更新step的数量。
- logging_nan_inf_filter (bool, optional, defaults to True):
是否在日志中过滤掉 nan 和 inf 损失,如果设置为 True,每步的损失如果是 nan或者inf将会被过滤,将会使用平均损失记录在日志当中。
- save_strategy (str or [~trainer_utils.IntervalStrategy], optional, defaults to "steps"):
训练过程中,checkpoint的保存策略,可选择的值有:
- "no":训练过程中,不保存checkpoint
- "epoch":每个epoch完成之后保存checkpoint
- "steps":每个save_steps完成之后checkpoint
- save_steps (int, optional, defaults to 500):
如果save_strategy="steps",则两个checkpoint 保存的更新步骤数
- save_total_limit (int, optional):
如果设置了值,则将限制checkpoint的总数量,output_dir里面超过数量的老的checkpoint将会被删掉。
- save_on_each_node (bool, optional, defaults to False):
当进行多节点分布式训练,是否在每个节点上保存模型和checkpoint还是仅仅在主节点上保存。当不同节点使用相同的存储时,不应激活此选项,因为文件将以相同的名称保存到每个节点
- no_cuda (bool, optional, defaults to False):
当有CUDA可以使用时,是否不使用CUDA
37、seed (int, optional, defaults to 42):
训练开始时设置的随机种子,为了确保整个运行的可再现性,可使用~Trainer.model_init函数来初始化模型的随机初始化参数。
- data_seed (int, optional):
数据采样器的随机种子,它将用于数据采样器的可重现性,其独立于模型种子。
- jit_mode_eval (bool, optional, defaults to False):
是否使用PyTorch jit trace来进行推理。
- use_ipex (bool, optional, defaults to False):
当PyTorch 的intel扩展可用时,是否使用。
- bf16 (bool, optional, defaults to False):
是否使用bf16 16位 (mixed) 精度训练替代32位训练. 要求Ampere或者更高的NVIDIA架构,或者使用CPU训练。
- fp16 (bool, optional, defaults to False):
是否使用bf16 16位 (mixed) 精度训练替代32位训练。
- fp16_opt_level (str, optional, defaults to 'O1'):
fp16训练时, Apex AMP 优化级别选择,可选择的值有: ['O0', 'O1', 'O2', 'O3']Apex 是 NVIDIA 开发的一个混合精度训练和优化工具库,主要用于加速深度学习模型的训练过程。
- fp16_backend (str, optional, defaults to "auto"):
此参数已经废弃,使用half_precision_backend替代。
- half_precision_backend (str, optional, defaults to "auto"):
半精度计算的后端实现,必须是这几个值:
- "auto":具体是使用CPU/CUDA AMP 还是APEX依赖于PyTorch版本检测
- "cuda_amp"
- "apex"
- "cpu_amp"
- bf16_full_eval (bool, optional, defaults to False):
是否使用完整的bfloat16评估而不是32位。这将更快并节省内存,但可能会造成指标的损伤。
- fp16_full_eval (bool, optional, defaults to False):
是否使用完整的float16评估而不是32位。这将更快并节省内存,但可能会造成指标的损伤。
- tf32 (bool, optional):
是否启用TF32 模式,可以在Ampere 和更新的GPU架构上使用,默认值依赖于PyTorch的torch.backends.cuda.matmul.allow_tf32的默认值。
- local_rank (int, optional, defaults to -1):
分布式训练中进程的编号。在分布式训练中,每个进程(一般对应支持多线程的 GPU 卡)都会有一个特定的 local_rank,用于标识该进程对应的 GPU 编号。local_rank 的起始编号为 0,后续的编号依次递增。
- xpu_backend (str, optional):
xpu分布式训练中的后端,只能是 "mpi" 或者 "ccl"其中之一。
- tpu_num_cores (int, optional):
当使用TPU训练时,TPU核心数 (自动通过启动脚本传递)。
- dataloader_drop_last (bool, optional, defaults to False):
是否删除最后一个不完整的批次(如果数据集的长度不能被批次大小整除)。
- eval_steps (int, optional):
如果 evaluation_strategy="steps",两个评估之间更新step的数量Number of update steps,如果没有设置,则使用与 logging_steps一样的值。
- dataloader_num_workers (int, optional, defaults to 0):
数据加载的子进程数量(用于PyTorch ). 0表示数据由主进程加载
55、past_index (int, optional, defaults to -1):
有些模型比如[TransformerXL](../model_doc/transformerxl)或者[XLNet](../model_doc/xlnet)使用过去隐藏状态进行预测。如果这个参数设置为正数,则 Trainer使用相应的输出(通常是索引2)作为过去的状态,并将其作为 mems参数提供给模型的下一个训练step。
- run_name (str, optional):
运行描述符。通常用于[wandb](https://www.wandb.com/)以及[mlflow](https://www.mlflow.org/)日志记录。
- disable_tqdm (bool, optional):
是否禁用在Jupyter Notebooks中由~notebook.NotebookTrainingTracker生成的tqdm进度条和指标表格。如果日志级别设置为warn或者更低的基本则默认值为True,否则为False 。
- remove_unused_columns (bool, optional, defaults to True):
是否自动删除模型forward方法不使用的列 (TFTrainer暂时还没有实现该功能)。
- label_names (List[str], optional):
我们的输入字典的key列表相一致的标签,最终都将默认为["labels"],除非使用XxxForQuestionAnswering系列的模型,该系列的模型最终默认为["start_positions", "end_positions"]。
- load_best_model_at_end (bool, optional, defaults to False):
是否在训练结束时加载训练期间发现的最佳模型。当设置为“True”时,参数“save_strategy”需要与“evaluation_strategy”相同,并且在这种情况下, "steps"和 save_steps 必须是eval_steps的整数倍.
- metric_for_best_model (str, optional):
与load_best_model_at_end一起使用,指定用于比较两个不同模型。必须是评估返回的度量的名称,带或不带前缀“eval_”。如果没有设定且load_best_model_at_end=True,则默认使用 "loss",如果我们设置了这个值,则greater_is_better需要设置为 True。如果我们的度量在较低时更好,请不要忘记将其设置为“False”。
- greater_is_better (bool, optional):
与load_best_model_at_end 和 metric_for_best_model一起使用,说明好的模型是否应该有更好的度量值。
默认值:True:如果metric_for_best_model设置了值,并且该值不是loss 或者 eval_loss;否则,False:如果metric_for_best_model没有设置值,或者该值是"loss"或者 "eval_loss".
- ignore_data_skip (bool, optional, defaults to False):
当恢复训练时,是否跳过之前训练时epoch和batch加载的数据,如果设置为True, 训练将会更快的开始,但是也不会产生与中断训练生成的相同的结果。
64、sharded_ddp (bool, str or list of [~trainer_utils.ShardedDDPOption], optional, defaults to False):
是否启用分片式分布式数据并行(Sharded Distributed Data Parallel,简称ShardedDDP),以加快训练速度和效率。可选项有:
- "simple":
- "zero_dp_2"
- "zero_dp_3"
- "offload"
如果入参是字符串,它将会使用空格进行分隔,如果入参是了bool,它将被转换为空“False”的列表和["simple"]的“True”列表。
- fsdp (bool, str or list of [~trainer_utils.FSDPOption], optional, defaults to False):
使用PyTorch 分布式并行训练(仅仅用在分布式训练)。可选项:
- full_shard
- shard_grad_op
- offload
- auto_wrap:使用 default_auto_wrap_policy自动递归
- fsdp_min_num_params (int, optional, defaults to 0):
用于指定使用 Fully Sharded Data Parallel (FSDP)时,最小可分片的参数数量。(仅在传递“fsdp”字段时有用)
- deepspeed (str or dict, optional):
使用Deepspeed。这是一个实验性功能,其API可能在未来发展。该值可以是DeepSpeed JSON配置文件的位置(例如,ds_config.json),也可以是已加载的JSON文件,作为一个dict。
- label_smoothing_factor (float, optional, defaults to 0.0):
要使用的标签平滑因子。它的取值范围在 0 到 1 之间。当 label_smoothing_factor 的值为 0 时,表示不使用标签平滑技术,此时模型接受到完整的 one-hot 标签,当 label_smoothing_factor 的值大于 0 时,表示使用标签平滑技术,此时真实标签将是一个加权平均值,其中每个标签的概率都等于 (1-label_smoothing_factor)/num_classes,其中 num_classes 表示标签的数量。
- debug (str or list of [~debug_utils.DebugOption], optional, defaults to ""):
启用一个或多个调试功能。这是一个实验特性。可选项有:
- underflow_overflow:检测模型的输入/输出中的溢出,并报告导致事件的最后一帧
- tpu_metrics_debug:在TPU上打印度量 这些选项通过空格进行分隔。
- optim (str or [training_args.OptimizerNames], optional, defaults to "adamw_hf"):
可以使用的优化器:
- adamw_hf
- adamw_torch
- adamw_apex_fused
- adafactor
- adafactor (bool, optional, defaults to False):
此参数已经废弃,使用 --optim adafactor 替代
- group_by_length (bool, optional, defaults to False):
是否将训练数据集中长度大致相同的样本分组在一起(以最大限度地减少所应用的填充并提高效率)。仅在应用动态填充时有用。
- length_column_name (str, optional, defaults to "length"):
预计算列名的长度,如果列存在,则在按长度分组时使用这些值,而不是在训练启动时计算这些值。例外情况是:group_by_length设置为true,且数据集是Dataset的实例
- report_to (str or List[str], optional, defaults to "all"):
报告结果和日志的integration列表,支持的平台有:"azure_ml", "comet_ml", "mlflow", "tensorboard" 和"wandb". 使用 "all"则报告到所有安装的integration,配置为"none"则不报报告到任何的integration。
- ddp_find_unused_parameters (bool, optional):
使用分布式训练时,通过find_unused_parameters把该值传递给DistributedDataParallel。如果使用梯度gradient checkpoint,则默认为false,否则为true。
- ddp_bucket_cap_mb (int, optional):
使用分布式训练时,传递给“DistributedDataParallel”的标志“bucket_cap_mb”的值。
- dataloader_pin_memory (bool, optional, defaults to True):
当设置为True 时,在数据加载过程中,batch 数据会被放入 CUDA 中固定的固定内存,从而避免了从主内存到 GPU 内存的冗余拷贝开销,提升了数据读取的效率。
- skip_memory_metrics (bool, optional, defaults to True):
是否跳过将内存探查器报告添加到度量中。默认情况下会跳过此操作,因为它会降低训练和评估速度。
- push_to_hub (bool, optional, defaults to False):
每次当模型保存的时候,是否把模型推送到Hub。
80、resume_from_checkpoint (str, optional):
一个包含模型有效检查点的文件夹路径。这个参数不会被[Trainer]直接使用,而是打算由你的训练/评估脚本来使用。
- hub_model_id (str, optional):
与本地的 output_dir保持同步的仓库名称。它可以是将会推送到我们的命名空间里的一个非常简单的模型ID . 否则它将需要完整的仓库名称,比如 "user_name/model",它允许我们推送到一个我们是一个组织的成员之一("organization_name/model")的仓库。默认设置为user_name/output_dir_name,其中output_dir_name 是output_dir的值.
- hub_strategy (str or [~trainer_utils.HubStrategy], optional, defaults to "every_save"):
定义推送到hub的内容的范围以及何时推送到hub,可能的值有:
- end:当~Trainer.save_model方法被调用的时候,会推送模型,推送它的配置、tokenizer(如果传给了Trainer)和model card 的草稿。
- every_save:在每次模型保存的时候,都会推送,推送它的配置、tokenizer(如果传给了Trainer)和model card 的草稿。推送是异步的,不会影响模型的训练,如果模型保存的非常频繁,则新的推送只会在旧的推送完成之后进行推送,最后的一个推送是在模型训练完成之后
- checkpoint:类似于 "every_save",只是最后一个 checkpoint会被推送到名字为 last-checkpoint的子目录,它将方便我们使用 trainer.train(resume_from_checkpoint="last-checkpoint")重新开始训练。
- all_checkpoints: 类似于 "checkpoint" ,只是所有的checkpoints都推送,就像它们出现在输出目录一样 (这样你就可以在最终的仓库里面获取每一个checkpoint)
- hub_token (str, optional):
用于将模型推送到Hub的token。默认将使用huggingface-cli login获得的缓存文件夹中的令牌。
- hub_private_repo (bool, optional, defaults to False):
如果为True, Hub repo将会被设置为私有的。
- gradient_checkpointing (bool, optional, defaults to False):
如果为True,则使用梯度检查点以节省内存为代价降低向后传递速度。
- include_inputs_for_metrics (bool, optional, defaults to False):
是否将输入传递给“compute_metrics”函数。这适用于需要在Metric类中进行评分计算的输入、预测和参考的度量。
- auto_find_batch_size (bool, optional, defaults to False)
是否通过指数衰减自动找到适合内存的batch size,避免CUDA内存不足错误.需要安装 accelerate (pip install accelerate)。
- full_determinism (bool, optional, defaults to False)
如果为 True,则使用enable_full_determinism替代set_seed来确保在分布式训练下获得可重复的结果。
- torchdynamo (str, optional):
用于设置TorchDynamo后端编译器的token。可能的选择是[“eager”,“nvfuser]。这是一个实验性API,可能会更改。
- ray_scope (str, optional, defaults to "last"):
Ray Tune 是一个开元的分布式超参数优化库,可以用于自动搜索最佳的超参数配置,以及并行化训练作业。使用Ray进行超参搜索的范围。
常用参数
- model_type
- model_name_or_path
- train_file_dir
- validation_file_dir
- per_device_train_batch_size
- per_device_eval_batch_size
- do_train
- do_eval
- modules_to_save
- deepspeed
- use_peft
- qlora
- peft_path
- resume_from_checkpoint
- load_in_8bit
- load_in_4bit
- seed
- fp16
- max_train_samples
- max_eval_samples
- num_train_epochs
- learning_rate
- warmup_ratio
- weight_decay
- logging_strategy
- logging_steps
- eval_steps
- evaluation_strategy
- save_steps
- save_strategy
- save_total_limit
- gradient_accumulation_steps
- preprocessing_num_workers
- block_size
- output_dir
- overwrite_output_dir
- ddp_timeout
- logging_first_step
- target_modules
- lora_rank
- lora_alpha
- lora_dropout
- torch_dtype
- device_map
- report_to
- ddp_find_unused_parameters
- gradient_checkpointing
- cache_dir
参考
[1] https://github.com/huggingface/transformers/blob/06343b06335a1f8417bd32d3ffc7cf2cca9a24ac/src/transformers/training_args.py
[2] https://github.com/shibing624/MedicalGPT/tree/main
[3] https://blog.csdn.net/duzm200542901104/article/details/132762582
- 上一篇: 聊一聊机器学习中的特征转换 特征转化
- 下一篇: 常见20种验证码识别思路 验证码识别平台哪个好
猜你喜欢
- 2024-09-25 “千克”“毫升”单位不同怎么办?该是特征缩放上场的时候了
- 2024-09-25 决策树的高级概述 决策树的概念
- 2024-09-25 魔方全能小王子降临:一个完全不依赖人类知识的AI
- 2024-09-25 逻辑解释网络 网络逻辑设计包括哪些
- 2024-09-25 常见20种验证码识别思路 验证码识别平台哪个好
- 2024-09-25 聊一聊机器学习中的特征转换 特征转化
- 2024-09-25 详解状态机的设计 详解状态机的设计步骤
- 2024-09-25 小白福音!逻辑回归算法入门教程,让你一看就会
- 2024-09-25 Python实现数值型与字符型类别变量的独热编码One-hot Encoding
- 2024-09-25 xgboost树模型对于特征进行one-hot编码必要性分析
你 发表评论:
欢迎- 02-20利用神经网络模型检测摄像头上的可疑行为
- 02-20直击心灵:高频核心听力你了解吗?_高频听力的正常范围值是多少
- 02-20YOLOv8 POSE+XGBoost进行人体姿态检测
- 02-20100个篮球英文术语详细解释,从此听懂NBA解说
- 02-20最全紧固件中英文对照,外贸必备词典一
- 02-20带你开发一个视频动态手势识别模型
- 02-20详细介绍一下Java基础中HashMap如何进行扩容操作?
- 02-20GTX 1070 Ti显卡评测:你会购买哪一款?
- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)