def build_trainer(name: str,*,default_config: Optional[TrainerConfigDict] = None,validate_config: Optional[Callable[[TrainerConfigDict], None]] = None,default_policy: Optional[Type[Policy]] = None,get_policy_class: Optional[Callable[[TrainerConfigDict], Optional[Type[Policy]]]] = None,validate_env: Optional[Callable[[EnvType, EnvContext], None]] = None,before_init: Optional[Callable[[Trainer], None]] = None,after_init: Optional[Callable[[Trainer], None]] = None,before_evaluate_fn: Optional[Callable[[Trainer], None]] = None,mixins: Optional[List[type]] = None,execution_plan: Optional[Callable[[WorkerSet, TrainerConfigDict], Iterable[ResultDict]]] = default_execution_plan) -> Type[Trainer]:
--》name:表示trainer的名字,例如“PPO”
--》default_config:强化学习算法的配置
--》validate_config:用来验证配置的准确性
--》default_policy:默认策略类
--》get_policy_class:处理配置并返回策略类
--》validate_env:去验证生成的环境,只在worker=0使用
--》before_init:在构造worker之前执行,trainer实例作为参数
--》after_init:在构造worker之后执行,trainer实例作为参数
--》before_evaluate_fn:在评估前运行,trainer实例作为参数
--》mixins:课程训练的trainer类别
--》execution_plan:设置分布式训练工作流