parameter_efficient_instruction_tuning/peft_trainer.py at validation_ni_adapterpeft · AdaBit-AI/parameter_efficient_instruction_tuning · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
from datasets import load_dataset
import numpy as np
import torch
from transformers import (
    AdamW,
    get_scheduler,
)
from transformers import AutoModelForSeq2SeqLM
from peft import PeftModel
from torch.utils.data import DataLoader
import numpy as np
import os
import time
from functools import partial
from transformers import (
    AutoTokenizer,
    default_data_collator,
    DataCollatorForSeq2Seq
)
from transformers.optimization import AdamW
import transformers
from peft import get_peft_model, TaskType, PromptTuningConfig
from util.ni_dataset_collator import DataCollatorForNI
from copy import deepcopy
from utils import get_latest_checkpoint, remove_old_checkpoints, remove_files_and_folders_other_than, verify_complete_random_states, check_all_checkpoints_and_remove
import json
from accelerate import Accelerator
from tqdm.auto import tqdm
import shutil
from util.compute_metrics import compute_metrics, compute_grouped_metrics
from accelerate.utils import DistributedType
import time
from transformers.trainer_pt_utils import LabelSmoother
# modules use two pacakges
ADAPTER_TRANSFORMERS_MODULES=["ia3"]
# ADAPTER_TRANSFORMERS_MODULES=[ "compactor", "prefix_tuning", "lora_adapter", "adapter_adapter","ia3"]
PEFT_MODULES=["prompt_tuning", "lora_peft", "bitfit", "adapter_peft", "prefix_tuning"]
CAUSAL_LM=["gpt", "llama", "opt"]


BEST_CP_FOLDER_NAME="best_checkpoint"
LATEST_CP_FOLDER_NAME="latest_checkpoint"
from transformers import LlamaTokenizer
from transformers import LlamaForCausalLM
import logging
from accelerate.logging import get_logger
import accelerate
import pandas as pd


logging.basicConfig(level=logging.DEBUG)
# logging.basicConfig(level=logging.INFO)

logger = get_logger(__name__)


class TrainingState:
    """
    Track current training state.
    """
    def __init__(self, training_args, global_step=0, loss=0, best_metric_val=0, eval_metric="rougeL"):

        for k in list(training_args.keys()):
            training_args[f"training_args/{k}"] = training_args.pop(k)
        self.training_args = training_args

        self.state_dict = {
            "epoch": 0,
            "step": 0,
            "global_step": global_step,
            "loss": loss,
            "best_metric_step":-1,
            "best_metric_val":best_metric_val,
            "eval_metric":eval_metric,
            "test_eval_finished": False,
            "traditional_test_eval_finished": False,
            "train_finished": False,
            "trainable_params": 0,
            "total_model_params": 0,
            "trainable_ratio": 0,
            "optimization_step": 0,
        }
        self.file_name = "training_state.json"

    def get(self, k):
        if k in self.state_dict:
            return self.state_dict[k]
        elif "train_finished" == k: # if it's not in k, then it's false
            return False
        elif "traditional_test_eval_finished" == k:
            return False
        elif k == "optimization_step":
            return 0
        else:
            if hasattr(self, k):
                return getattr(self,k)
            else:
                raise ValueError(
                    f"{k} cannot be found in train state"
                )

    def update(self, dict):
        self.state_dict.update(dict)

    def to_dict(self):
        return dict([(k, v) for k, v in self.__dict__.items() if not k.startswith("_")])

    def save_to_json(self, cp_path):
        if cp_path is None:
            return
        file_path = os.path.join(cp_path, self.file_name)
        with open(file_path, "w") as f:
            json.dump(self.to_dict(), f)

    def load_from_json(self, cp_path):
        file_path = os.path.join(cp_path, self.file_name)
        with open(file_path, "r") as f:
            data = json.load(f)
        self.state_dict = data["state_dict"]
        self.training_args = data["training_args"]

    def __str__(self):
        return str(self.to_dict())


class PEFTTrainer:
    def __init__(self, training_args, data_args, model_args, peft_args):

        self.training_args = training_args
        self.data_args = data_args
        self.model_args = model_args
        self.peft_args = peft_args
        self.model_name_or_path = self.model_args.model_name_or_path
        self.potential_model_path =  os.path.join(
            self.training_args.saved_pretrained_model_path,
            self.model_name_or_path
        )

        self.model = None
        self.model_trainable_params = None
        self.recover_from = None

        # init
        self.best_metric_val = -1
        self.best_metric_step = -1


        self.start_epoch = 0 # start epoch from last checkpoint if exists, otherwise 0. when saving training state, it will be updated to latest epoch.

        self.start_step = 0 # start step from last checkpoint if exists
        self.epoch = 0 # current epoch
        self.step = 0 # current step at each epoch
        self.global_step = 0 # current global step
        self.total_optimization_step = 0 # total optimization step
        self.optimization_step = 0 # current optimization step


        self.train_finished = False
        self.test_eval_finished = False
        self.traditional_test_eval_finished = False

        self.model_lm_head_weight = None
        if self.model_args.model_arch != "decoder" and self.model_args.tuning_mode in ADAPTER_TRANSFORMERS_MODULES:
            self.model_lm_head_weight = AutoModelForSeq2SeqLM.from_pretrained(self.potential_model_path).lm_head.weight


        self.accelerator = Accelerator(
                log_with="tensorboard",
                # logging_dir=self.training_args.logging_dir,
                project_dir=self.training_args.output_dir,
                gradient_accumulation_steps = self.training_args.gradient_accumulation_steps,
        )

        # deepspeed setting can be considered as distributed
        self.use_distributed = self.accelerator.use_distributed or self.accelerator.distributed_type == DistributedType.DEEPSPEED
        self.distributed_type = self.accelerator.distributed_type
        self.num_processes = self.accelerator.num_processes

        self.train_state = TrainingState(
            self.training_args.to_dict(),
            eval_metric = self.training_args.eval_metric
        )
        self.accelerator.init_trackers(
                        self.training_args.run_name,
                        config=self.train_state.state_dict,
                        init_kwargs={"tensorboard": {"flush_secs": 60}},
                    )
        self.total_step = 1
        self.label_smoother = LabelSmoother(epsilon=self.training_args.label_smoothing_factor) if self.training_args.label_smoothing_factor > 0 else None
        self.load_tokenzier()
        self.build_dataloader()
        assert self.label_smoother is None
        # model needs to be loaded on all machines
        self.load_model_n_peft_module()

        # TODO: accelerator needs to load model and peft module first anyway
        # is there anyway to not load the original model? since if model is large then it will take a lot of time
        assert self.model is not None, "model should loaded"

        # also resize embedding here
        # self.load_tokenzier()
        assert self.tokenizer is not None, "tokenizer should loaded"
        # resize token embedding will set requires_grad back to True
        # we need to set it back to False

        if isinstance(self.model, PeftModel) and self.model_args.tuning_mode not in ["prompt_tuning", "prefix_tuning"]:
            # NOTE: for prompt tuning and prefix tuning, there is no model wrapper in peft package
            model = self.model.model
        else:
            model = self.model
        if self.model_args.tuning_mode != "fine_tuning":
            if "gpt2" in model_args.model_name_or_path:
                model.transformer.wte.weight.requires_grad = False
                model.transformer.wpe.weight.requires_grad = False
                model.lm_head.weight.requires_grad = False
            elif "llama" in model_args.model_name_or_path:
                model.lm_head.weight.requires_grad = False
                model.model.embed_tokens.weight.requires_grad = False
            elif "opt" in model_args.model_name_or_path:
                # check if it's type PeftModelForCausalLM
                model.model.decoder.embed_tokens.weight.requires_grad = False
                model.lm_head.weight.requires_grad = False


        trainable_params_percent = self.check_trainable_parameters()

        # self.total_step = -1
        # self.build_dataloader()
        # assert self.total_step > 0

        # some scheduler require num_training_steps which is depedent on len(dataset)
        self.load_optimizer_n_scheduler()

        if self.use_distributed:
            if self.distributed_type == DistributedType.DEEPSPEED:
                # model prepare should be called with dataloader prepare in deepspeed mode
                self.model, self.optimizer, self.scheduler, self.train_dataloader= self.accelerator.prepare(self.model, self.optimizer, self.scheduler, self.train_dataloader)
            elif self.distributed_type == DistributedType.MULTI_GPU:
                # model prepare should be called before optimizer prepare
                self.model, self.train_dataloader = self.accelerator.prepare(self.model, self.train_dataloader)
                self.optimizer, self.scheduler= self.accelerator.prepare(self.optimizer, self.scheduler)
            else:
                raise NotImplementedError(f"self.distributed_type {self.distributed_type} is not implemented")
            if self.data_args.dataset_name != "alpaca":
                self.eval_dataloader, self.test_dataloader, self.traditional_test_dataloader = self.accelerator.prepare(self.eval_dataloader, self.test_dataloader, self.traditional_test_dataloader)
        else:
            self.device = "cuda" if torch.cuda.is_available() else "cpu"
            self.model = self.model.to(self.device)


    def load_model_n_peft_module(self):
        self.model = self.load_pretrained_model()
        self.configure_n_load_peft_module() # always load model from scratch for accelerate

    def load_optimizer_n_scheduler(self):
        if not self.distributed_type == DistributedType.DEEPSPEED:
            # DDP, keep parameters require_grad status
            # create AdamW optimizer
            self.optimizer = AdamW(
                self.model.parameters(),
                lr=self.training_args.learning_rate,
                # eps=self.training_args.adam_epsilon,
                weight_decay=self.training_args.weight_decay,
            )
            # Create the learning rate scheduler.
            # Note: the current accelerator.step() calls the .step() of the real scheduler for the `num_processes` times. This is because they assume
            # the user initialize the scheduler with the entire training set. In the case of data parallel training, each process only
            # sees a subset (1/num_processes) of the training set. So each time the process needs to update the lr multiple times so that the total
            # number of updates in the end matches the num_training_steps here.
            # Here we need to set the num_training_steps to either using the entire training set (when epochs is specified) or we need to multiply the
            # num_training_steps by num_processes so that the total number of updates matches the num_training_steps.

            self.scheduler = get_scheduler(
                    name=self.training_args.scheduler_type,
                    optimizer=self.optimizer,
                    num_training_steps=self.num_training_steps_for_scheduler,
                    num_warmup_steps=self.warmup_steps_for_scheduler
            )

        else:
            # deepspeed
            # lora adapter and other adapter methods
            if self.model_args.tuning_mode not in ["fine_tuning"] + PEFT_MODULES:
                optimizer_grouped_parameters = [
                    {
                        "params": [p for p in self.model.parameters() if p.requires_grad],
                        "lr": self.training_args.learning_rate,
                        "weight_decay": self.training_args.weight_decay,
                    },
                    {
                        "params": [p for p in self.model.parameters() if not p.requires_grad],
                        "lr": 0,
                        "weight_decay": 0.0
                    },
                ]

                for param in self.model.parameters():
                    param.requires_grad = True
                self.optimizer = accelerate.utils.DummyOptim(
                    optimizer_grouped_parameters,
                    lr=self.training_args.learning_rate
                )
            else:
                # fine tuning, peft package methods
                self.optimizer = accelerate.utils.DummyOptim(
                    self.model.parameters(),
                    lr=self.training_args.learning_rate,
                    weight_decay=self.training_args.weight_decay,
                )

            assert self.optimizer.lr == self.training_args.learning_rate, "optimizer learning rate is not set successfully"
            self.print_log(f"Learning rate(lr) is set to {self.optimizer.lr}", )


            self.scheduler = accelerate.utils.DummyScheduler(
                self.optimizer,
                warmup_num_steps=self.warmup_steps_for_scheduler,
                total_num_steps=self.num_training_steps_for_scheduler
            )


        # some test for different peft setup to align original paper setup
        if "lora" in self.model_args.tuning_mode:
            assert self.training_args.scheduler_type == "linear"
            # assert self.training_args.warmup_steps == 500


    def load_tokenzier(self):

        if os.path.exists(self.potential_model_path):
            if "llama" in self.model_args.model_name_or_path.lower():
                self.tokenizer = LlamaTokenizer.from_pretrained(
                    self.potential_model_path,
                    truncation_side = "left" # NOTE: this is important for causal lm data prepare in case </sep> is truncated
                )
            else:
                self.tokenizer = AutoTokenizer.from_pretrained(
                    self.potential_model_path,
                    truncation_side = "left" # NOTE: this is important for causal lm data prepare in case </sep> is truncated
                    )
        else:
            self.tokenizer = AutoTokenizer.from_pretrained(
                self.model_name_or_path,
                cache_dir=self.training_args.cache_dir,
                # use_cache = self.arguments.use_cache,
                truncation=True,
                max_length=512,
                use_fast=True,
                return_tensors="pt"
            )

        if any([m in self.model_name_or_path for m in CAUSAL_LM]):
            # gpt2 model
            self.tokenizer.add_special_tokens({
                'pad_token': '</PAD>',
                'sep_token': '</SEP>',
            })
            self.model.resize_token_embeddings(len(self.tokenizer))


        self.padding = "max_length" if self.data_args.pad_to_max_length else False

        if "gpt2" in self.model_name_or_path or "llama" in self.model_name_or_path:
            print('gpt2/llama requires padding to max length')
            self.padding = "max_length"

    def load_pretrained_model(self, config=None):
        """
        1. Load model, tokenizer by model architecture and peft packages.
        2. load model from potential checkpoint/saved_pretrained model
        3. handles model parallel if needed.
        NOTE: it doesn't load peft module if it's not from checkpoint.
        """
        logging.info(f"Loading {self.model_args.model_name_or_path} (for large models, this might take a while)")
        logging.info(f"Files will be cached at: {self.training_args.cache_dir}")
        logging.info(f"Ensure this directory is persistent if you do not want to download model files again!")

        if "t5" in self.model_name_or_path or "bart" in self.model_name_or_path:
            if self.model_args.tuning_mode in ["fine_tuning", "prompt_tuning"]:

                if os.path.exists(self.potential_model_path):
                    model = AutoModelForSeq2SeqLM.from_pretrained(self.potential_model_path, config = config)
                else:
                    model = AutoModelForSeq2SeqLM.from_pretrained(self.model_name_or_path, cache_dir=self.training_args.cache_dir, config = config)
            elif self.model_args.tuning_mode in ADAPTER_TRANSFORMERS_MODULES:
                from transformers import AutoAdapterModel
                # adapter model + seq2seq lm head (replace lm head with original t5-lm head weights)
                if os.path.exists(self.potential_model_path):
                    model = AutoAdapterModel.from_pretrained(self.potential_model_path, config = config)
                else:
                    model = AutoAdapterModel.from_pretrained(self.model_name_or_path, cache_dir=self.training_args.cache_dir, config = config)

            elif self.model_args.tuning_mode in PEFT_MODULES:
                # NOTE: this is not compatible if loading for the first time as
                # for peft package, loading by AutoModelForSeq2SeqLM is good enough

                if os.path.exists(self.potential_model_path):
                    model =AutoModelForSeq2SeqLM.from_pretrained(self.potential_model_path, config = config)
                else:
                    model =AutoModelForSeq2SeqLM.from_pretrained(self.potential_model_path, cache_dir=self.training_args.cache_dir, config = config)
            else:
                raise NotImplementedError("Tuning mode not supported: " + self.model_args.tuning_mode)

        elif "llama" in self.model_name_or_path.lower():
            if self.model_args.tuning_mode in ["fine_tuning", "prompt_tuning", "adapter_peft", "lora_peft"] or self.model_args.tuning_mode in ADAPTER_TRANSFORMERS_MODULES:
                model = LlamaForCausalLM.from_pretrained(self.potential_model_path, config = config)
            else:
                raise NotImplementedError("Tuning mode not supported: " + self.model_args.tuning_mode)
        elif "gpt2" in self.model_name_or_path or "bloom" in self.model_name_or_path or "opt" in self.model_name_or_path:
            from transformers import AutoModelForCausalLM
            if os.path.exists(self.potential_model_path):
                model = AutoModelForCausalLM.from_pretrained(self.potential_model_path, config = config)
            else:
                model = AutoModelForCausalLM.from_pretrained(
                    self.model_name_or_path,
                    # from_tf=bool(".ckpt" in self.model_name_or_path),
                    # config=m_config,
                    cache_dir=self.training_args.cache_dir,
                    config = config
                )
        else:
            raise NotImplementedError("Model not supported: " + self.model_name_or_path)

        return model


    def build_dataloader(self):
        self.load_data_collator()
        self.load_dataset()

        min_eval_data_size_per_process = self.num_processes * self.training_args.per_device_eval_batch_size
        min_test_data_size_per_process = self.num_processes * self.training_args.per_device_test_batch_size
        # adjust dataset size based on distribution environment
        if self.data_args.dataset_name != "alpaca" and self.use_distributed:
            assert len(self.eval_dataset) >= min_eval_data_size_per_process, f"eval dataset size {len(self.eval_dataset)} must be greater than {min_eval_data_size_per_process} examples"

            assert len(self.test_dataset) >= min_test_data_size_per_process, f"test dataset size {len(self.test_dataset)} must be greater than {min_test_data_size_per_process} examples"

            if len(self.eval_dataset) % min_eval_data_size_per_process != 0:
                org_len = len(self.eval_dataset)
                new_size = len(self.eval_dataset)  - len(self.eval_dataset) % min_eval_data_size_per_process

                self.eval_dataset = self.eval_dataset.select(range(new_size))
                new_len = len(self.eval_dataset)
                self.print_log(f"process {self.accelerator.process_index}: eval dataset size must be divisible by number of processes*eval_batch_size {self.num_processes}, truncating from {org_len} to {new_len} examples")

            if len(self.test_dataset) % min_test_data_size_per_process != 0:
                org_len = len(self.test_dataset)
                new_len = len(self.test_dataset)  - len(self.test_dataset) % min_test_data_size_per_process
                self.test_dataset = self.test_dataset.select(range(new_len))
                self.print_log(f"test dataset size must be divisible by number of processes*test_batch_size {min_test_data_size_per_process}, truncating from {org_len} to {new_len} examples")

            if len(self.traditional_test_dataset) % min_test_data_size_per_process != 0:
                org_len = len(self.traditional_test_dataset)
                new_len = len(self.traditional_test_dataset)  - len(self.traditional_test_dataset) % min_test_data_size_per_process
                self.traditional_test_dataset = self.traditional_test_dataset.select(range(new_len))
                self.print_log(f"traditional test dataset size must be divisible by number of processes*test_batch_size {min_test_data_size_per_process}, truncating from {org_len} to {new_len} examples")

            assert len(self.eval_dataset) % min_eval_data_size_per_process == 0, f"eval dataset size {len(self.eval_dataset)} must be divisible by number of processes*eval_batch_size {min_eval_data_size_per_process}"
            assert len(self.test_dataset) % min_test_data_size_per_process == 0, f"test dataset size {len(self.test_dataset)} must be divisible by number of processes*test_batch_size {min_test_data_size_per_process}"
            assert len(self.traditional_test_dataset) % min_test_data_size_per_process == 0, f"traditional test dataset size {len(self.traditional_test_dataset)} must be divisible by number of processes*test_batch_size {min_test_data_size_per_process}"
        self.load_dataloader()
        if self.training_args.early_exit:
            exit()

        train_bs_per_step = self.training_args.per_device_train_batch_size * self.num_processes
        # with gradient accumulation, per gradient update step is actually multiple steps
        self.total_step = self.training_args.num_train_epochs * len(self.train_dataset) // train_bs_per_step
        self.warmup_steps = self.total_step * self.training_args.warmup_ratio
        self.print_log(f"total_step: {self.total_step}, warmup_steps: {self.warmup_steps}", print_step=False)
        import math
        num_update_steps_per_epoch = math.ceil(len(self.train_dataloader) / (self.training_args.gradient_accumulation_steps * self.accelerator.num_processes * self.training_args.per_device_train_batch_size))
        self.optimization_step = 0
        self.total_optimization_step = self.training_args.num_train_epochs * num_update_steps_per_epoch
        self.print_log(f"total_optimization_step: {self.total_optimization_step}", print_step=False)
        self.training_args.eval_steps = self.total_optimization_step // self.training_args.eval_times
        self.training_args.save_steps = self.training_args.eval_steps//5
        self.print_log(f"eval_steps: {self.training_args.eval_steps}, save_steps: {self.training_args.save_steps}", print_step=False)

        if self.model_args.tuning_mode == "fine_tuning":
            assert self.warmup_steps == 0, f"constant lr for fine tuning, but got warmup steps {self.warmup_steps}"
        else:
            assert self.warmup_steps > 0, f"lr warmup steps should be larger than 0, but got {self.warmup_steps}"

        self.num_training_steps_for_scheduler = self.total_step * self.accelerator.num_processes
        self.warmup_steps_for_scheduler = self.num_training_steps_for_scheduler * self.training_args.warmup_ratio

        self.num_training_steps_for_scheduler = self.total_optimization_step * self.training_args.gradient_accumulation_steps * self.accelerator.num_processes
        self.warmup_steps_for_scheduler = self.num_training_steps_for_scheduler * self.training_args.warmup_ratio


    def load_dataloader(self):
        self.train_dataloader = DataLoader(
            self.train_dataset,
            shuffle=True,
            batch_size=self.training_args.per_device_train_batch_size,
            collate_fn=self.data_collator
        )
        # no eval for alpaca dataset training
        if self.data_args.dataset_name != "alpaca":
            self.eval_dataloader = DataLoader(
                self.eval_dataset,
                shuffle=False,
                batch_size=self.training_args.per_device_eval_batch_size,
                # collate_fn=self.data_collator,
                collate_fn=partial(self.data_collator, eval_mode=True)
            )

            self.test_dataloader = DataLoader(
                self.test_dataset,
                shuffle=False,
                batch_size=self.training_args.per_device_test_batch_size,
                # collate_fn=self.data_collator,
                collate_fn=partial(self.data_collator, eval_mode=True)
            )

            self.traditional_test_dataloader = DataLoader(
                self.traditional_test_dataset,
                shuffle=False,
                batch_size=self.training_args.per_device_test_batch_size,
                # collate_fn=self.data_collator,
                collate_fn=partial(self.data_collator, eval_mode=True)
            )


    def load_dataset(self):
        """
        dataset loading pipeline:
        1. load all dataset (train, eval, test)
        2. preprocess dataset
        3. dataloader with tokenizer inside, it requires tokenizer to provide padding token id
        4. return dataloader

        """
        if self.data_args.dataset_name == "ni":
            assert self.data_args.task_dir is not None, "task_dir is required for NaturalInstructions dataset"
            assert self.data_args.data_dir is not None, "data_dir is required for NaturalInstructions dataset"
            # Get the NaturalInstructions dataset
            raw_datasets = load_dataset(
                "util/ni_dataset.py",
                data_dir=self.data_args.data_dir,
                task_dir=self.data_args.task_dir,
                cache_dir=self.training_args.cache_dir,
                max_num_instances_per_task=self.data_args.max_num_instances_per_task,
                max_num_instances_per_eval_task=self.data_args.max_num_instances_per_eval_task,
                download_mode = "reuse_dataset_if_exists" if not self.data_args.overwrite_cache else "force_redownload",
                random_seed = 42, # it will affect the cache file name, so better fix it
            )

            if self.training_args.dev_run:
                raw_datasets["train"] = raw_datasets["train"].select(range(self.training_args.dev_run_data_size))
                raw_datasets["validation"] = raw_datasets["validation"].select(range(self.training_args.dev_run_data_size))
                raw_datasets["test"] = raw_datasets["test"].select(range(self.training_args.dev_run_data_size))

            elif self.training_args.dev_train:
                raw_datasets["train"] =  raw_datasets["train"].select(range(self.training_args.dev_train_data_size))
                # raw_datasets["validation"] = raw_datasets["train"]
                # raw_datasets["train"] =  raw_datasets["train"]

                # short train
                raw_datasets["validation"] = raw_datasets["train"].select(range(self.training_args.dev_train_data_size))
                raw_datasets["test"] = raw_datasets["test"].select(range(self.training_args.dev_train_data_size))

                # long train
                # select random 300 examples from validation and 500 examples from test
                # import random
                # random.seed(42)
                # raw_datasets["validation"] = raw_datasets["validation"].select(random.sample(range(len(raw_datasets["validation"])), 300))
                # raw_datasets["test"] = raw_datasets["test"].select(random.sample(range(len(raw_datasets["test"])), 500))
                # raw_datasets["trainditional_test"] = raw_datasets["traditional_test"].select(range(self.training_args.dev_train_data_size))
            elif self.training_args.dev_test:
                # test compute metrics are same for validation and test as
                # test evaluation load model from checkpoint and run on test dataset
                raw_datasets["train"] =  raw_datasets["train"].select(range(self.training_args.dev_test_data_size))
                raw_datasets["validation"] = raw_datasets["train"]
                raw_datasets["test"] = raw_datasets["train"]
                raw_datasets["traditional_test"] = raw_datasets["traditional_test"].select(range(self.training_args.dev_test_data_size))

            self.train_dataset = raw_datasets["train"]
            self.eval_dataset = raw_datasets["validation"]
            self.test_dataset = raw_datasets["test"]
            self.traditional_test_dataset = raw_datasets["traditional_test"]
        elif self.data_args.dataset_name == "alpaca":
            from utils import encode_with_messages_format
            data_files = {}
            dataset_args = {}
            data_dir="data/processed/stanford_alpaca"
            data_files["train"] = os.path.join(data_dir, "stanford_alpaca_data.jsonl")
            raw_datasets = load_dataset(
                "json",
                data_files=data_files,
                cache_dir=data_dir,
                # use_auth_token=True if model_args.use_auth_token else None,
                **dataset_args,
            )
            encode_function = partial(
                encode_with_messages_format,
                tokenizer=self.tokenizer,
                max_seq_length=self.data_args.max_source_length, # self.data_args.max_seq_length,
            )
            lm_datasets = raw_datasets.map(
                encode_function,
                batched=False,
                num_proc=1, # data_args.preprocessing_num_workers,
                remove_columns=[name for name in raw_datasets["train"].column_names if name not in ["input_ids", "labels", "attention_mask"]],
                load_from_cache_file=True, # not data_args.overwrite_cache,
                desc="Tokenizing and reformatting instruction data",
            )
            lm_datasets.set_format(type="pt")
            lm_datasets = lm_datasets.filter(lambda example: (example['labels'] != -100).any())

            self.train_dataset = lm_datasets["train"]
            if self.training_args.dev_test:
                self.train_dataset = lm_datasets["train"].select(range(self.training_args.dev_test_data_size))

        else:
            raise NotImplementedError("New implementation no train,valid,test.   Dataset not supported: " + self.data_args.dataset_name)


    def load_data_collator(self):
        if self.data_args.dataset_name == "ni":
            dataset_dependent_data_collator = DataCollatorForNI(
                self.tokenizer,
                model=self.model,
                model_arch=self.model_args.model_arch,
                padding="max_length" if self.data_args.pad_to_max_length else "longest",
                max_source_length=self.data_args.max_source_length,
                max_target_length=self.data_args.max_target_length,
                label_pad_token_id=self.tokenizer.pad_token_id,
                pad_to_multiple_of=8 if self.training_args.bf16 else None,
                add_task_name=self.data_args.add_task_name,
                add_task_definition=self.data_args.add_task_definition,
                num_pos_examples=self.data_args.num_pos_examples,
                num_neg_examples=self.data_args.num_neg_examples,
                add_explanation=self.data_args.add_explanation,
                tk_instruct=self.data_args.tk_instruct
            )
            self.training_args.remove_unused_columns = False
        elif self.data_args.dataset_name == "alpaca":
            dataset_dependent_data_collator = DataCollatorForSeq2Seq(
                                                tokenizer=self.tokenizer,
                                                model=self.model,
                                                padding="longest",
                                                # batch_size=self.training_args.per_device_train_batch_size,
            )

        else:
            dataset_dependent_data_collator = default_data_collator
        self.data_collator = dataset_dependent_data_collator


    def load_peft_module(self, peft_config=None, reset_peft=False):
        """
        1. prepare peft model
        2. set up trainer

        Args:
            peft_config (_type_): _description_
        """
        adapter_name = self.model_args.tuning_mode
        if self.model_args.tuning_mode in ADAPTER_TRANSFORMERS_MODULES: # prefix_tuning


            # add and activate adapter
            self.model.add_adapter(adapter_name, config = peft_config, overwrite_ok=reset_peft)
            self.model.train_adapter(adapter_name)


            lm_head_adapter_name = f"lm_head-{adapter_name}"
            # trainer.model
            if self.model_args.model_arch == "encoder":
                self.model.add_classification_head(lm_head_adapter_name, num_labels=2, overwrite_ok=reset_peft)
            elif self.model_args.model_arch == "encoder-decoder":
                self.model.add_seq2seq_lm_head(lm_head_adapter_name, overwrite_ok=reset_peft)
                self.model.heads[lm_head_adapter_name][0].weight = self.model_lm_head_weight
                self.model.heads[lm_head_adapter_name][0].weight.requires_grad = False
                del self.model_lm_head_weight
                import gc
                gc.collect()
            elif self.model_args.model_arch == "decoder":
                pass
                # since we don't fine tune causal lm head and inherit
                # llama causal model directly, we don't need to add lm head
            else:
                raise NotImplementedError(
                    f"Not implemented for model arch: {self.model_args.model_arch}"
                )

            self.model.set_active_adapters(adapter_name)
            # self.model.freeze_model(True)
            if self.model.active_adapters is None:
                raise ValueError(
                    "Expected a model with an active adapter setup."
                    "If you want to fully finetune the model use the Trainer class."
                )


        elif self.model_args.tuning_mode == "bitfit":
            for param in self.model.parameters():
                param.requires_grad = False
            for name, module in self.model.named_modules():
                if hasattr(module, "bias"):
                    if module.bias is None:
                        module.bias = torch.nn.Parameter(torch.zeros(module.out_features))
                    # pytorch Parameter by default requires grad
                    if not module.bias.requires_grad:
                        module.bias.requires_grad = True
        else:
            # NOTE: prompt tuning
            # general peft converting based on different peft config
            assert peft_config is not None, "peft config should be provided for non-adapter peft method"

            if reset_peft:
                # self.model = AutoModelForSeq2SeqLM.from_pretrained(self.model_name_or_path, cache_dir=self.training_args.cache_dir)
                self.model = deepcopy(self.model_cache)
            # add tokens in models and tokenizers + freeze model
            self.model.enable_input_require_grads()

            self.model = get_peft_model(self.model, peft_config)


    def check_trainable_parameters(self, print_params_required_grad = False):
        # total_params = sum(p.numel() for p in self.model.parameters())
        trainable_params = sum(p.numel() for p in self.model.parameters() if p.requires_grad)

        # print_params_required_grad = True
        if print_params_required_grad:
            for n, p in self.model.named_parameters():
                if p.requires_grad:
                    print(n,p.data.shape)
        # translate trainable_params to human readable format
        def human_readable_format(num, precision=3, suffixes=['', 'K', 'M', 'G', 'T', 'P']):
            m = sum([abs(num/1000.0**x) >= 1 for x in range(1, len(suffixes))])
            return f'{num/1000.0**m:.{precision}f}{suffixes[m]}'
        self.model_trainable_params = sum(p.numel() for p in self.model.parameters())
        if self.model_trainable_params > 0:
            trainable_ratio = trainable_params/self.model_trainable_params
        else:
            trainable_ratio = 0
        trainable_params = human_readable_format(trainable_params)

        trainable_state = {
            "trainable_params": trainable_params,
            "total_model_params": self.model_trainable_params,
            "trainable_ratio":trainable_ratio
        }
        self.train_state.update(
            trainable_state
        )
        self.print_log(trainable_state, print_step=False)
        return trainable_state

    def train(self):
        """
        0. load pretrained model, dataset, optimizer and scheduler
        1. set up self.accelerator
        2. load previous checkpoint if resume training
        3. load training components such as data_collator, dataset and optimizer.
        4. start training.
        5. save the best model during evaluation
        5. evaluate the best model on test set

        Plus,
        - support resume training
        """

        # steps/epoches
        assert self.training_args.num_train_epochs is not None, "num_train_epochs is not set"
        assert self.training_args.max_steps == -1, "max_steps is not supported yet, but got {}".format(self.training_args.max_steps)

        train_bs_per_step = self.training_args.per_device_train_batch_size * self.num_processes
        expected_num_train_step_per_epoch = len(self.train_dataset) // train_bs_per_step
        assert abs(expected_num_train_step_per_epoch -len(self.train_dataloader)) <= 1 , f"expected_num_train_step_per_epoch {expected_num_train_step_per_epoch} != len(self.train_dataloader) {len(self.train_dataloader)}"


        loss = 0
        # handle early stopping separately
        self.load_last_train_state() # load train state in case test is finished
        if self.test_eval_finished or self.train_finished:
            if self.test_eval_finished:
                self.print_log("test evaluation is already finished,  exit training...")
            if self.train_finished:
                self.print_log("training is already finished, exit training...")
            return
        self.load_last_run_multi_proc()


        self.print_log(f"Per step batch size (no grad acc): {train_bs_per_step}")
        # NOTE: only loss computation will be affected by gradient accumulation

        train_bs = self.training_args.per_device_train_batch_size * self.training_args.gradient_accumulation_steps * self.num_processes
        self.print_log(f"Training batch size (considering grad acc): {train_bs}")

        # TODO: add expected train bs assertion or automatic adjusting

        if self.use_distributed:
            self.accelerator.log(self.training_args.to_dict())

            progress_bar = tqdm(
                # range(0, self.total_step),
                range(0, self.total_optimization_step),
                disable=not self.accelerator.is_local_main_process or self.training_args.is_cluster,
                initial = self.optimization_step,
                miniters=self.training_args.logging_steps,
            )
            if self.global_step > 0:
                self.print_log(f"Resume training from epoch {self.start_epoch}, step {self.start_step}, global_step {self.global_step}")

                self.accelerator.skip_first_batches(self.train_dataloader,  self.start_step)
                self.print_log(f"skip first {self.start_step} steps in train_dataloader", print_step=False)
        else:
            progress_bar = tqdm(
                range(0, self.total_optimization_step),
                initial = self.optimization_step,
                miniters=self.training_args.logging_steps,
                disable=self.training_args.is_cluster
            )

        self.print_log(f"***** Running training *****")
        self.print_log(f"  Num examples = {len(self.train_dataset)}")
        self.print_log(f"  Num Epochs = {self.training_args.num_train_epochs}")
        self.print_log(f"  Instantaneous batch size per device = {self.training_args.per_device_train_batch_size}")
        self.print_log(f"  Total train batch size (w. parallel, distributed & accumulation) = {train_bs}")
        self.print_log(f"  Gradient Accumulation steps = {self.training_args.gradient_accumulation_steps}")
        self.print_log(f"  Total optimization steps = {self.total_optimization_step}")

        # start step -> start optimization step
        #


        self.model.train()
        logging_loss = 0

        for self.epoch in range(self.start_epoch, self.training_args.num_train_epochs):
            # it can show the processes to reach here
            self.print_log(f"------------{self.accelerator.device}: new epoch: {self.epoch} global_step: {self.global_step}")
            for self.step, inputs in enumerate(self.train_dataloader, start=self.start_step): # start count step from self.start_step
                self.train_state.update(
                            {
                                "epoch": self.epoch,
                                "step": self.step,
                                "global_step": self.global_step,
                                "optimization_step": self.optimization_step,
                            }
                        )
                if self.use_distributed:
                    # per progress bar step is actually gradient_accumulation_steps
                    with self.accelerator.accumulate(self.model):

                        try:
                            if self.label_smoother is None:
                                outputs = self.model(**inputs)
                                loss = outputs["loss"]
                            else:
                                labels = inputs.pop("labels")
                                outputs = self.model(**inputs)
                                loss = self.label_smoother(outputs, labels)
                        except RuntimeError as e:
                            if self.accelerator.is_local_main_process:
                                shutil.rmtree(self.training_args.output_dir)
                                # shutil.rmtree(self.training_args.logging_dir)
                            print(f"this expr's output dir and logging dir have been removed due to error \n {e}")
                            raise e
                        # log before backward
                        self.accelerator.backward(loss) # it does gradient acc internally
                        # under accelerator.accumulate context
                        # it steps until gradient_accumulation_steps
                        self.optimizer.step()
                        self.scheduler.step()
                        self.optimizer.zero_grad()
                    if self.accelerator.sync_gradients:
                        progress_bar.update(1)
                        self.optimization_step += 1
                else:
                    for k in inputs:
                        inputs[k] = inputs[k].to(self.device)

                    outputs = self.model(**inputs)
                    loss = outputs["loss"]
                    loss.backward()
                    self.optimizer.step()
                    self.scheduler.step()
                # self.save_and_eval(self.global_step)
                self.save_and_eval(self.optimization_step)
                if self.training_args.is_cluster:
                    import hfai
                    # cluster pre-interrupt saving
                    if hfai.distributed.get_rank() == 0 and self.accelerator.is_local_main_process: # 获取当前节点序号。在0号节点的0号进程上接收集群调度信息
                        if hfai.client.receive_suspend_command():
                            self.print_log(f"Received suspend command, saving model at {self.global_step} steps")
                            self.save(self.global_step)
                            self.accelerator.wait_for_everyone()
                            self.print_log(f"Model checkpoint at {self.global_step} steps is saved. Going suspend...")

                            hfai.client.go_suspend()


                # log each backward step (not grad acc step)
                self.global_step += 1
                # progress_bar.update(1)
                logging_loss += loss.item()

                # logging
                if self.global_step != 0 and self.global_step % self.training_args.logging_steps == 0:
                    try:
                        last_lr = self.scheduler.get_last_lr()[0]
                    except AssertionError:
                        last_lr = None
                        self.print_log("No latest lr found in scheduler...")
                    self.log({
                            "train/loss": logging_loss/self.training_args.logging_steps,
                            "train/lr": last_lr,
                            })
                    self.print_log(f"train/loss: {logging_loss/self.training_args.logging_steps}")
                    self.print_log(f"train/lr: {last_lr}")
                    logging_loss = 0

                # NOTE: code version updated to optimization step
                # the code below ensures backward compatibility
                if self.global_step >= self.total_step:
                    self.save_and_eval(self.global_step, force=True)
                    self.end_training()
                    return
            self.start_step = 0
            self.print_log(f"epoch {self.epoch} finished, evaluating...")
            # To be compatible with low data size, eval per epoch as well
            if not (self.training_args.dev_train or self.training_args.dev_run or self.training_args.dev_test):
                # self.save_and_eval(self.global_step, force=True)
                self.save_and_eval(self.optimization_step, force=True)

            self.print_log(f"epoch {self.epoch} finished, best_metric_step: {self.best_metric_step}, best_metric_val {self.best_metric_val}")
            self.print_log(f"steps per epoch: {self.global_step/(self.epoch+1)}")

        # log best metric val at final step for easy comparison
        self.end_training()

    def end_training(self):
        """
        end training for cluster
        """
        self.print_log(f"training is already finished, {self.global_step} steps are already done")
        self.print_log(f"best_metric_step: {self.best_metric_step}, best_metric_val {self.best_metric_val}")
        self.print_log("Ending training...")
        self.log(
        {
            "best_metric_val": self.best_metric_val,
            "best_metric_step": self.best_metric_step,
            "train_finished": True,
        }
        )
        self.accelerator.end_training()


    def log(self, d):
        """
        log to tensorboard/train state.
        but it doesn't save train state as train state could be saved to diff dirs.
        """
        self.accelerator.log(d,
                            step=self.global_step
        )
        self.train_state.update(d)

    def print_by_rank(self, s):
        print(f"{self.accelerator.device}: {s}")

    def print_log(self, s, print_step=True):
        """
        print log under different training system.
        """
        if self.optimization_step > 0 and print_step:
            s = f"global_optimization_step {self.optimization_step}/{self.total_optimization_step}  ({self.optimization_step/self.total_optimization_step}): {s}"
        if self.training_args.is_cluster:
            import hfai
            if hfai.distributed.get_rank() == 0:
                print(s)
        elif self.accelerator.is_main_process:
            logger.info(s)

    def evaluate(self, mode="eval", during_training=True):
        """
        There are two cases calling evaluate function:
        1. During training, it's called after each epoch or each eval step
        2. During test evaluation, it's called after loading the best checkpoint (dry train).
        """
        if mode == "eval":
            dataset2eval = self.eval_dataset
            dataloader2eval = self.eval_dataloader