Historie revizí

Autor SHA1 Zpráva Datum
  Hamid Shojanazeri 4f70348b94 remove the redundant lr step před 1 rokem
  Hamid Shojanazeri a955ed1999 added checks for dist barrier and commented cuda exapnadable segements and dist_dbug před 1 rokem
  Hamid Shojanazeri a2403c7c1a clean up před 1 rokem
  Hamid Shojanazeri e9559d2669 fixing the train/eval_loss calcualtion před 1 rokem
  Hamid Shojanazeri 4ba4400a75 adding dist barrier before and after checkpointing před 1 rokem
  Hamid Shojanazeri a49a2c2804 adding PT cuda allocation expand flag před 1 rokem
  Hamid Shojanazeri 442c1ccf7c adding barrier to end of trainer loop před 1 rokem
  Hamid Shojanazeri f74d57dc08 printing scores based on fsdp usage or single gpu před 1 rokem
  Hamid Shojanazeri 3d887ea483 update with active memory and removing rank0 for eval score před 1 rokem
  Hamid Shojanazeri bedb96b78a fixing the full state path in checkpoint handler před 1 rokem
  Hamid Shojanazeri bd01f64cbd Merge branch 'main' into fix-cuda_id před 1 rokem
  Andrew Gu 71fdc4920a Save memory and fix typos před 1 rokem
  Hamid Shojanazeri a7156dfb5d fixing the cuda id před 1 rokem
  Hamid Shojanazeri 707af7ea24 adding cuda:0 for non-fsdp situations před 1 rokem
  Hamid Shojanazeri 6678be75ad fixing identation před 1 rokem
  Hamid Shojanazeri 6a84e9e4d5 fixing scaler for both fsdp and non fsdp před 1 rokem
  Hamid Shojanazeri 065ddaa77b fixing the condition for moving to cuda před 1 rokem
  Hamid Shojanazeri 20b061e01c modify to steping the lr scheduler each epoch před 1 rokem
  chauhang 4767f09ecd Initial commit před 1 rokem