星期五, 10月 13, 2023

Open Pretrained Transformers - Susan Zhang | Stanford MLSys #77

 乾貨很多的好影片。內容主要是訓練大模型踩過的各種坑,模型大了什麼鬼問題都有,從顯示卡、CUDA、記憶體等設備直接出包,到到各種莫名其妙的 convergence failure,原因查得到和查不到的都有。遇到問題的各種解法,包括看paper有理論基礎的,還有憑經驗通靈的都有 XD

訓練大模型的經驗不是每個人都有機會接觸的,至少我周圍環境最多就根據任務 finetune。更別提把經驗用非常直白的方式講出來,未來訓練模型的話應該可以參考 XD

全文連結

0 意見: