為了解決報告否定語句(No evidence of XXX..)對搜尋引擎造成的干擾,我自己訓練了幾個BERT variant 協助過濾解決問題,在 real data inference的成果(Precision、Recall、F1)非常漂亮。
沒算到的是,實際部署的時候,因為搜尋引擎主機沒有GPU只能用CPU,在staging就發現報告匯入速度因為導入DL變得非常慢,測試機一個鐘頭還不到1萬分,而報告目前已有快800萬份,搜尋引擎光載入一次資料就一個月,這是無法接受的。這還是使用DistilBERT的結果,其他BERT variant預計更慢。為了解決問題,開始查怎麼樣讓BERT跑快一點。目前決定先試試換更輕的BERT variant,目前先試TinyBERT。
結果去Vast.ai訓練模型時,就發現網站故障。一個instance跑了一個鐘頭還不能外連。去敲了客服,客服也說這是bug正在搶修。為了搶時間,所以去找有沒有vast.ai以外的便宜GPU租賃,就找到了RunPod。很幸運不用花很多錢去用GCP或AWS。
目前感想價錢還可以,我租到3070一小時0.18美金,不像vast.ai那麼漂亮,但尚可接受。從網頁介面看來,應該除了官方機器外,也有來自社區的機器才有辦法便宜。
RunPod也支援docker container。官方預設非常多的docker image,直接指定PyTorch就可以開箱即用。設定好ssh金鑰以後,就可以使用金鑰登入web terminal還有Jupyter。putty我始終連不到,好在web界面夠好用還支援複製貼上,我就使用web terminal加Jupyter,目前模型訓練已經完成了。
本座存了$10,應該會把它當成vast.ai不能用時的備胎。畢竟vast.ai價格還是漂亮點 XD
0 意見:
張貼留言