最近 B 站刷到最有用的資源,作者廣泛閱讀大量論文、將重要模型架構拆解成模組,每個模組附上講解甚至改善的思路,再加上精簡的 PyTorch 源始碼,只賣 199 人民幣,正適合我小白入門,反正我是買了 :P 對岸研究生真的捲到爆炸 orz
星期三, 3月 26, 2025
星期一, 8月 05, 2024
Low Level Technicals of LLMs: Daniel Han
讓 LLM 巨幅加速的猛人,影片值得紀錄一下,再找時間看
全文連結星期三, 7月 31, 2024
星期三, 7月 03, 2024
Doccano docker-compose 檔
Doccano 是我標注 NLP 訓練資料經常用的軟體(咦你不是只有一篇嗎?)。官網教學詳細,但沒有 docker-compose.yml。其實照著官網教學,加上自己補細節就很容易生出來
version: '3'
services:
doccano:
image: doccano/doccano
container_name: doccano
ports:
- "8000:8000"
environment:
- ADMIN_USERNAME=xxx
- ADMIN_EMAIL=xxx
- ADMIN_PASSWORD=xxx
volumes:
- ${PWD}/data:/data
指定 container_name 是為了方便下指令,ADMIN_USERNAME、ADMIN_EMAIL、ADMIN_PASSWORD 作用明顯。指定 volumes 是讓 container 關掉後標注的資不會不見(!),不過我個人還是每一段進度就全部匯出存 git 安心點。
全文連結
星期六, 5月 11, 2024
星期五, 5月 10, 2024
Probabilistic Machine Learning -- Philipp Hennig, 2023
好課,把 ML/DL 會用到的機率知識整合起來,而且深度非常夠。
現在坊間「AI 背後的數學」課和書籍不少,但大多數太淺,例如微積分可能就講到 chain rule。對於看 paper 來說完全不夠用,課本和 cutting edge research 有巨大落差。直奔數學系的課,內容又太多不知從何學起,像本座高等微積分現在才換了老師剛看到收斂數列的性質,初微、線代課看完了現在習題都沒做 XDDD 課程還提供投影片讓人自習。非常慷慨。
原本是 B 站上看的,但 B 站沒搬運到最新的版本,且字幕不全,就去 Youtube 找最新完整版了。
星期一, 4月 22, 2024
兩門 Computer Vision 課程
CS 198-126: Modern Computer Vision Fall 2022 (UC Berkeley)
Computer Vision — Andreas Geiger
紀錄下最近囤到的 CV 課,松鼠黨的收藏又增加了 XD
之前 B 站的 CS231 課也不錯,但只有 Justin Johnson 講的我聽的懂,Serana Yeung 在講什麼根本電波對不到。並且課程到後來速度越來越快,只能把一堆研究稍微帶過去,學到的東西很少。換別的課看手氣會不會好點 XD
淺談 Prompt 自動最佳化工具
今天被介紹、推坑了 LLM prompt 最佳化的文章,文中帶出了很多 paper。粗看下來最優先需要了解的應該是 AutoPrompt,其對應 paper 如下:
Intent-based Prompt Calibration: Enhancing prompt optimization with synthetic boundary cases
其他 research 和 paper 乍看也不錯,但暫時沒有動力去看 Q<>Q
最近要做 LLM 和 GPT 有關的 study,這算是及時雨 XD
全文連結星期四, 4月 18, 2024
MedAI Session 20: Many Faces of Weak Supervision in Medical Representation Learning 觀後感
今天用用冗餘時間把 MedAI Session 20: Many Faces of Weak Supervision in Medical Representation Learning 看完一遍。感覺還是卡在同樣的地方,特別是如何用 noisy labeler 產生 probabilistic label 的部分,看來還是要繼續問 GPT 還有補數學。
看的過程中,發現要看的 paper 也更多了。
Data Programming: Creating Large Training Sets, Quickly
這篇也是講 Snorkel 的,但看來比之前看到那篇好懂一些。再努力看看
Doubly Weak Supervision of Deep Learning Models for Head CT
Cross-Modal Data Programming Enables Rapid Medical Machine Learning
這三篇應該算重要收穫了。醫院放報告和影像一大堆,如果可以用報告加影像直接 train model 那做 deep learning 就會變得容易很多(謎之音:我也不用爆肝)。特別是有論文提到用 BERT 去把原始報告轉換成 study-level 的 label,現在有 LLM 可以用 few-shot 感覺這部份會容易很多。
全文連結星期二, 4月 16, 2024
AI 手算與土炮資源
合集·手撕“Everything”系列,Transformer, Diffusion, LLM等
逛網路看到的好資源,分別是手算和土炮類神經網路。以後要扛 AI 研發任務的話還是要有基本功好,松鼠黨的收藏又增加了 XD
全文連結星期四, 4月 11, 2024
Stanford MedAI group
在找尋 Weakly supervised learning 的時候挖到的。我想看的是這個:MedAI Session 20: Many Faces of Weak Supervision in Medical Representation Learning | Jared Dunnmon
感覺根本就是 cutting-edge 寶藏海,挖 paper 題目就靠這些寶貝了 QQ
全文連結星期二, 4月 09, 2024
Mamba 架構介紹影片
今天偶然看到的,號稱 transformer 殺手的 Mamba 架構。從影片看來,Mamba 優化了 transformer 的複雜度,並且更加考量到現有 GPU 架構,實現更快的推理,並且在實際應用上很多地方可以平滑的替代 transformer (謎之音:那些用 transformer 做過的 paper 可以全部再做一遍)。後面李飛飛大老的團隊 U-Mamba 實做 CT segmentation 擊中了我 Q<>Q 我連 transformer 都還沒全部弄明白呢,
先做個紀錄,也許以後可以發想一些 idea
星期二, 3月 26, 2024
Theory & Systems for Weak Supervision by Christopher Re @MLSYS 2020
Snorkel Github
Practical Weak Supervision: Doing More With Less Data
這陣子為了 computer vision 還有 weakly supervised learning 的事情頭痛。要發 paper 需要 label 動輒破千的影像資料讓我快燒壞腦袋。
這應該是這陣子聽到最重要的 talk。重點在於 Snorkel 這個 project。相較於 supervised learning 要專家直接標資料,Snorkel 將問題從 data labeling 轉變成如何找出夠多的 weak labeling function,然後在目前我還沒搞懂的 labeling model 或投票機制作用之下,weakly supervised model 或 gold + silver label 的方法訓練出來的成果不會比專家爆肝差太多,但專家爆肝可能要一年才有辦法幾千份,labeling function 快的話只要幾天。
只是目前看到的 tutorial 都還在用 NLP 說明,還不知道怎麼做 weakly supervised object segmentation or detection。不過有 Oreilly 有出書整理,應該會比直接啃論文快些。
星期二, 3月 19, 2024
Weakly supervised semantic segmentation for CNN
我司最近忽然提起可以試著用醫學影像發 paper。但我完全是外行,從數學到模型到寫程式都需要自學,還沒有人標資料,差點把我嚇出心臟病。
CV 和之前玩 NLP 不同。NLP (至少我自己那篇)可以用 regex 或其他方法先弄出不那麼精確的 label 再人工校正,不需要真的從無到有通通自己標,但 CNN 至少我目前還不會這些方法。所以只好趕快去問網路。
目前找到一門課還有一份 slide 可以看。
ECCV 2020 WSL tutorial: 1. Introduction to the tutorial on Weakly Supervised Learning
Weakly Supervised CNN Segmentation: Models and Optimization
來源
不管會不會看,松鼠黨先屯了再說 XD
星期一, 3月 18, 2024
星期五, 1月 19, 2024
Aladdin Persson
紀錄一下一個 Deep Learning 大神的頻道。這是研究 Yolo V1 看到的。大神表演現場用 Pytorch 手打 YOLOV1 訓練、推理、程式碼。連 import library 都直接背。Linkin 看了一下果然是相關職業背景。職業強者果然不一樣 XD
全文連結星期三, 11月 29, 2023
斯坦福李飛飛 CS231n 計算機視覺課程
記錄一下最新上完的課,奔著 Stanford 大學的名字去的。不過有點失望,課程有點虎頭蛇尾。前面講深度學習基礎的部分還可以,講的深入淺出,但從 RNN 以後的課基本上就不行,都是帶一堆 paper,然後每個重要 work 抓幾個沒頭沒尾的公式出來講,都聽不大懂,抓不到 intuition。特別是其中還有一位講者,講得非常混,ppt 念稿大師,重要內容含糊帶過,觀眾在彈幕一致吐槽。
課程最後一集來賓演講就非常好,第一位華人講者 Song Han 大神分享很多深度學習優化乾貨,訓練、推論、軟體、硬體都具體而微帶過了,第二位來賓是 Goodfellow 大神,講 Adversarial Attack,不過後半部就講得比較深聽不懂。
感覺還是得乖乖念 paper QQ
星期五, 10月 13, 2023
Open Pretrained Transformers - Susan Zhang | Stanford MLSys #77
乾貨很多的好影片。內容主要是訓練大模型踩過的各種坑,模型大了什麼鬼問題都有,從顯示卡、CUDA、記憶體等設備直接出包,到到各種莫名其妙的 convergence failure,原因查得到和查不到的都有。遇到問題的各種解法,包括看paper有理論基礎的,還有憑經驗通靈的都有 XD
訓練大模型的經驗不是每個人都有機會接觸的,至少我周圍環境最多就根據任務 finetune。更別提把經驗用非常直白的方式講出來,未來訓練模型的話應該可以參考 XD
星期日, 8月 13, 2023
LLM prompt injection 實驗
上週四五工作到半夜十一二點,人就開始不舒服出現 URI症狀,現在人還是廢的,連運動的體力都沒有,還好遇到週末放假可以養病 =.=。養病中剛好法力無邊的大大給了我大寶貝(LLaMA,還是用台灣資料 tune 過的 online living demo!)。LLaMA 一直在我的關注清單裡,但個體戶如何單機單卡跑這玩意感覺有難度,就暫時沒下手。但有了 online living demo 不趁機搞事怎麼對得起自己,就可以做一些之前想跑的科學實驗。
星期六, 8月 05, 2023
TinyBERT和ONNX runtime使用心得
訓練時,雲端GPU租賃有RTX 3090、4090吃到飽。訓練樣本量(幾千份)很小,沒發現問題。做staging(no CUDA)和推到生產環境(Intel Core I3-9100,Intel 內顯)問題就來了。
在 staging 機器上,加了DistilBERT模型做 preprocessing 之後,文本索引速度暴跌到一小時幾千份。而目前要索引的報告量接近800萬份。生產環境基本不能用。
後來找網路攻略。發現三個解決思路:換輕量化模型、換Runtime、模型瘦身(做 INT8 quantization或pruning等,「據說」對CPU架構會友善點)。
輕量化模型找到了:華為的 TinyBERT。原始論文號稱推理速度比BERT快接近10倍。實際把DistilBERT換成TinyBERT後,索引速度在staging和生產環境就暴增到一小時2萬份,F1 score (0.94)和原本用DistilBERT差不多。但雖然性能有很大提升,一次完整索引迭代還是要超過2個禮拜。做到一半發現有問題需要重新索引又是另一個迭代。
後來繼續查,照著網路攻略把INT8 quantization弄了出來,但staging的時候跟我說沒GPU不能開quantization!功力不夠找不到問題就先放棄了。再試了換Runtime。Runtime換到ONNX以後。Jupyter notebook上推理的 wall time 直接變1/3(68000+ 測資 14min -> 5min)。於是再熱火朝天改code佈署。結果性能提升比三倍更多(原因不清楚,權當神秘學XD),索引速度爆增到每小時15萬份,一次索引迭代只要兩三天。已可接受了。
結論而言。如果未來服務要更進一步,還是要想辦法搞 GPU。用CPU跑BERT根本自虐,還好這次有找到解法,不然就得關feature然後說研究成果落地有困難QQ
全文連結