今天用用冗餘時間把 MedAI Session 20: Many Faces of Weak Supervision in Medical Representation Learning 看完一遍。感覺還是卡在同樣的地方,特別是如何用 noisy labeler 產生 probabilistic label 的部分,看來還是要繼續問 GPT 還有補數學。
看的過程中,發現要看的 paper 也更多了。
Data Programming: Creating Large Training Sets, Quickly
這篇也是講 Snorkel 的,但看來比之前看到那篇好懂一些。再努力看看
Doubly Weak Supervision of Deep Learning Models for Head CT
Cross-Modal Data Programming Enables Rapid Medical Machine Learning
這三篇應該算重要收穫了。醫院放報告和影像一大堆,如果可以用報告加影像直接 train model 那做 deep learning 就會變得容易很多(謎之音:我也不用爆肝)。特別是有論文提到用 BERT 去把原始報告轉換成 study-level 的 label,現在有 LLM 可以用 few-shot 感覺這部份會容易很多。
全文連結
0 意見:
張貼留言