看到討論 GPT 的文章,想到自己快炸的研究。
最近被 GPT4 坑,比較放射科報告內文和醫囑做 anomaly detection,將報告分成正常、異常兩類。本以為是 low hanging fruit,只要調 prompt、call GPT4,就能有不錯成績還兼顧可解釋性,就能迅速生產研(ㄒㄩㄝˊ)究(ㄕㄨˋ)瑰(ㄌㄜˋ)寶(ㄙㄜˋ)整理投稿,達成工程職業績,可喜可樂~因為看好這個議題,個人還標了 3 * 10000 個 label 確保未來能夠投稿。
豈料 GPT4 表現極慘,正負平衡的樣本 F1 只能做到 0.7x,如果是正負比 1000:1 的 real world data 成績就更慘不忍睹。幾個月的努力要打水漂,並且支票要跳票,只好絞盡腦汁想辦法改實驗,用 BERT 做 sentence contradiction、更古老的 TF/IDF + ML、非監督式方法、各種策略都試過。
結果,最後最好的方法竟然是 rule-based parser,用工人智慧建立大表格做 dictionary lookup,只要 lookup table 夠大塞好塞滿就什麼都能判斷。算法和 lookup table 一路修改下 F1 score 從 0.1X 拉到 >0.85,正負平衡樣本還能作到 F1 = 0.99 還抓到不少 mislabeled data。結論:傳統 rule-based parser > fine-tuned BERT > GPT4。
問題好像解了(至少研究上),但這種結論怎麼解釋又是頭痛的問題,希望能順利投出 orz
全文連結