小踢先生的部落格: GPT 研究吐苦水

看到討論 GPT 的文章，想到自己快炸的研究。

最近被 GPT4 坑，比較放射科報告內文和醫囑做 anomaly detection，將報告分成正常、異常兩類。本以為是 low hanging fruit，只要調 prompt、call GPT4，就能有不錯成績還兼顧可解釋性，就能迅速生產研（ㄒㄩㄝˊ）究（ㄕㄨˋ）瑰（ㄌㄜˋ）寶（ㄙㄜˋ）整理投稿，達成工程職業績，可喜可樂～因為看好這個議題，個人還標了 3 * 10000 個 label 確保未來能夠投稿。

豈料 GPT4 表現極慘，正負平衡的樣本 F1 只能做到 0.7x，如果是正負比 100:1 的 real world data 成績就更慘不忍睹。幾個月的努力要打水漂，並且支票要跳票，只好絞盡腦汁想辦法改實驗，用 BERT 做 sentence contradiction、更古老的 TF/IDF + ML、非監督式方法、各種策略都試過。

結果，最後最好的方法竟然是 rule-based parser，用工人智慧建立大表格做 dictionary lookup，只要 lookup table 夠大塞好塞滿就什麼都能判斷。算法和 lookup table 一路修改下 F1 score 從 0.1X 拉到 >0.85，正負平衡樣本還能作到 F1 = 0.99 還抓到不少 mislabeled data。結論：傳統 rule-based parser > fine-tuned BERT > GPT4。

問題好像解了（至少研究上），但這種結論怎麼解釋又是頭痛的問題，希望能順利投出 orz

小踢先生的部落格

Pages - Menu

星期三, 11月 06, 2024

GPT 研究吐苦水

沒有留言:

張貼留言