星期六, 10月 04, 2025

第一篇 GPT 研究終於被 Accept

 搞很久的文章,終於前天被 JMIR Formative Research 接受了!!!回顧 FB 才發現這文章寫超過一年 QQ

這次有別 2023 年的好運氣。當年需要文章,手上剛好有好題目,正好有資料,剛好大樣本 real-world internal validation 沒人做,剛好 finetuned models 可以直接跑出好結果,所以那篇很快就有結果。

這次一開始就踩坑。因為上次作法嚐到甜頭,這次一樣採用基於 real-world observation 但與現有研究稍微有別的 target task 建立新賽道,避免跟人直球對決(我就廢),針對台灣特有報告寫法做 anomaly detection。少量平衡模擬樣本用 GPT 跑起來效果好,決定做下去,先來標個 10000 份資料(每個資料三個 label),為了標資料還自己做 Tampermonkey script 來 patch 標注程式。

10000 筆資料標完後就發現掉進水溝裡了。我完全沒考慮到真實世界數據極度不平衡會讓模型爛掉,和新冠快篩在低盛行率會篩出一堆 false positive 一樣道理。GPT 在 balanced data 上表現不錯(後來實驗 GPT-4o F1 能達到 0.96),但在 100:1 這種比例下,大模型表現整個拉,GPT-4 mini 當初 F1 score 0.15。Paper 準備進入垃圾桶。回顧文獻也發現,前面用 deep learning 解題的大佬們,benchmark 都默契採用 balanced synthetic data,大家都身法靈動、不約而同閃過這坑,只有 paper 沒仔細念的萌新掉進水裡。

但資料都標了,不想打水漂,加上自己業務經驗,覺得問題有極明顯結構化特徵,不應該做不出來。開始用各種異想天開的方法,從 ML、transformer、LLM,從 supervised 到(自創)unsupervised 方法全部試一遍,最後拯救這篇的竟然是 rule-based,imbalanced data F1 能拉到 >0.850。不過 rule-based 怕不好投稿,又設法把 GPT 加入 pipeline。最後發現 GPT 還是能起到作用,改善 rule-based 的 screening performance 才做出實驗。

投稿一樣不順利,desk reject 連發還沒有理由,最後在 JMIR 才遇到編輯善意提一句:這個研究 too formative,並推薦旗下有 IF 的期刊,文章才能活下來。

但 review 還是繼續蹲廁所,期刊找兩人,其中一位眼光非常毒辣,答起來很難。他認為,我主張模型表現不好是因為 class imbalance,但我沒有充分論證這一點。我必須探討 models 表現不好可能原因有哪些,才能跳到 class imbalanced 的結論。

對完全自學、基礎很差(現在還沒去做 numpy 復現 transformer 呢)的我,這要求有億點難。我就不能把 model 下載回來跑一遍交差就好嗎.jpg

這段時間看了很多資料,複習了統計和入門一點點 casual inference,還好現在有 GPT ,想不出來的問題至少能給關鍵字和概念,知道去哪找資料。期間還發生實驗事故,pipeline 參數有問題,跑的模型一開始就錯所以 Results 要重寫。這次 revision 花五個月,稿子增量 60%,補一大堆實驗和分析。好在期刊編輯非常 nice,對於原始文稿那粗陋的動線,直接給了改善文章的建議(甚至包含該用哪些字當標題!現在回想原本寫法沒被 desk reject 真的是佛心),reviewer 也認可了新實驗,總算文章可以過。

這次研究一大收穫,是發現 GPT 的潛力還可以深挖,以前只把 GPT 當高級翻譯和英修,後來發現它其實也可以模擬毒舌審稿人。只要提供稿子或段落,再用提示詞讓 GPT 扮演嚴格 Q1 期刊審稿人或統計專家,GPT 就會摘掉平常那和和氣氣的面孔,對稿子進行狠狠的終極侮辱。GPT 不保證對,但仍能提供有價值的意見。例如我統計作為外行,一開始文章模型參數點估計,後面竟然沒放標準差,這點就被 GPT 抓出來 highlight。一些 GPT 提示的問題,自己判斷、唸書唸文章後修改,文章品質真的能改善非常多。現在還有 deep research,連研究背景,可研究性都能幫忙了。

我也發現 GPT+Endnote 連動小竅門:有 Endnote citation 的文字很難用 GPT paraphrase,因為會破壞 Endnote 格式。後來發現可以 convert to unformatted citation,請 GPT 不動 citation 的情況下 paraphrase,改出來的結果,只要稍微把 unformatted citation 內的空白改好,竟然可以直接貼回 Word 轉回原本 Endnote citation。發現這招後噴研究計畫噴文章的速度就更快了 :P

這篇小文章,要感謝的人好多,我司本科單位和 AI 單位長官們,被我凹來標了幾百份資料的好同事 QQ。總算這篇能夠劃下句點,剩下的就是搞定 copyediting 跟 publish QQ

 


 

全文連結

星期四, 9月 25, 2025

空之軌跡重製 1st 上市

Steam 商店

時間過真快,本以為是有生之年的空之軌跡 FC 重製版竟然是已推出狀態,在 Steam 上看到想都不想就直接怒刷豪華版。

遊戲設計兼顧新老玩家。過場畫面刻意採用 04 年舊版黏土人角色,音樂可選最新版、Evolution 版或原版。進了遊戲秒選原版,04 年大學時代的原版音樂搭配重製過的 3D 即時運算畫面,老遊戲的情懷和新遊戲的感動一起拉滿。
 
遊戲 3D 畫面相比於 04 年舊版當然是壓倒性進步。即使是與時間較近(已經冷凍)的閃之軌跡相比,3D 運算自然程度和細節感覺也提升不少。法社的技術還是有進步。有 3D 運算表情即時渲染加全語音配音,人物形象變得更加生動,例如跳 tone 者.艾斯蒂爾.話癆.布萊特有了全語音和即時 3D 表情後帶來的煩躁感更增加了,希望後期戰鬥 S Break 可以清靜一點 XD 新繪師的風格跟 04 舊版差很多,略為影響情懷感但瑕不掩瑜。
 
現在唯一小問題是沒有時間和體力玩,昨天進了主選單就關遊戲睡覺,今天玩了快樂的 17 min 就覺得累了該下線睡覺,怎麼覺得有淡淡的哀傷呢?接下來就剩下 FF7 Remake 最後一部了,給我愛麗絲沒有O的世界線吧 QQ
 
 







全文連結

星期一, 9月 22, 2025

StorkApp 自動匯總可讀期刊論文

連結

StorkApp 是我偶然發現的一款小應用。一直有個困擾,就是可讀的期刊和文章太多,需要自動化的方法來匯總可讀的期刊。這個App試用版支持十個關鍵字,我直接指定十份不同的期刊 XD。現在,每天都有最新的 High impact factor 文章自動匯入,方便我挑選有興趣的去精讀。

全文連結

星期日, 9月 21, 2025

AudioPen 線上聽打軟體

連結

一直沒有找到理想的聽打軟體。網上有許多免費聽打軟體,但它們僅支援簡單輸入。一遇到醫療或研究等專業場景,準確度就會大幅下降,根本無法使用。我也試過一些中國軟體,功能雖然強,但需要安裝很多來自中國的軟體,感覺有點害怕。隨著 OpenAI 的 Whisper 興起,網上也有一些免費 GUI 可以串 API 來使用,但這些工具發展尚未成熟,總是有這樣那樣的小問題。Word 聽打雖然好用,但遇到中英混雜的情況,辨識也常常失敗。通常需要中文用聽打,英文則手動輸入,使用起來不方便。此外,面對專業詞彙時準確度也不夠。

今天試用的這款 AudioPen 解決了大多問題。我特意試過中英文混雜的醫療病歷,發現它能辨識度很好,遠勝網路免費產品甚至是 Word。使用時,只需在瀏覽器上操作,不必安裝 Client。功能簡單但實用,聽打輸入後,可以同時提供大模型整理好的版本和原始聽打版本。此外,它有手機 App,可以錄音後在電腦上取回聽打結果。目前我想到的各場景辨識正確率都很高,雖然有些小錯誤,但已經很滿意。這篇文章就是用 AudioPen 聽打後修改的,所以濃濃 AI 味 XD

全文連結

星期五, 9月 19, 2025

星期日, 9月 07, 2025

寫論文 revision 碎碎念

終於把文章 revision 送出去惹。

Revision 當初申請延長三個月,截止日就是今天,卡在凌晨 12:00 公主(ㄕㄣˇ ㄍㄠˇ)變回灰姑娘(ㄊㄨㄟˋ ㄍㄠˇ)前極限微操把 tracked change 版文章、乾淨版文章、圖片、point-by-point review ...等像暗器一樣一股腦擲出。

今天整個人都在極限狀態,起床大量咖啡 + B 群暴力提神,去醫院打點報告寫文章,中午發現忘了吃飯,一口氣在醫院弄到下午三點多差點鴿了跟家人的約會,回來再一波對 point-by-point 的驗證 + 修改 *N 總算處理完,現在嗑藥壓榨體力提神的副作用已經出現,這篇碎碎念邊打人邊暈,學術之路看來任重而道遠,不知道那些著作幾十篇的大神怎麼生文章的 QQ
不過總算可以安心睡覺 orz
全文連結

星期二, 9月 02, 2025

影片:90%被拒稿的論文都是因為你的idea太“虛”

影片連結

 這影片說到心坎裡了,模型縫合怪和方法移植,然後附上花裡胡哨的性能對比正是我最愛幹的事情。甚至我連縫模型的能力都沒有 QQ

重點:做研究別想一步登天。永遠先問自己三個問題
1. 當前問題的根本在哪裡:領域經典論文有沒有讀懂、讀透?
2. 現有方法的痛點在哪裡?
3. 你的解方是什麼?解方是針對哪個痛點設計?和別人的方法比起來如何?

全文連結