星期三, 11月 29, 2023

若渴活動分享

11/25在愛好者活動進行分享,值得紀錄一下。難得被邀請,主題講知識管理也有點關係,就把之前做的地址分析還有 NLP 研究拿出來。

分享的東西技術水平不深。地址分析的梗在於花幾年的時間大力出奇蹟的工人智慧 data cleaning,然後做到一半才發現工研院早就把能做的東西做出來了,算法細節摳得比我更完善。下個版本我應該會照抄吧 XD

NLP 的部分,主要是用 BERT 過濾否定語句(No evidence of...)讓搜尋引擎提高搜尋正確率。這在 NLP 好像是純應用,且不熱門的的主題。難怪 paper 寫好了沒人要 cite(轉圈圈)。也沒用很難的技術,就只是大樣本(一人標六千筆!)開路,其他就套模型調參。然後指出非深度的算法都有局限,對文本都有不實際的假設。例如醫院的報告,很可能連「報告的英文是個句子」的假設都不成立(metastasis(-) HBV(+)),導致通用的 NLP 庫各種掛點。

除了指出大樣本訓練 BERT 專治各種不服,有價值的部份應該就是優化吧。當初發現生產環境上沒有 dGPU 給我用真的傻眼。最後換 TinyBERT 搭 ONNX runtime 解決 CPU inference 問題。












全文連結

0 意見: