星期六, 9月 02, 2023

PyCon 2023 第一天

今天參加 PyCon,選擇的主題都與 data preparation 相關,紀錄一下 XD

Challenges in Data Cleaning and Transformation: Mistakes, Confusion, and Solutions

這堂課的收穫是理解了新的工具,如 dbt 和 PipeRider 。

我一直以來都是自己寫 Python 腳本硬上處理 data,而 dbt 粗看像是個強化板 SQL 工具,可以更有效率完成 ETL 的 T。

看了下官網和網路範例,相比於自己寫 python, dbt 似乎可以節省開發工作量,並且將軟體工程的思維引入到數據分析中。未來,當需要處理更多數據時,可能會考慮使用。而且 dbt 似乎在開源社區中也很受歡迎。

講者還提到了 PipeRider ,這個工具可以持續監測數據質量,並在不同資料處理階段引入指標(例如空行數、總筆數...)確保數據品質。ETL 管線版本變更的時候還可以前後比較。透過在 data processing 的不同  stage 加入額外監測,可提早發現資料品質問題,避免 ML 或 DL 在資料處理程式修改後忽然間性能下降,沒有人知道問題可能出在哪裡。

Explainable AI: Demystifying Complex Models with Shapley Values

這門課程也相當有趣,總結了許多可解釋 AI 的方法,包括針對特定模型(例如 linear regression)以及 model agnostic 的方法,很多內容是之前已經聽過但也有新的方法。不過不過講者的英文我實在跟不上,ppt 顏色很漂亮但是字太小,所以主要收穫應該是那些投影片上的關鍵字。

資深 Python 工程師提交的程式碼如何被審查

這堂課是今天覺得上課技巧最好的。PPT 的設計非常精緻,排版、配色和字體大小等細節都做得很好。內容量也適中,不會太多或太少,顯然是特別練過的。可惜的是,我剛好需要處理其他事情,無法全神貫注聽講。

中文長文本語意理解

這堂課的主要收穫是聽到了新的 model name,原來在 information extraction 等 task 中已經有了新的 SOTA。對我這個只會無腦硬上 BERT 的野蠻人來說,開了不少眼界。

有趣的是,講者的模型在 information extraction 的 F1 score 似乎不太高(0.8+)。我在猜是不是 sample size 不足的緣故,因為他們在投影片中推崇了 few-shot learning 所以很可能不會像我發 paper 一樣砸幾千筆資料訓練以求「力大磚飛」。我在 QA 中提問有關 sample size的問題,但很殘念講者沒有選擇回答我的問題。

全文連結

0 意見: