星期六, 9月 02, 2023

PyCon 2023 第一天

10:44 下午星期六, 9月 02, 2023 d8888 No comments

今天參加 PyCon，選擇的主題都與 data preparation 相關，紀錄一下 XD

Challenges in Data Cleaning and Transformation: Mistakes, Confusion, and Solutions

這堂課的收穫是理解了新的工具，如 dbt 和 PipeRider 。

我一直以來都是自己寫 Python 腳本硬上處理 data，而 dbt 粗看像是個強化板 SQL 工具，可以更有效率完成 ETL 的 T。

看了下官網和網路範例，相比於自己寫 python， dbt 似乎可以節省開發工作量，並且將軟體工程的思維引入到數據分析中。未來，當需要處理更多數據時，可能會考慮使用。而且 dbt 似乎在開源社區中也很受歡迎。

講者還提到了 PipeRider ，這個工具可以持續監測數據質量，並在不同資料處理階段引入指標（例如空行數、總筆數...）確保數據品質。ETL 管線版本變更的時候還可以前後比較。透過在 data processing 的不同 stage 加入額外監測，可提早發現資料品質問題，避免 ML 或 DL 在資料處理程式修改後忽然間性能下降，沒有人知道問題可能出在哪裡。

Explainable AI: Demystifying Complex Models with Shapley Values

這門課程也相當有趣，總結了許多可解釋 AI 的方法，包括針對特定模型（例如 linear regression）以及 model agnostic 的方法，很多內容是之前已經聽過但也有新的方法。不過不過講者的英文我實在跟不上，ppt 顏色很漂亮但是字太小，所以主要收穫應該是那些投影片上的關鍵字。

資深 Python 工程師提交的程式碼如何被審查

這堂課是今天覺得上課技巧最好的。PPT 的設計非常精緻，排版、配色和字體大小等細節都做得很好。內容量也適中，不會太多或太少，顯然是特別練過的。可惜的是，我剛好需要處理其他事情，無法全神貫注聽講。

中文長文本語意理解

這堂課的主要收穫是聽到了新的 model name，原來在 information extraction 等 task 中已經有了新的 SOTA。對我這個只會無腦硬上 BERT 的野蠻人來說，開了不少眼界。

有趣的是，講者的模型在 information extraction 的 F1 score 似乎不太高（0.8+）。我在猜是不是 sample size 不足的緣故，因為他們在投影片中推崇了 few-shot learning 所以很可能不會像我發 paper 一樣砸幾千筆資料訓練以求「力大磚飛」。我在 QA 中提問有關 sample size的問題，但很殘念講者沒有選擇回答我的問題。

全文連結

0 意見:

張貼留言

小踢先生的部落格

Menu

星期六, 9月 02, 2023

PyCon 2023 第一天

Challenges in Data Cleaning and Transformation: Mistakes, Confusion, and Solutions

Explainable AI: Demystifying Complex Models with Shapley Values

資深 Python 工程師提交的程式碼如何被審查

中文長文本語意理解

0 意見:

造訪人次

音樂

搜尋此網誌

好站連結

留言板

文章回應

Categories

Blog Archive

Popular Posts