星期日, 10月 17, 2021

土炮、搜尋引擎、血淚

 用自己做的搜尋引擎幫自己查資料真的很有感

一切從念研究所開始,唸研究所時希望「一魚多吃」,最好弄一套題目又可以畢業又可可以實際使用,那時公司需要搜尋引擎和 GIS,不過只有「GIS 和搜尋引擎」沒有研究所該有的水準,所以改成「GIS、搜尋引擎搭配大數據架構」,從架構規劃就加了複雜度,CodeIgniter/PHP 其實只是前端,收到 search term 後寫到 Apache Kafka,再 dispatch 到 Apache Spark ,做完平行處理再合併結果。

然後一連串慘劇就來了。所方因為各種原因無法幫忙,人力方面只剩 0.5 人還是個外行(我),project 因為加了各種「賣點」無論架構和程式碼都嚴重肥大、失控,遠超 0.5 外行人可以吃下的程度,但我已經在高層們面前開了支票做這件事情。

公司方爭取資料也遇到嚴重瓶頸,業務資料具備敏感性,走正規流程詢問過公司專業法律人士確認法律上可以做,層層取得同意。同意後還是在資訊單位排單約「一年」才得到拋轉程式,資訊單位真的很忙。

畢業後痛定思痛,程式大規模重構。這次純從實用、好寫出發,不考量「研究賣點」也不考慮其他 team member 維護(反正也沒有 team member),程式碼全砍,放棄了 CodeIgniter 用 Laravel 重寫,Kafka、Spark 也砍掉了。

程式重構和拿到資料後,Project 起死回生。重生的系統本質是套殼的 Elasticsearch,前端用快樂的 Jquery 搭 Bootstrap(攤手),後端 Laravel/PHP,搜尋核心業務邏輯用 Python。系統規模約三至四萬行,加上 JSON 和 CSV 則一百萬行(驚喜)。PHP 和 Python 的手寫 code 有作到 100% 測試涵蓋,linting、CI/CD 沒上,總之程式會動就好 orz

搜尋採用批次處理。Laravel/PHP 接到 search term 送到 message queue (DB 用資料表模擬)後馬上返回,後端 python 批次做完查詢後保存結果。使用者送出查詢後可關掉頁面隨時回來「讀檔」。資料拋轉則是用神奇的 Autohotkey!(因為公司提供的拋轉程式是 VB.Net Windows form 應用程式 :D)


今日新系統今天迎來第一個真正的搜尋業務,就是幫我週二的 morning meeting 找案例 XD。輸入複雜的 search criteria 後看系統載入、返回結果,覺得系統該死的難用的同時也有恍惚感和滄桑感。


前面的路還有很長,系統還只有分公司資料,當初答應的 GIS 也還沒重構完成,未來再慢慢補齊功能,並爭取匯入完整資料,期待有一天正式上線吧。

這應該是我做過規模最大、最坑的 side project 了(吐血)









全文連結

0 意見: