最近 B 站刷到最有用的資源,作者廣泛閱讀大量論文、將重要模型架構拆解成模組,每個模組附上講解甚至改善的思路,再加上精簡的 PyTorch 源始碼,只賣 199 人民幣,正適合我小白入門,反正我是買了 :P 對岸研究生真的捲到爆炸 orz
星期三, 3月 26, 2025
星期三, 3月 12, 2025
再戰 Stable diffusion
一直有小夢想,就是可以無限產出 Saber 老婆的圖,但畫工太廢,無法實現,就擱著了,直到後來注意到 Stable Diffusion。
最近寫 paper 不順利,把 SD 拿來折騰(被 desk reject 後更有動力:P)。一開始用家中 AMD 6650XT 出圖。SD 有 DirectML fork 支援 Windows + AMD GPU。但使用體驗非常不好。一開始是折騰 Python 環境,Python 太新特定套件會缺 wheel 要求 compile 但 compile 又不過,後來降版本搞定。但成功執行 AUTOMATIC1111 只是陷入更多坑。UI 報錯 tensor 算出 NaN,改參數。Inpaint 重繪全部都是 noise 但又沒報錯,原來是 AMD GPU 的鍋,要改參數繞過某些最佳化。通通弄好了,出圖很慢半分鐘以上一張,8G VRAM 經常 out of memory,網路很慢抓 model 抓 ControlNet 很不方便,AMD GPU 小眾問題常常查不到答案...放棄。
後來想到用 VPS + GPU 租賃,作法是 Linode 開 instance,裝好 SD 後先用 CPU 執行,叫出 UI 後手動裝想要的 extension 再 wget 所有想要的模型。然後 git commit 整個 container,再換到 GPU instance。 一開始用 vast.ai,但 vast.ai 的 log 不清楚,debug 失敗,轉到 runpod。runpod 折騰一番後,最後改出有 sshd + SD + 預載模型可以順利執行的 50 G image,順利在 runpod 上啟動 ssh + SD。一切弄好後,再回便宜的 vast.ai 也順利搞定。用 4090 出圖,一張十幾秒,還可以一次出多張圖,24G VRAM 大幅減少 OOM,用 NV GPU 少掉很多怪問題,出問題也容易找答案,一切絲滑流暢,vast.ai 上還只要 $0.3/hr,AMD GPU 那什麼東西 XD
稍微吐槽 runpod 官方文件,ssh 的部份寫的花里胡俏,結果實際上只是把 container 的 port forward 出去,sshd 的行為是 docker image 決定,跟官方文件中的說明沒半毛錢關係,純屬誤導。Vast.ai 同理,只要 docker 啟動能正確執行 sshd,vast.ai 唯一要注意的就是開 port,啟動成功後本地端 ssh tunnel 就能打開 SD UI。
太久沒弄 docker,很多東西變不熟,中間還鬧出在 alpine-based 的 image 執行 apt-get 的笑話。不過現在都弄好了,只要花點時間學 SD,無限 Saber 老婆不再遙不可及。
最後,數學真是美(?)原來美麗和 latent space、manifold hypothesis 有關係。看來偶是數學學不好才不會畫圖(?)
星期一, 3月 03, 2025
連假送出論文
燃燒連假奮鬥,終於把膨脹到 49 頁的打錯邊研究 manuscript 送出,想說造成期刊心理創傷的效果應該會比前一份 3x 頁的稿子更好。
結果是我太天真了,看了教學影片,照著操作期刊系統把稿件送出,結果最後出現 server dump 我的 submission 啪的一聲沒了,心態先被搞崩的是我不是期刊社,小丑竟是我自己,永遠不要小看其他人的道理果然是對的(?)
所幸通訊作者還在 LINE 上,看來通訊作者的單位頗為精實,聯絡之後發現他能正確看到稿件,就繼續跑完後續流程。最後才發現,造成 server dump 的可能是我沒有填寫「Optional」的 twitter 帳號欄位,給了 twitter 帳號再送出就沒有 dump 了,這年頭還有人用 server dump 跟別人要推特帳號的,真是奇特。
最後期刊網頁還問我要不要選 Open Access,只要 3400+ 鎂好便宜的。看了下創新度大概 epsilon/2 的應用類文章,再看期刊的其他文章,還是果斷了選擇 Open Access 保命,雖然期刊聲稱不影響 accept,但還是加減搏一下。
接下來就看看會不會 48hr 內收到 desk reject。
全文連結星期三, 2月 26, 2025
Stable Diffusion AMD inpaint 問題
這幾天初步可以用 SD 跑圖出來了,但是 inpaint 一直失敗,不管怎麼調選項,只會產生 noise 或是模型出現 NaN 然後推理失敗。Google 了很多答案,連 PyTorch 降版本都試過 N 次,中間遇過 DirectML 初始化失敗等離奇的 bug,最後是改選項解決:
--use-directml --lowvram --no-half --precision full --no-half-vae --opt-sub-quad-attention --opt-split-attention-v1
另外的問題就是 Adblock 會干擾到 inpaint 的 mask,記得關掉就沒事了。
全文連結星期四, 2月 20, 2025
Stable Diffusion 安裝成功
寫 paper 寫到自閉,昨天試著入坑 Stable Diffusion、無限自製 Saber 老婆實在太香了,目前進度只有到安裝,由於用的是 AMD 6650XT,所以沒辦法像 N 卡一樣一帆風順,我不想用 CPU 出圖,花了很久總算讓 GPU 出圖跑起來,折騰出第一張圖,很丑就沒存了。
我從 AUTOMATIC1111 的 Stable Diffusion UI 直接入手。參考這篇。其實安裝指令就一行:
git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stable-diffusion-webui-directml && git submodule init && git submodule update
但安裝好後,我的 AMD 6650XT 需要加 --use-directml --medvram 才能用。然而加了 --use-directml 以後就要另外安裝另一堆依賴,然後就在 scikit-image 上卡住無法安裝,後來發現問題出在我用 WinPython 的 Python 3.12 沒有對應的 wheel,只能本地編譯,但我裝了 VS studio 還是無法編譯成功,所以最後降版到 WinPython 3.10 再重新裝一次,就有現成的 wheel 東西就能動了。
現在試著裝動漫人物的 model 和 lora,結果 SD 又提示我要自動下載 open clip 10.2GB model 最快也要明天抓好,只能明天再測試了。
全文連結
星期一, 2月 17, 2025
換新手機 Google Pixel 9 Pro XL
查了下部落格,S20FE 也用超過三年了,螢幕早就有輕微(?)烙印,右上角只要切到黑畫面就能看到淡淡的 100% 數字,除此之外其他功能良好,手機卡頓不明顯,如果父母沒換新機,應該會繼續沿用下去 XD
換了新機,花了時間備份、轉移 App 和資料,直觀感受是滑起來超順,新的手勢操作不習慣,還是改回傳統三個按鈕,老人不想學習了。Pixel 照相超棒,不過用 Open camera 沒辦法用廣角,只好換回原廠相機 App,還好原廠相機支援關閉快門聲,不然就要傷腦筋。然後今天 PCHOME 訂來的 UAG 軍規防撞殼和鏡頭玻璃貼到貨,就把原本的殼換掉,相機玻璃貼貼上,手機成為完全體,應該又能用上幾年 XD 全文連結
星期一, 2月 03, 2025
Youtube 遊戲頻道:柴丸
最近把塵封已久的文明帝國六白金版拿出來玩,不愧精神時光屋之名,一局難度六超大地圖花了 20+ 小時,中間刷了 N 次地圖。對第六代完全不熟,信仰存了一陣子才發現這代大先知不是靠信仰。然後別人射火箭沒有明顯通知,開科技勝利條件才知道別人火星探險隊都已經走過半路了,好險自己主城 + 打下 AI 主城雙太空中心雙噴太空競賽建築,最後關頭驚險逆轉,勉強 400+ 回合拿下超慢的科技勝利。
打過這盤後就開始找影片學習。這代很多機制大改,例如獨立區域還要講究建築學,才能取得最大收益。連結的「柴丸」頻道就是無意間找到的,我看到建築學影片讓工業區爆發 +50 生產力收益大為讚賞,點進頻道看發現是文明學家,果斷收藏 XD
星期二, 1月 21, 2025
實變函數聽課心得
社會人士資工自學計畫又有了新進展,值得紀錄:終於完整「聽」完一次實變函數課。
聽課前就聽聞這門課高難,所以一開始就決定 easy 模式破關就好,B 站逛了一圈挑了一門評價高、純用中文、老師刻意講白話,好聽懂的課(我就廢 :P) 即使如此,實變也是我聽過最 hardcore 的數學課,沒有之一。第一次聽課能聽到物理性眩暈。
這門課的難度每個章節都指數提昇,一開始介紹集合論、De Morgan’s law、上下極限這些章節覺得抽象但好像還行?後來講基數、伯恩斯坦定理的證明就開始腦疼,但這些在接下來測度論、 Sigma 代數的面前又黯然失色,一路上到課程最後講勒貝格積分、葉戈羅夫定理、法圖引理這些重要理論時,大腦開始反覆熱當,一個影片重播兩次是家常便飯,到最後進入勒貝格積分微積分基本原理及其限制這些大後期課程我其實已經跟不上,只是抱著聽懂多少是多少的想法勉強把課聽完。
修這門課也是第一次發現,原來數學課還可以上到情緒跌宕起伏。有堂課老師檢討習題,題目是「一間大學的學生以及全國的大學生,何者的基數較多」老師用非常痛苦的語調指出她本意是送分,但竟然有 20% 的學生答「一樣多」,聽到這我就樂了,學這玩意學成智障的不只我一個 XD
另一個印象深刻瞬間,是老師介紹完勒貝格測度,開始講勒貝格積分的第一節,老師用非常颯爽的聲音說「前戲終於介紹完了,可以開始進入正題」,這一瞬間真的有想砸爛螢幕的衝動,看影片彈幕,有這想法的並不少人 XD
整門課聽完後,很悲情的發現,單學實變好像根本沒用,只是有了修其他課的資格而已。不過聽這門課也只是為了未來深入理解機率、統計做鋪墊,至少可以試著解讀那些用測度論語言包裝出來的高等機率論,不至於第一張投影片就開門秒殺。
但一切前提是先鞏固所學,影片指定程其襄老師的書太精簡看不懂,三步一個「顯然」五步一個「請讀者自證」讓人絕望。Folland 那種英文硬書更是連 introduction 都啃不下去 orz 好在根據網路評價,程的中文書並不是最簡單的,還有更簡單更適合新手周民強老師版 XD 決定找最簡單的中文書,過例題就好,至少課程不要白聽,至於實變習題 CP 太低果斷放棄。
之後不大想碰這麼純理論的數學課了 orz 老師還推薦集合論、拓樸學上起來很有趣,老師請猜猜我信不信?XD
全文連結星期五, 1月 17, 2025
狼途 GK 65 入手
今天順利入手狼途GK 65。新筆電天選 5 pro 現在用得很滿意,螢幕大顏色漂亮、有獨顯、重量可接受,就是輸入設備受限於筆電先天限制。難用的觸控板已經用外接滑鼠替代,但難按的薄膜鍵盤一直沒很好解決,機械鍵盤保證好按,但出遠門帶鍵盤太麻煩。
後來靈光一閃,想到帶小鍵盤,就決定 68 配列挑一把,這是有方向鍵(方便玩遊戲)中最小的配列了。這把狼途 GK 65 在淘寶買含運不到 NT$600,就想都不想入手了。1/10 下單,1/17 就收到貨囉,啪的一聲很快啊,本來還擔心趕不上月底出門玩。
拆開後,紙箱外觀非常一般,充滿廉價感,不過考量到非常低價就不要求,裡面除了鍵盤、填充物就只有一張說明卡和貼紙,實在精簡。鍵盤入手後馬上發現有怪聲,今天吃完尾牙花時間拆開發現底層有個冗餘螺絲,移除後怪聲消失,想想只賣 NT$600 還是不計較了。
我買的版本為金軸,查了下是段落軸,聲音偏大,大到會不好意思在醫院高速打字,打感非常清脆。整體大小則非常滿意,跟原本 98 配列狼蛛 F99 比又小非常多,大小應該可以塞進背包了。
下次出遠門找機會帶出去,如果能放背包,就能實現筆電用外接機械鍵盤打遊戲的夢想 XD
星期六, 1月 11, 2025
星期日, 1月 05, 2025
淼論文工具組合拳
我好像發現很有用的廢文產出工具組合:Word 聽打、ChatGPT 機翻、DeepL Write 選字,最後丟進 Grammarly 專業版改字改文法,順便做抄襲和 AI 檢測。
Word 聽打是新發現的速度起飛關鍵,只要會唸口語化中文,中間可以貼點別人的英文,像這個 sentence 中英 mix together 口語化 is fine,不用考慮太多,慈祥的ChatGPT 都看得懂,祂,都懂。記得prompt指定「學術用」英文,依必要做 paraphrasing。後面 DeepL Write + Grammarly 專業版大改,再段落重排,從口語論述順序改成論文和證明的論述順序,一坨原創文章就完成了,而且什麼抄襲或 AI 檢測都找不到問題,真被 highlight 就請 GPT 想十個 alternative 加上自己破英文修改,Thesaurus 是什麼?好吃嗎?
至於所謂「研究用GPT」工具根本沒必要。我只用 NextChat 搭配 API 呼叫。Prompt 最後都寫在 Autohotkey 裡,要用時跟超魔專長一樣全部瞬發,那些工具只要看一下它們的 prompt 就好,沒必要還得自己裝 Python,弄環境,處理一堆問題。Grammarly 貴可以找網拍找 Business 版團購。其他替代工具,例如 Quillbot,用起來效果很差,機翻不如 GPT+自製 prompt,選字改文法不如 Grammarly,用不到三天果斷退費。DeepL 免費版翻出來的內容則不像學術用英文。
用了這套組合拳,淼 paper 速度又比以前更快了,這陣子瘋狂趕稿,光今天就用這套方法噴 1.2k 個字。
當然,這個方法無法治療研究 idea 本身的貧乏以及研究者本身素質低下,例如某兼差 researcher 只會稍微改問題,用 unique data 在稍微不一樣的問題做大樣本 validation,方法原理數學一概不懂,做不了底層創新,除了工人智慧和舌燦蓮花更無別法。寫到 5.6k 字的稿子給指導者看,馬上就被定 reference 數量不夠、因此 literature review 以及 discussion 也不夠。
題外話,這次寫稿還趕上生病,請假回來後 atopic dermatitis 又發在臉上,還好現在有所改善。應該慶幸不是在放假時生病,至少「趕稿」和「生病」這兩件事可以排在一起只佔一份時間。比較擔心文章用的方法不夠 novel 問題不夠複雜,論文投不出去,希望修改和投稿順利 QQ