我好像發現很有用的廢文產出工具組合:Word 聽打、ChatGPT 機翻、DeepL Write 選字,最後丟進 Grammarly 專業版改字改文法,順便做抄襲和 AI 檢測。
Word 聽打是新發現的速度起飛關鍵,只要會唸口語化中文,中間可以貼點別人的英文,像這個 sentence 中英 mix together 口語化 is fine,不用考慮太多,慈祥的ChatGPT 都看得懂,祂,都懂。記得prompt指定「學術用」英文,依必要做 paraphrasing。後面 DeepL Write + Grammarly 專業版大改,再段落重排,從口語論述順序改成論文和證明的論述順序,一坨原創文章就完成了,而且什麼抄襲或 AI 檢測都找不到問題,真被 highlight 就請 GPT 想十個 alternative 加上自己破英文修改,Thesaurus 是什麼?好吃嗎?
至於所謂「研究用GPT」工具根本沒必要。我只用 NextChat 搭配 API 呼叫。Prompt 最後都寫在 Autohotkey 裡,要用時跟超魔專長一樣全部瞬發,那些工具只要看一下它們的 prompt 就好,沒必要還得自己裝 Python,弄環境,處理一堆問題。Grammarly 貴可以找網拍找 Business 版團購。其他替代工具,例如 Quillbot,用起來效果很差,機翻不如 GPT+自製 prompt,選字改文法不如 Grammarly,用不到三天果斷退費。DeepL 免費版翻出來的內容則不像學術用英文。
用了這套組合拳,淼 paper 速度又比以前更快了,這陣子瘋狂趕稿,光今天就用這套方法噴 1.2k 個字。
當然,這個方法無法治療研究 idea 本身的貧乏以及研究者本身素質低下,例如某兼差 researcher 只會稍微改問題,用 unique data 在稍微不一樣的問題做大樣本 validation,方法原理數學一概不懂,做不了底層創新,除了工人智慧和舌燦蓮花更無別法。寫到 5.6k 字的稿子給指導者看,馬上就被定 reference 數量不夠、因此 literature review 以及 discussion 也不夠。
題外話,這次寫稿還趕上生病,請假回來後 atopic dermatitis 又發在臉上,還好現在有所改善。應該慶幸不是在放假時生病,至少「趕稿」和「生病」這兩件事可以排在一起只佔一份時間。比較擔心文章用的方法不夠 novel 問題不夠複雜,論文投不出去,希望修改和投稿順利 QQ
星期日, 1月 05, 2025
星期日, 12月 29, 2024
書本購入:SRE 工作現場直擊,Stable Diffusion
這兩本書是這次去臺北天瓏書局買的。Stable diffusion和 SRE 都是我相當陌生的領域。 研究 Stable Diffusion 是希望有一天能畫自己的 Saber 老婆,無限 Saber 製光想都覺得香。SRE 則是為以後維護自己醫院內的服務做準備。這本書看起來算是最白話的入門書了。
全文連結星期三, 12月 25, 2024
MSC 榮耀號日本跳島
這次休假,又和家人再一次搭上MSC榮耀號郵輪。
這次行程是日本跳島,只有去日本,地點為宮古島、那霸、石垣島。
第二次上郵輪,發現郵輪好像基本上沒什麼變化,佈景不能說大體相同,只能說一模一樣。餐廳部分,櫻桃餐廳還是非常高級,而且維持免費,但是份量非常少,主餐還變得不能無限加點。所以如果要吃飽,只能在櫻桃餐廳吃飽後,再去 15樓的Buffet吃量大管飽的便宜美式食物,像是披薩、麵條等
這次岸上旅行,宮古島部份因為島上交通不方便,我們又人生地不熟,所以我們選擇跟榮耀號的團,結果行程十分陰間。日本時間早上八點,相當於台灣早上七點就要起床,起床的時候就覺得整個人像是會動的殭屍,然後旅遊景點基本上有意義的只有一個天文台、一個漂亮的沙灘海岸,剩下就是在坐車、購物中心還塞了兩個,整體而言:差評。
那霸和石垣島就選擇了自助的形式,不過因為還是人生地不熟,而且兩者岸上交通都不方便,石垣島連電車都沒有,重要景點搭巴士都兩小時以上,就都只有玩郵輪附近鬧區而已。兩者基本上都是:下郵輪、坐接駁車或者是巴士、到鬧區然後吃東西、吃完附近街道看一下,然後就回去船上。不過石垣島有吃到道地石垣牛,入口即化,口齒留香,吃完喝個茶之後,嘴巴完全沒有任何殘留油膩味,超級好評。
船上娛樂設施種類也沒什麼變化,好像沒有明顯新增加設施,船上免費的倫敦劇院表演水準依然很高,但是一些曲目印象中好像上一次來的時候就聽過了,不曉得舞蹈部分有沒有換。之前覺得很有水準的娛樂總監好像換掉了,整個節目長度好像也有稍微縮短,不曉得是不是cost down。
下船當天,又再度要早起,然後在台北玩了一天,看了動漫,天瓏書局、然後回房間水點 paper,就回來收假上班。
Whispering
最近為了寫 paper,又開始在找語音輸入程式。雖說換了機械鍵盤以後,相比原本的薄膜鍵盤,輸入大量文字體驗已經好了很多,但久了還是會手指痠痛。Paper 的壓力又讓尋找 Speech-to-text app 的念頭蠢蠢欲動起來。
之前一直都是用 Word 內建的語音輸入,相比網路上找得到的一堆免費app,Word的語音輸入辨識正確度其實已經相當不錯,但是一次輸入大段文章,還是會有很多需要修改的地方,用久了以後覺得相比於自己手動打,節省的體力很有限。我最看好的是 Open AI 的 Whisper,但卡在沒有一個好的 Desktop client,所以一直就將就用 Word。
現在才再度注意到這款 Whispering App。這程式支援用 OpenAI API key 去做遠端呼叫語音辨識(電腦用 A 卡 QQ),之前這個 App 太陽春,後來就沒太注意。現在已經完善的非常多,可以做自定義Hotkey啟動、結束錄音。錄音的時候不要 always on top。錄完的時候可以自動貼到我要用的程式,用起來方便非常多,所以之後應該會改用它來做語音輸入,這篇文章就是用這個方法錄的
星期一, 12月 02, 2024
Azure Orphanage(微雷)
剛破過一輪的好玩小黃油,中文標題太澀了,放英文標題上來。需聲明跟 Microsoft Azure 無關(喂)
很久沒玩到的好玩精品戰棋遊戲,遊戲中角色有近戰遠程各種職業。劇情是典型的黑暗向接王道反轉。女主角不斷壞掉的過程中蒐集了大量能量,最後反轉用來許願換取奇蹟,走向 Good End。我第一輪還故意讓女主多澀澀,想說會通向某種 Bad End,結果反而走到 Good End 去了。
遊戲角色刻劃鮮明,包括女角以及(猥瑣、粗線條)男角、惡役一方,鮮明的角色導致她們趨向壞滅的時候更有感,救贖來臨的時候也更加感動。不過少數惡役強行洗白有點不喜歡。另外通向 True End 之前的最後一個選擇還可以故意鬼轉到某種墮落 End,遊戲還明白標示,也符合遊戲特點 XD
遊戲還有 IF 線,本線女主機緣巧合提前撞破惡役陰謀,惡役的大量後手因此無法發動,善良女主養父被誣陷、孤兒院分裂,女主賣O墮落換能量....等劇情都沒有發生,但結局沒有更好,因為女主也因此錯過了得到因果律道具的機會!IF 線最終結局是國家半毀,主角們各奔東西,女主情侶拆散,遠赴異世界求生,臨走前,女主養父把殘存的許願機會給了女主,女主許願身邊的人能到達 Good End,結果許完願後遊戲直接倒回到選擇正史和 IF 線的分界點,剛看到還以為是遊戲出了 bug 重打,結果是遊戲的刻意安排。只有熬過黑暗才能得到真正光明,一帆風順的道路其實通向 Bad End,這安排也是耐人尋味了。
星期日, 11月 17, 2024
Apache 保護目錄
Apache 用密碼保護目錄
放在網路上的目錄不希望被隨便存取,需要有密碼保護。這是目前最簡單的方法
1. 要保護的目錄建立 .htaccess
2. .htaccess 要加以下內容
AuthType Basic
AuthName "Restricted Area"
AuthUserFile /path/to/.htpasswd
Require valid-user
3. 執行以下指令建立使用者帳號密碼
sh -c "echo -n user_name: >> ./.htpasswd"
sh -c "openssl passwd -apr1 >> ./.htpasswd"
全文連結
星期三, 11月 13, 2024
新世紀福音戰士鍵帽
這組鍵帽眼饞很久,但想到淘寶買要等很久、過海關填 EZWay、到手後還要寄出給人雷雕注音,就嫌麻煩一直沒買。結果瞎皮看到有加注音的版本,就直接敗了。
F99 的鍵帽比前一把 Ducky 好拔很多,很多 1U 按鍵蓮花指輕輕一捏就下來,反而會擔心會不會下面的軸體也很容易扯下來 XD
新鍵帽設計上做過仔細考量,兼容性很好,原本還擔心 98 配列 1U0 沒對應按鍵,結果該有的都有,有的按鍵還有多個高度的版本,顯然是考慮各家鍵盤配置,廠商真是有心了。
花一小時裝好鍵帽後,把關閉許久的背光打開,調紫色背光,EVA 的味道就出來了,頗有成就感。
感覺清鍵盤、換鍵帽也有暫時遠離煩惱的效果,例如 research 卡關之類的,一切等鍵帽弄好後再繼續煩惱就好 XD
全文連結
星期三, 11月 06, 2024
GPT 研究吐苦水
看到討論 GPT 的文章,想到自己快炸的研究。
最近被 GPT4 坑,比較放射科報告內文和醫囑做 anomaly detection,將報告分成正常、異常兩類。本以為是 low hanging fruit,只要調 prompt、call GPT4,就能有不錯成績還兼顧可解釋性,就能迅速生產研(ㄒㄩㄝˊ)究(ㄕㄨˋ)瑰(ㄌㄜˋ)寶(ㄙㄜˋ)整理投稿,達成工程職業績,可喜可樂~因為看好這個議題,個人還標了 3 * 10000 個 label 確保未來能夠投稿。
豈料 GPT4 表現極慘,正負平衡的樣本 F1 只能做到 0.7x,如果是正負比 100:1 的 real world data 成績就更慘不忍睹。幾個月的努力要打水漂,並且支票要跳票,只好絞盡腦汁想辦法改實驗,用 BERT 做 sentence contradiction、更古老的 TF/IDF + ML、非監督式方法、各種策略都試過。
結果,最後最好的方法竟然是 rule-based parser,用工人智慧建立大表格做 dictionary lookup,只要 lookup table 夠大塞好塞滿就什麼都能判斷。算法和 lookup table 一路修改下 F1 score 從 0.1X 拉到 >0.85,正負平衡樣本還能作到 F1 = 0.99 還抓到不少 mislabeled data。結論:傳統 rule-based parser > fine-tuned BERT > GPT4。
問題好像解了(至少研究上),但這種結論怎麼解釋又是頭痛的問題,希望能順利投出 orz
全文連結