最近為了寫 paper,又開始在找語音輸入程式。雖說換了機械鍵盤以後,相比原本的薄膜鍵盤,輸入大量文字體驗已經好了很多,但久了還是會手指痠痛。Paper 的壓力又讓尋找 Speech-to-text app 的念頭蠢蠢欲動起來。
之前一直都是用 Word 內建的語音輸入,相比網路上找得到的一堆免費app,Word的語音輸入辨識正確度其實已經相當不錯,但是一次輸入大段文章,還是會有很多需要修改的地方,用久了以後覺得相比於自己手動打,節省的體力很有限。我最看好的是 Open AI 的 Whisper,但卡在沒有一個好的 Desktop client,所以一直就將就用 Word。
現在才再度注意到這款 Whispering App。這程式支援用 OpenAI API key 去做遠端呼叫語音辨識(電腦用 A 卡 QQ),之前這個 App 太陽春,後來就沒太注意。現在已經完善的非常多,可以做自定義Hotkey啟動、結束錄音。錄音的時候不要 always on top。錄完的時候可以自動貼到我要用的程式,用起來方便非常多,所以之後應該會改用它來做語音輸入,這篇文章就是用這個方法錄的
星期三, 12月 25, 2024
連結
星期六, 4月 13, 2024
GPT-4 讀 paper 小感
GPT-4 真是讀 paper 神器。
以 Training Complex Models with Multi-Task Weak Supervision 這篇為例,中間小節開始引入集合操作符號就開始看不懂。靠自學 PR 值 < 0.1 的線性代數和數學符號認知,也完全看不懂抽象化後的 Material and Method。
交給 GPT-4 奇蹟出現。先用 LaTeX 把數學公式還原好,再整段丟進去,然後不管 GPT-4 回什麼,直接問 can you give me concrete example?,GPT 就直接解了抽象化,用非常簡單的例子就知道這段大概在講啥,過程中順便釐清我對大量符號的誤解,還有我對圖論基本名詞的認知錯誤。
看來 GPT-4 可以當成讀跨領域 paper 神器,效果遠勝我門外漢亂猜,前提是問題要問對。例如從 paper pdf 複製文字提問時,要用 LaTeX 把被破壞的格式還原 GPT 才知道你在講什麼
不曉得是不是 weakly supervised learning 這個主題 GPT 看過的文本夠多,才有這麼好的效果?可能要讀更多 paper 才能驗證。
全文連結
星期一, 3月 18, 2024
星期三, 2月 14, 2024
訂閱:
文章 (Atom)