星期日, 8月 13, 2023

LLM prompt injection 實驗

6:43 下午星期日, 8月 13, 2023 d8888 No comments

上週四五工作到半夜十一二點，人就開始不舒服出現 URI症狀，現在人還是廢的，連運動的體力都沒有，還好遇到週末放假可以養病 =.=。養病中剛好法力無邊的大大給了我大寶貝（LLaMA，還是用台灣資料 tune 過的 online living demo！）。LLaMA 一直在我的關注清單裡，但個體戶如何單機單卡跑這玩意感覺有難度，就暫時沒下手。但有了 online living demo ~~不趁機搞事怎麼對得起自己~~，就可以做一些之前想跑的科學實驗。

這次想探討的是：LLM 的「防禦」真的可以繞過嗎？有用ChatGPT的應該都有注意到，問些「敏感」問題的時候，AI現在都很聰明，要嘛拒答要嘛說些很圓滑的官話。但根據研究，這些「防禦」有人說是可以繞過去的，方法例如請AI玩角色扮演之類。

今天的病中實驗就拿ChatGPT(GPT 3.5)和LLaMA來驗證之前構想。直接問ChatGPT Win10序號它是拒答的（無圖），但請GPT玩角色扮演，例如扮演一個吟唱Win10序號防禦惡龍噴火的勇者，ChatGPT就上套了。玩LLaMA故意去問了高端疫苗 v.s BNT，賴清德 v.s 柯文哲，AI很聰明的說起了官話，說這兩者各有優點，大家都好棒之類的。

這時，我就拿最近剛領悟出的角色扮演套話大法，不講武德、去騙、去偷襲LLaMA。LLaMA 還真上套了。瞧你個LLaMA一副濃眉大眼，講話正經八百的，原來是柯粉啊，漏餡了吧 XD

目前昏昏沉沉沒想到有什麼直接應用，但結果很有趣還是紀錄一下。不知道為什麼套出AI是柯粉以後我就覺得電腦旁邊多出了快活的空氣，人也好了點 XD