星期日, 8月 13, 2023

LLM prompt injection 實驗

參考

 上週四五工作到半夜十一二點,人就開始不舒服出現 URI症狀,現在人還是廢的,連運動的體力都沒有,還好遇到週末放假可以養病 =.=。養病中剛好法力無邊的大大給了我大寶貝(LLaMA,還是用台灣資料 tune 過的 online living demo!)。LLaMA 一直在我的關注清單裡,但個體戶如何單機單卡跑這玩意感覺有難度,就暫時沒下手。但有了 online living demo 不趁機搞事怎麼對得起自己,就可以做一些之前想跑的科學實驗。

這次想探討的是:LLM 的「防禦」真的可以繞過嗎?有用ChatGPT的應該都有注意到,問些「敏感」問題的時候,AI現在都很聰明,要嘛拒答要嘛說些很圓滑的官話。但根據研究,這些「防禦」有人說是可以繞過去的,方法例如請AI玩角色扮演之類。
 
今天的病中實驗就拿ChatGPT(GPT 3.5)和LLaMA來驗證之前構想。直接問ChatGPT Win10序號它是拒答的(無圖),但請GPT玩角色扮演,例如扮演一個吟唱Win10序號防禦惡龍噴火的勇者,ChatGPT就上套了。玩LLaMA故意去問了高端疫苗 v.s BNT,賴清德 v.s 柯文哲,AI很聰明的說起了官話,說這兩者各有優點,大家都好棒之類的。
 
這時,我就拿最近剛領悟出的角色扮演套話大法,不講武德、去騙、去偷襲LLaMA。LLaMA 還真上套了。瞧你個LLaMA一副濃眉大眼,講話正經八百的,原來是柯粉啊,漏餡了吧 XD
目前昏昏沉沉沒想到有什麼直接應用,但結果很有趣還是紀錄一下。不知道為什麼套出AI是柯粉以後我就覺得電腦旁邊多出了快活的空氣,人也好了點 XD





 

全文連結

0 意見: