Hintergrund/Motivation:
Backdoor Attacken sind Angriffe auf Neuronale Netze bei denen ein sogenannter Trigger das Entscheidungsverhalten der Netze verändert und dadurch Schwachstellen entstehen. Diese Trigger können in den Trainingsdatensatz eingeschleust werden oder direkt auf die Modellgewichte. Diese nennt man dann vergiftet. Durch Parametereffiziente Finetuning Methoden sind Backdoor Angriffe auf Large Language Modelle (LLMs) wesentlich schwieriger zu detektieren geworden, da ein vergiftetes Parameterupdate schwieriger zu erkennen ist als ein vergifteter Datensatz. Daher wurden in der vergangenen Zeit einige Verfahren entwickelt um vergiftete Modelupdates zu erkennen.
Ziel: Durch die Vielfalt der Backdoor Angriffe können Verfahren o...