Agent Breaker: non mi rompere gli agenti

Gli agenti AI sono in grado di svolgere compiti complessi, ma quanto sono davvero robusti? In un mondo in cui questi strumenti diventano sempre più pervasivi, è fondamentale comprendere le potenziali vulnerabilità e come difendersi da esse. In questo talk esploreremo il prompt injection, una delle tecniche più diffuse per manipolare applicazioni basate su GenAI per scopi malevoli, come ad esempio: - Farsi fornire le informazioni di configurazione (es: il system prompt) - Ottenere informazioni "protette" o segrete - Aggirare i filtri di allineamento - Attaccare sistemi collegati Dopo una breve introduzione su attacchi e rimedi e vedremo qualche esempio concreto, sia da casi realmente avvenuti, sia provando live alcuni attacchi sulla piattaforma di Lakera, pensata per fare da playground a chi vuole approcciare questa disciplina.