Você está visualizando atualmente Red Teaming Is A Crucial Part Of Proactive GenAI Security That Helps Map And Measure AI Risks

Red Teaming Is A Crucial Part Of Proactive GenAI Security That Helps Map And Measure AI Risks

Inteligência artificial generativa (GenAI) surgiu como uma mudança significativa, permitindo que equipes inovem mais rapidamente, automatizem fluxos de trabalho existentes e repensem a maneira como vamos trabalhar. Hoje, mais de 55% das empresas estão atualmente testando ou utilizando ativamente soluções de GenAI.

No entanto, apesar de todas as suas promessas, a GenAI também representa um fator de risco significativo. Em uma pesquisa da ISMG com profissionais de negócios e cibersegurança, os respondentes identificaram uma série de preocupações em relação à implementação de GenAI, incluindo segurança de dados ou vazamento de dados sensíveis, privacidade, alucinações, mau uso e fraude, além de viés no modelo ou saída.

Para organizações que buscam criar salvaguardas adicionais em torno do uso da GenAI, o red teaming é uma estratégia que podem empregar para descobrir proativamente os riscos em seus sistemas de GenAI. Veja como funciona.

O red teaming de GenAI é um processo complexo e multietapas que difere significativamente do red teaming de sistemas de IA clássicos ou software tradicional.

Para começar, enquanto o red teaming tradicional de software ou IA clássica é focado principalmente em identificar falhas de segurança, o red teaming de GenAI deve considerar os riscos de IA responsável. Esses riscos podem variar amplamente, desde a geração de conteúdo com problemas de justiça até a produção de informações desfundamentadas ou imprecisas. O red teaming de GenAI precisa explorar simultaneamente possíveis riscos de segurança e falhas de IA responsável.

Além disso, o red teaming da GenAI é mais probabilístico do que o red teaming tradicional. Executar o mesmo caminho de ataque várias vezes em sistemas de software tradicionais provavelmente resultará em resultados semelhantes.

No entanto, devido às suas múltiplas camadas de não determinismo, a GenAI pode fornecer diferentes saídas para a mesma entrada. Isso pode ocorrer devido à lógica específica do aplicativo ou ao próprio modelo de GenAI. Às vezes, o orquestrador que controla a saída do sistema pode até mesmo envolver diferentes extensões ou plug-ins. Ao contrário dos sistemas de software tradicionais com APIs e parâmetros bem definidos, os times de red team devem levar em consideração a natureza probabilística dos sistemas de GenAI ao avaliar a tecnologia.

Finalmente, as arquiteturas de sistemas variam amplamente entre os diferentes tipos de ferramentas de GenAI. Existem aplicativos independentes, integrações com aplicativos existentes e modalidades de entrada e saída, como texto, áudio, imagens e vídeos, para equipes considerarem.

Essas diferentes arquiteturas de sistema tornam incrivelmente difícil conduzir sondagens manuais de red team. Por exemplo, para expor os riscos de geração de conteúdo violento em uma interface de chat hospedada em um navegador, os times de red team precisariam tentar diferentes estratégias várias vezes para reunir evidências suficientes de possíveis falhas. Fazer isso manualmente para todos os tipos de danos, em todas as modalidades e estratégias, pode ser extremamente tedioso e demorado.

Embora o red teaming manual possa ser um processo demorado e trabalhoso, é também uma das maneiras mais eficazes de identificar possíveis pontos cegos. Os red teams também podem dimensionar certos aspectos da sondagem por meio da automação, especialmente quando se trata de automatizar tarefas rotineiras e ajudar a identificar áreas potencialmente arriscadas que exigem mais atenção.

Na Microsoft, utilizamos um framework de automação aberto – conhecido como Python Risk Identification Tool for generative AI (PyRIT) – para red team de sistemas de GenAI. Ele não se destina a substituir o red teaming manual de GenAI, mas pode complementar a experiência de domínio existente dos red teamers, automatizar tarefas tediosas e criar novos ganhos de eficiência, identificando pontos críticos para riscos potenciais. Isso permite que os profissionais de segurança controlem sua estratégia e execução de red teaming de GenAI, enquanto o PyRIT fornece o código de automação para gerar prompts potencialmente prejudiciais com base no conjunto inicial de prompts prejudiciais fornecidos pelo profissional de segurança. PyRIT também pode mudar de tática com base na resposta do sistema de GenAI e gerar sua próxima entrada.

Independentemente do método utilizado, compartilhar recursos de red teaming de GenAI, como o PyRIT, em toda a indústria beneficia a todos. Red teaming é uma parte crucial da segurança proativa de GenAI, permitindo que os red teams mapeiem riscos de IA, meçam os riscos identificados e desenvolvam mitigadores escopados para minimizar seu impacto. Isso capacita as organizações com a confiança e a segurança necessárias para inovar de maneira responsável com os mais recentes avanços em IA.