Você está visualizando atualmente Red Teaming é uma parte crucial da segurança proativa do GenAI que ajuda a mapear e medir os riscos de IA

Red Teaming é uma parte crucial da segurança proativa do GenAI que ajuda a mapear e medir os riscos de IA

A inteligência artificial generativa (GenAI) emergiu como um agente significativo de transformação, possibilitando às equipes inovar mais rápido, automatizar fluxos de trabalho existentes e repensar a maneira como vamos ao trabalho. Atualmente, mais de 55% das empresas estão atualmente testando ou utilizando ativamente soluções de GenAI.

No entanto, apesar de todas as promessas, a GenAI também representa um fator de risco significativo. Em uma pesquisa da ISMG com profissionais de negócios e cibersegurança, os entrevistados identificaram uma série de preocupações em torno da implementação de GenAI, incluindo segurança de dados ou vazamento de dados sensíveis, privacidade, alucinações, uso indevido e fraude, e viés no modelo ou na saída.

Para organizações que buscam criar salvaguardas adicionais em torno do uso de GenAI, o red teaming é uma estratégia que podem adotar para descobrir proativamente os riscos em seus sistemas de GenAI. Aqui está como funciona.

O red teaming de GenAI é um processo complexo e com várias etapas que difere significativamente do red teaming de sistemas de IA clássicos ou software tradicional.

Em primeiro lugar, enquanto o red teaming de software tradicional ou IA clássica se concentra principalmente em identificar falhas de segurança, o red teaming de GenAI deve levar em conta os riscos de IA responsável. Esses riscos podem variar amplamente, desde gerar conteúdo com questões de imparcialidade até produzir informações não fundamentadas ou imprecisas. O red teaming de GenAI precisa explorar simultaneamente os possíveis riscos de segurança e as falhas de IA responsável.

Além disso, o red teaming de GenAI é mais probabilístico do que o red teaming tradicional. Executar o mesmo caminho de ataque várias vezes em sistemas de software tradicionais provavelmente resultará em resultados semelhantes. No entanto, devido às suas múltiplas camadas de não determinismo, a GenAI pode fornecer diferentes saídas para a mesma entrada. Isso pode acontecer devido à lógica específica do aplicativo ou ao próprio modelo de GenAI. Às vezes, o orquestrador que controla a saída do sistema pode até mesmo envolver extensibilidade ou plug-ins diferentes. Ao contrário dos sistemas de software tradicionais com APIs e parâmetros bem definidos, os red teams devem levar em conta a natureza probabilística dos sistemas de GenAI ao avaliar a tecnologia.

Finalmente, as arquiteturas de sistemas variam amplamente entre diferentes tipos de ferramentas de GenAI. Existem aplicativos autônomos, integrações com aplicativos existentes e modalidades de entrada e saída, como texto, áudio, imagens e vídeos, para as equipes considerarem.

Essas diferentes arquiteturas de sistemas tornam incrivelmente difícil a realização de sondagens manuais de red teaming. Por exemplo, para expor os riscos de geração de conteúdo violento em uma interface de bate-papo hospedada no navegador, as equipes vermelhas precisariam tentar diferentes estratégias várias vezes para reunir evidências suficientes de possíveis falhas. Fazer isso manualmente para todos os tipos de danos, em todas as modalidades e estratégias, pode ser extremamente tedioso e lento.

Embora o red teaming manual possa ser um processo demorado e trabalhoso, também é uma das maneiras mais eficazes de identificar possíveis pontos cegos. As equipes vermelhas também podem automatizar certos aspectos da sondagem, especialmente quando se trata de automatizar tarefas rotineiras e ajudar a identificar áreas potencialmente arriscadas que exigem mais atenção.

Na Microsoft, utilizamos um framework de automação aberto – conhecido como a Ferramenta de Identificação de Risco em Python para IA generativa (PyRIT) – para red team sistemas de GenAI. Não se destina a substituir o red teaming manual de GenAI, mas pode complementar a expertise existente dos red teamers, automatizar tarefas tediosas e criar novos ganhos de eficiência ao identificar pontos críticos para possíveis riscos. Isso permite que os profissionais de segurança controlem sua estratégia e execução de red-teaming de GenAI, enquanto o PyRIT fornece o código de automação para gerar prompts potencialmente prejudiciais com base no conjunto de dados inicial de prompts prejudiciais fornecidos pelo profissional de segurança. O PyRIT também pode alterar táticas com base na resposta do sistema de GenAI e gerar sua próxima entrada.

Independentemente do método que você utiliza, compartilhar recursos de red teaming de GenAI como o PyRIT em toda a indústria eleva a todos. O red teaming é uma parte crucial da segurança proativa de GenAI, permitindo que os red teamers mapeiem os riscos de IA, meçam os riscos identificados e desenvolvam mitigadores delimitados para minimizar seu impacto. Isso, por sua vez, capacita as organizações com a confiança e a segurança necessárias para inovar de forma responsável com os mais recentes avanços em IA.