Uma vulnerabilidade crítica na plataforma Replicate AI poderia ter permitido que invasores executassem um modelo de IA malicioso dentro da plataforma para um ataque entre locatários – permitindo o acesso aos modelos de IA privados dos clientes e potencialmente expondo conhecimento proprietário ou dados sensíveis. Pesquisadores da Wiz descobriram a falha como parte de uma série de parcerias com fornecedores de IA como serviço para investigar a segurança de suas plataformas. A descoberta da falha demonstra a dificuldade de separação de locatários em soluções de IA como serviço, especialmente em ambientes que executam modelos de IA de fontes não confiáveis.
“A exploração dessa vulnerabilidade teria permitido acesso não autorizado às entradas e resultados de todos os clientes da plataforma Replicate,” e potencialmente alterar esses resultados, escreveram Shir Tamari e Sagi Tzadik da Wiz em um post de blog publicado hoje. Anteriormente, os pesquisadores da Wiz encontraram falhas que levaram a um resultado semelhante na plataforma de IA da HuggingFace.
“Como vimos nos resultados de nosso trabalho com Hugging Face e agora na Replicate, dois dos principais fornecedores de IA como serviço, ao executar modelos de IA em ambientes de nuvem, é crucial lembrar que os modelos de IA são realmente códigos,” disse Ami Luttwak, CTO e co-fundador da Wiz, para o Dark Reading. “Como todo código, a origem deve ser verificada e o conteúdo verificado em busca de payloads maliciosos.”
De fato, a falha representa uma ameaça imediata para fornecedores de IA como serviço, que muitas vezes permitem que seus clientes executem códigos não confiáveis na forma de modelos de IA em ambientes compartilhados – onde existem dados de outros clientes. Também pode afetar equipes de IA, que podem ser afetadas ao adotar modelos de IA de fontes não confiáveis e executá-los em seus workstations ou servidores da empresa, observaram os pesquisadores.
A Wiz Research divulgou de forma responsável a vulnerabilidade ao fornecedor de compartilhamento de modelos de IA Replicate em janeiro de 2023; a empresa prontamente mitigou a falha para que nenhum dado do cliente fosse comprometido. Neste momento, nenhuma ação adicional é necessária pelos clientes.
A falha reside na obtenção de execução remota de código na plataforma da Replicate criando um contêiner malicioso no formato Cog, que é um formato proprietário usado para containerizar modelos na Replicate. Depois de containerizar um modelo usando Cog, os usuários podem fazer upload da imagem resultante para a plataforma da Replicate e começar a interagir com ela.
Os pesquisadores da Wiz criaram um contêiner malicioso de Cog e o enviaram para a plataforma e, em seguida, com privilégios de root, o usaram para executar código na infraestrutura da Replicate.
“Suspeitamos que essa técnica de execução de código é um padrão, no qual empresas e organizações executam modelos de IA de fontes não confiáveis, mesmo que esses modelos sejam códigos que possam ser potencialmente maliciosos,” escreveram os pesquisadores. Uma técnica semelhante foi usada para explorar falhas encontradas na plataforma da HuggingFace.
Essa exploração permitiu que os pesquisadores investigassem o ambiente, se movessem lateralmente e, por fim, fora do nó em que estavam executando, que estava dentro de um cluster Kubernetes hospedado na Google Cloud Platform. Embora o processo tenha sido desafiador, eles eventualmente conseguiram realizar um ataque entre locatários que lhes permitiu consultar outros modelos e até modificar a saída desses modelos.
“A exploração dessa vulnerabilidade teria representado riscos significativos tanto para a plataforma da Replicate quanto para seus usuários,” escreveram os pesquisadores. “Um invasor poderia ter consultado os modelos de IA privados dos clientes, potencialmente expondo conhecimento proprietário ou dados sensíveis envolvidos no processo de treinamento do modelo. Além disso, a interceptação de prompts poderia ter exposto dados sensíveis, incluindo informações pessoalmente identificáveis (PII).”
De fato, essa capacidade de alterar prompts e respostas de um modelo de IA representa uma séria ameaça à funcionalidade de aplicações de IA, dando aos invasores uma maneira de manipular o comportamento da IA e comprometer os processos de tomada de decisão desses modelos.
“Tais ações ameaçam diretamente a precisão e confiabilidade das saídas impulsionadas por IA, minando a integridade das decisões automatizadas e potencialmente tendo consequências de longo alcance para os usuários dependentes dos modelos comprometidos,” escreveram os pesquisadores.
Atualmente, não há uma maneira fácil de validar a autenticidade de um modelo ou examiná-lo em busca de ameaças, então modelos de IA maliciosos representam uma nova superfície de ataque para os defensores que exigem outras formas de mitigação, diz Luttwak.
A melhor maneira de fazer isso é garantir que as cargas de produção usem apenas modelos de IA em formatos seguros, como os chamados safetensors. “Recomendamos que as equipes de segurança monitorem o uso de modelos inseguros e trabalhem com suas equipes de IA para fazer a transição para safetensors ou formatos semelhantes,” diz ele.
Usar apenas formatos de IA seguros pode reduzir drasticamente a superfície de ataque, “pois esses formatos são projetados para impedir que os invasores assumam a instância do modelo de IA,” diz Luttwak.
Além disso, os provedores de nuvem que executam os modelos de seus clientes em um ambiente compartilhado devem aplicar práticas de isolamento de locatários para garantir que um potencial invasor que consiga executar um modelo malicioso não possa acessar os dados de outros clientes ou o próprio serviço, acrescenta ele.