Em resposta ao pedido de Liberdade de Informação da WIRED, o TfL diz que utilizou imagens existentes de CCTV, algoritmos de IA e “numerosos modelos de detecção” para identificar padrões de comportamento. “Ao fornecer aos funcionários da estação insights e notificações sobre movimento e comportamento dos clientes, esperamos que possam responder a qualquer situação com maior rapidez”, diz a resposta. Também menciona que o teste proporcionou insights sobre a evasão de tarifas que irão “nos auxiliar em futuras abordagens e intervenções” e os dados coletados estão em conformidade com suas políticas de dados.
Em uma declaração enviada após a publicação deste artigo, Mandy McGregor, chefe de políticas e segurança comunitária do TfL, diz que os resultados do teste estão sendo continuamente analisados e acrescenta que “não houve evidência de viés” nos dados coletados no teste. Durante o teste, McGregor diz que não havia sinais na estação que mencionavam os testes das ferramentas de vigilância de IA.
“Estamos considerando atualmente o design e o escopo de uma segunda fase do teste. Nenhuma outra decisão foi tomada sobre a expansão do uso desta tecnologia, seja para mais estações ou para adicionar capacidades”, diz McGregor. “Qualquer implementação mais ampla da tecnologia além de um piloto dependeria de uma consulta completa com as comunidades locais e outros interessados relevantes, incluindo especialistas no campo.”
Sistemas de visão computacional, como os usados no teste, funcionam tentando detectar objetos e pessoas em imagens e vídeos. Durante o teste em Londres, algoritmos treinados para detectar comportamentos ou movimentos específicos foram combinados com imagens das câmeras de CCTV de 20 anos da estação de metrô, analisando imagens a cada décimo de segundo. Quando o sistema detectava um dos 11 comportamentos ou eventos identificados como problemáticos, ele emitia um alerta para os iPads dos funcionários da estação ou para um computador. Os funcionários do TfL receberam 19.000 alertas para potencialmente agir e mais 25.000 mantidos para fins analíticos, dizem os documentos.
As categorias que o sistema tentou identificar foram: movimento de multidão, acesso não autorizado, proteção, assistência à mobilidade, crimes e comportamento antissocial, pessoa nos trilhos, pessoas feridas ou doentes, perigos como lixo ou piso molhado, itens não acompanhados, clientes presos e evasão de uma tarifa. Cada uma tem várias subcategorias.
Daniel Leufer, analista de políticas sênior do grupo de direitos digitais Access Now, diz que sempre que vê um sistema fazendo esse tipo de monitoramento, a primeira coisa que ele procura saber é se está tentando identificar agressões ou crimes. “As câmeras farão isso identificando a linguagem corporal e comportamento”, diz ele. “Com que tipo de conjunto de dados você vai treinar algo assim?”
O relatório do TfL sobre o teste diz que “desejava incluir atos de agressão”, mas descobriu que “não foi capaz de detectá-los com sucesso”. Ele acrescenta que havia uma falta de dados de treinamento – outros motivos para não incluir atos de agressão foram omitidos. Em vez disso, o sistema emitia um alerta quando alguém levantava os braços, descrito como um “comportamento comum vinculado a atos de agressão” nos documentos.
“Os dados de treinamento são sempre insuficientes porque essas coisas são arguivelmente muito complexas e nuances para serem capturadas adequadamente em conjuntos de dados com as nuances necessárias”, diz Leufer, observando que é positivo que o TfL tenha reconhecido não ter dados suficientes de treinamento. “Estou extremamente cético quanto à capacidade de sistemas de aprendizado de máquina serem usados para detectar agressão de maneira confiável de forma que não esteja simplesmente replicando os preconceitos existentes na sociedade sobre que tipo de comportamento é aceitável em espaços públicos.” Houve um total de 66 alertas para comportamento agressivo, incluindo dados de teste, de acordo com os documentos recebidos pela WIRED.