Em resposta ao pedido de informação da WIRED, o TfL diz que utilizou imagens existentes de CCTV, algoritmos de IA e “vários modelos de detecção” para identificar padrões de comportamento. “Ao fornecer informações e notificações sobre o movimento e comportamento dos clientes aos funcionários da estação, esperamos que eles consigam responder a situações de forma mais rápida”, diz a resposta. Também afirma que o teste proporcionou insights sobre a evasão de tarifas que “nos auxiliarão em abordagens e intervenções futuras”, e os dados coletados estão de acordo com suas políticas de dados.
Em um comunicado enviado após a publicação deste artigo, Mandy McGregor, chefe de política e segurança comunitária do TfL, diz que os resultados do teste estão sendo continuamente analisados e acrescenta que “não houve evidências de viés” nos dados coletados do teste. Durante o teste, McGregor diz que não havia sinais na estação que mencionavam os testes das ferramentas de vigilância de IA.
“Estamos atualmente considerando o design e escopo de uma segunda fase do teste. Nenhuma outra decisão foi tomada em relação à expansão do uso dessa tecnologia, seja para outras estações ou adição de capacidades”, diz McGregor. “Qualquer implementação mais ampla da tecnologia além de um piloto dependeria de uma consulta completa com as comunidades locais e outras partes interessadas relevantes, incluindo especialistas no campo.”
Sistemas de visão computacional, como os utilizados no teste, funcionam tentando detectar objetos e pessoa em imagens e vídeos. Durante o teste em Londres, algoritmos treinados para detectar certos comportamentos ou movimentos foram combinados com imagens das câmeras de CCTV de 20 anos da estação de metrô – analisando imagens a cada décimo de segundo. Quando o sistema detectava um dos 11 comportamentos ou eventos identificados como problemáticos, emitia um alerta para os iPads dos funcionários da estação ou para um computador. A equipe do TfL recebeu 19.000 alertas para potencialmente agir e mais 25.000 mantidos para fins analíticos, dizem os documentos.
As categorias que o sistema tentava identificar eram: movimento de multidão, acesso não autorizado, assistência à mobilidade, crime e comportamento antissocial, pessoa na via, pessoas feridas ou doentes, perigos como lixo ou pisos molhados, itens abandonados, clientes perdidos e evasão de tarifas. Cada uma tem múltiplas subcategorias.
Daniel Leufer, analista sênior de políticas do grupo de direitos digitais Access Now, diz que sempre que vê qualquer sistema fazendo esse tipo de monitoramento, a primeira coisa que procura é se está tentando detectar agressão ou crime. “As câmeras farão isso identificando a linguagem corporal e o comportamento”, diz ele. “Que tipo de conjunto de dados você terá para treinar algo assim?”
O relatório do TfL sobre o teste diz que “queria incluir atos de agressão”, mas descobriu que era “incapaz de detectá-los com sucesso”. Acrescenta que houve falta de dados de treinamento – outros motivos para não incluir atos de agressão foram ocultados. Em vez disso, o sistema emitia um alerta quando alguém levantava os braços, descrito como um “comportamento comum associado a atos de agressão” nos documentos.
“Os dados de treinamento são sempre insuficientes porque essas coisas são, sem dúvida, complexas e nuances demais para serem capturadas adequadamente em conjuntos de dados com as nuances necessárias”, diz Leufer, observando que é positivo que o TfL reconheceu que não tinha dados de treinamento suficientes. “Estou extremamente cético quanto à possibilidade de sistemas de aprendizado de máquina serem utilizados de forma confiável para detectar agressão de uma maneira que não esteja simplesmente replicando viés sociais existentes sobre que tipo de comportamento é aceitável em espaços públicos.” Houve um total de 66 alertas para comportamento agressivo, incluindo dados de teste, de acordo com os documentos recebidos pela WIRED.