Em resposta à solicitação da WIRED de Liberdade de Informação, o TfL diz que usou imagens de CCTV existentes, algoritmos de IA e “inúmeros modelos de detecção” para detectar padrões de comportamento. “Ao fornecer aos funcionários da estação insights e notificações sobre o movimento e o comportamento dos clientes, eles esperam poder responder a qualquer situação mais rapidamente”, diz a resposta. Também diz que o teste forneceu insights sobre a evasão de tarifas que “nos ajudarão em nossas abordagens e intervenções futuras”, e os dados coletados estão em conformidade com suas políticas de dados.
Em um comunicado enviado após a publicação deste artigo, Mandy McGregor, chefe de política e segurança comunitária do TfL, diz que os resultados do teste continuam sendo analisados e acrescenta que “não houve evidências de viés” nos dados coletados no teste. Durante o teste, McGregor diz que não havia sinais na estação que mencionassem os testes de ferramentas de vigilância de IA.
“Estamos atualmente considerando o design e o escopo de uma segunda fase do teste. Nenhuma outra decisão foi tomada sobre a expansão do uso dessa tecnologia, seja para mais estações ou adicionando capacidade”, diz McGregor. “Qualquer ampliação da tecnologia além de um piloto dependeria de uma consulta completa com as comunidades locais e outras partes interessadas relevantes, incluindo especialistas no campo.”
Sistemas de visão computacional, como os usados no teste, funcionam tentando detectar objetos e pessoas em imagens e vídeos. Durante o teste em Londres, algoritmos treinados para detectar certos comportamentos ou movimentos foram combinados com imagens das câmeras de CCTV de 20 anos da estação do Metrô – analisando imagens a cada décimo de segundo. Quando o sistema detectava um dos 11 comportamentos ou eventos identificados como problemáticos, emitia um alerta para os iPads ou o computador dos funcionários da estação. Os funcionários do TfL receberam 19.000 alertas para agir potencialmente e mais 25.000 mantidos para fins analíticos, dizem os documentos.
As categorias que o sistema tentou identificar foram: movimento de multidão, acesso não autorizado, proteção, assistência à mobilidade, crime e comportamento antissocial, pessoa na via, pessoas feridas ou doentes, perigos como lixo ou pisos molhados, itens não vigiados, clientes presos e evasão de tarifas. Cada uma tem várias subcategorias.
Daniel Leufer, analista de políticas sênior do grupo de direitos digitais Access Now, diz que sempre que vê algum sistema fazendo esse tipo de monitoramento, a primeira coisa que procura é se ele está tentando identificar agressão ou crime. “Câmeras farão isso identificando a linguagem corporal e o comportamento”, diz. “Que tipo de conjunto de dados você terá que treinar algo assim?”
O relatório do TfL sobre o teste diz que “queria incluir atos de agressão”, mas descobriu que não conseguia detectá-los com sucesso. Acrescenta que houve uma falta de dados de treinamento – outros motivos para não incluir atos de agressão foram censurados. Em vez disso, o sistema emitia um alerta quando alguém levantava os braços, descrito como um “comportamento comum associado a atos de agressão” nos documentos.
“Os dados de treinamento são sempre insuficientes porque essas coisas são arguivelmente muito complexas e sutis para serem capturadas adequadamente em conjuntos de dados com as nuances necessárias”, diz Leufer, observando que é positivo que o TfL tenha reconhecido que não tinha dados de treinamento suficientes. “Sou extremamente cético quanto à capacidade de os sistemas de aprendizado de máquina serem usados para detectar agressão de forma confiável, de uma forma que não esteja simplesmente replicando os preconceitos sociais existentes sobre que tipo de comportamento é aceitável em espaços públicos.” Houve um total de 66 alertas para comportamento agressivo, incluindo dados de teste, de acordo com os documentos recebidos pela WIRED.