Resolvi escrever esse breve artigo sobre privacidade de dados e machine learning instigado pela #QuarentenaDados da Alura que nos desafiou a…
“estudar o que a comunidade tecnológica está discutindo e conclusões que já chegaram sobre a utilização de informações para machine learning e data science.”
Segundo Daniella Hansson (SERPRO), a LGPD (Lei Geral de Proteção de Dados) tira a segurança da informação do patamar de “boas práticas” e a remete diretamente como uma obrigação legal. Então, a ética deve ser considerada e incluída em todas as etapas do ciclo de vida dos dados e também a todos profissionais envolvidos.
Ciente disso existem empresas investindo cada vez mais em departamentos de CDO (Chief Data Office) e muitas já avançadas em programas regulatórios.
A falta de ética na ciência de dados apresentam casos recentes e sujos como o Cambridge Analytica / Facebook que manipularam dados de usuários para influência digital na vida das pessoas com impactos na geopolitica mundial.
Para mais sobre o caso e como uma parcela da indústria da tecnologia está usando nossos dados contra nossos interesses e segurança, recomendo o documentário “Privacidade Hackeada” (Netflix) e o livro “Manipulados“.
Dados Sociais Sensíveis
“Trabalhando como desenvolvedor de sistemas na DATAPREV, empresa federal que salvaguarda dados sensíveis de muitos brasileiros, noto a segurança da informação e proteção aos dados/metadados manipulados como uma politica constante que necessita envolver todo o corpo funcional e ambientes computacionais (datacenters; bancos de dados; aplicações; códigos fontes; intranet e estações de trabalho).”
Politicas de privacidade que garantem inteligência competitiva ao criar e manter soluções tecnológicas confiaveis como as disponibilizadas em periodo de pandemia e isolamento social (Auxilio Emergencial) juntamente a Caixa Federal.
Dados previdenciários tem alto valor para empresas diversas que oferecem de emprestimos consignados até dados para crimes diversos (falsidade ideológica).
Por isso, toda a segurança tecnológica aplicada de ponta-a-ponta ainda assim está suscetível a engenharia social para fins ilícitos. Para tal, a LGPD vem estabelecer em lei boas práticas para a governça de dados em orgãos públicos e empresas privadas.
Privacidade em modelos de Machine Learning
Como todo novo campo tecnológico está sujeito a ataques e vazamentos até estabelecer protocolos e criptografias confiaveis, os sistemas de machine learning sofrem ataques de inferência e de inversão de modelo que podem expor informações.
Pois vários ataques que não acessam diretamente o modelo podem ser invadidos com APIs. Mesmo sem ter informações completas dos dados, indivíduos que tenham informações em amostras analisadas para inferências podem ser expostos.
Por exemplo na área da saúde, uma seleção da população com dados (sexo, idade, raça, local, orientação sexual) consumida por um sistema de recomendação médica por machine learning poderia expor algo tão sensível quanto o resultado do HIV de um indivíduo especifico baseado na sua localização, faixa etaria, etc.
Por isso, dados e modelos de treinamento confidenciais devem ser protegidos.
Como? Aplicando princípios de computação segura e métodos de criptografia.
Um trabalho conjunto entre equipes (segurança e machine learning) para incorporar protocolos, testes e revisões de sistemas como trabalho regular para implementação e implantação de modelos personalizados e APIs seguras.
DesorienTech #05 – O Futuro do Mercado de Dados
Conversei no DesorienTech com o cientista de dados Gerson Vasconcelos (Hotmart) sobre os desafios e as oportunidades no mercado de dados.
Portanto, acompanho com interesse o futuro do mercado de dados e como machine learning pode ser aplicada sob datasets públicos e privados garantindo a integridade, privacidade e igualdade social em algoritmos para tomadas de decisões.
Finalizando, cito novamente Daniella Hansson:
“O verdadeiro poder dos dados e análises é a capacidade de apresentar fatos, números e verdades de pessoas reais e, como qualquer fonte desta magnitude, pode se tornar corrompível.”
Fontes:
De DPO para DPO: como tratar dados de forma ética em data science | Serpro
Ataques de privacidade em modelos de Machine Learning | InfoQ
Guia de Boas Práticas – Lei Geral de Proteção de Dados (LGPD) – Gov.BR
Dataprev conta com novo processo de proteção de dados para seus data centers
Blockchain Dataprev: confiabilidade, garantia e segurança de dados | Dataprev
Auxílio Emergencial: Dataprev libera mais 3,54 milhões de solicitações
DesorienTech #05 – O Futuro do Mercado de Dados | Podcast
Braincast #337 – Lei Geral de Proteção de Dados | Podcast
Hipsters.Tech #174 – Lei Geral de Proteção de Dados | Podcast