Efficient Microaggregation Techniques for Statistical Disclosure Control

Microagragação Nielsen Castelo Damasceno 2013

Sumário Introdução SDC Microagregação Medida de perda de informação Algoritmo MDAV Aplicação da microagregação Referências

Introdução • Informações estatística é um bem fundamental nas sociedades modernas. • Serviços de estatísticas divulgam • Microdados • Dados tabulares • Macrodados • Necessidade da clarificação das informações e a confidencialidade dos dados.

SDC • Controle de divulgação estatística (CDE) ou em inglês StatisticalDisclosureControl(SDC). • Minimizar os risco de divulgação sem alterar de forma significativa os dados. • Oferecer o máximo de informações possível à sociedade e minimizar o risco da divulgação. • Métodos de mascaramento ou anonimização. • Métodos perturbativos • Métodos não perturbativos

Perturbativos Servem para modificar os valores das variáveis de identificação ou confidenciais. Variáveis confidenciais: salário, religião, filiação política, estado de saúde.

Não Perturbativos Não alteram os valores da variáveis. Domingo-Ferrer e Torra (2001) proporão uma redução de detalhe no conjunto de dados originais.

Microdados Informações individuais associado a uma pessoa, família ou empresa. As variáveis existentes em um arquivo de microdados individuais são: sexo, idade, ocupação, país de nascimento No caso de microdados de uma empresa: atividade econômica, número de empregados, etc.

Tipos de arquivos de microdados

Microagregação Para Domingo-Ferrer e Torra (2001), na microagregação os registros são agrupados em pequenos grupos, de pelo menos k. Para um dado registro em vez de publicar a variável original , publica-se a média dos valores de do grupo ao qual pertence. Método: Permitem a divulgação do conjunto de microdados se, nos registros correspondentes ao grupo de k ou mais indivíduos não houver nenhum indivíduo dominante. E se k é o valor limite. Os grupos devem ser o mas homogéneos possível.

Microagregação • Grupos: • Fixo • Variável • Mateo-Sanz e Domingo-Ferre (1999) optaram investigar métodos de microagregação de conjunto de dados homogéneos. • Hansen e Mukherjee (2003) optaram por grupos fixo. • Os grupos devem ser o mas homogéneos possível.

Microagregação Dado um conjunto de microdados com variáveis contínuas e registros (indivíduos), em que um registro particular pode ser visto como, , são variáveis. São formados grupos com indivíduos no i-ésimo grupo, e representa o j-ésimo registro do i-ésimo grupo. média do registro do i-ésimo grupo. média do conjunto de indivíduos.

Medida de perda de Informação Maior a homogeneidade do grupo, menor a perda da informação. Maior a homogeneidade do grupo, menor é a soma dos quadrados.

Microagregação • Domingo-Ferrer e Sebé (2006) disseram que microagregação pode ser modelado como um problema de clusters. • Objetivo: agrupar dados em grupo de dimensão igual a ke o mais homogêneo possível. • Dados parâmetros k: • Particionar os registros X em grupos de registros de pelo menos n registro cada. • Substituir cada registro pelo centroide do grupo para obter um conjunto de dados mascarado X’.

Microagregação • Conjunto de idade de 9 respondentes. • Microagregados com .

Microagregação • Medida de perda de Informação

Algoritmo MDAV • MDAV (MaximumDistancetoAverage Vector)

Microagregação • Exemplo proposto por Domingo-Ferrer et al (2006)

Referências • Domingo-Ferrer, J., Martínez-Ballesté J., Mateo-Sanz, Sebé F. (2006), ‘Efficient multivariate data-oriented microaggregation’, The VLDB Journal, Springer-Verlag. • Aggawal C. C., Yu S. P (2008), ‘Privacy-Preserving Data Mining: Models and Algorithms’, Spring, New York. • M. Solé, V. Muntés-Mulero, J. Nin, (2012), Efﬁcientmicroaggregationtechniquesforlargenumerical data volumes, Int. J. Inform. Secur. 11 (4) 253–267. • C. Panagiotakis, G. Tziritas, (2013), Successivegroupselection for microaggregation,IEEETrans. Knowl. Data Eng. 25 (5) 1191–1195.

Efficient Microaggregation Techniques for Statistical Disclosure Control

Efficient Microaggregation Techniques for Statistical Disclosure Control

Presentation Transcript