Efficient Microaggregation Techniques for Statistical Disclosure Control
200 likes | 283 Vues
Learn about microaggregation, SDC methods, data privacy, and loss of information measurements in statistics. Explore algorithms, applications, and references for effective data masking techniques.
Efficient Microaggregation Techniques for Statistical Disclosure Control
E N D
Presentation Transcript
Microagragação Nielsen Castelo Damasceno 2013
Sumário Introdução SDC Microagregação Medida de perda de informação Algoritmo MDAV Aplicação da microagregação Referências
Introdução • Informações estatística é um bem fundamental nas sociedades modernas. • Serviços de estatísticas divulgam • Microdados • Dados tabulares • Macrodados • Necessidade da clarificação das informações e a confidencialidade dos dados.
SDC • Controle de divulgação estatística (CDE) ou em inglês StatisticalDisclosureControl(SDC). • Minimizar os risco de divulgação sem alterar de forma significativa os dados. • Oferecer o máximo de informações possível à sociedade e minimizar o risco da divulgação. • Métodos de mascaramento ou anonimização. • Métodos perturbativos • Métodos não perturbativos
Perturbativos Servem para modificar os valores das variáveis de identificação ou confidenciais. Variáveis confidenciais: salário, religião, filiação política, estado de saúde.
Não Perturbativos Não alteram os valores da variáveis. Domingo-Ferrer e Torra (2001) proporão uma redução de detalhe no conjunto de dados originais.
Microdados Informações individuais associado a uma pessoa, família ou empresa. As variáveis existentes em um arquivo de microdados individuais são: sexo, idade, ocupação, país de nascimento No caso de microdados de uma empresa: atividade econômica, número de empregados, etc.
Microagregação Para Domingo-Ferrer e Torra (2001), na microagregação os registros são agrupados em pequenos grupos, de pelo menos k. Para um dado registro em vez de publicar a variável original , publica-se a média dos valores de do grupo ao qual pertence. Método: Permitem a divulgação do conjunto de microdados se, nos registros correspondentes ao grupo de k ou mais indivíduos não houver nenhum indivíduo dominante. E se k é o valor limite. Os grupos devem ser o mas homogéneos possível.
Microagregação • Grupos: • Fixo • Variável • Mateo-Sanz e Domingo-Ferre (1999) optaram investigar métodos de microagregação de conjunto de dados homogéneos. • Hansen e Mukherjee (2003) optaram por grupos fixo. • Os grupos devem ser o mas homogéneos possível.
Microagregação Dado um conjunto de microdados com variáveis contínuas e registros (indivíduos), em que um registro particular pode ser visto como, , são variáveis. São formados grupos com indivíduos no i-ésimo grupo, e representa o j-ésimo registro do i-ésimo grupo. média do registro do i-ésimo grupo. média do conjunto de indivíduos.
Medida de perda de Informação Maior a homogeneidade do grupo, menor a perda da informação. Maior a homogeneidade do grupo, menor é a soma dos quadrados.
Microagregação • Domingo-Ferrer e Sebé (2006) disseram que microagregação pode ser modelado como um problema de clusters. • Objetivo: agrupar dados em grupo de dimensão igual a ke o mais homogêneo possível. • Dados parâmetros k: • Particionar os registros X em grupos de registros de pelo menos n registro cada. • Substituir cada registro pelo centroide do grupo para obter um conjunto de dados mascarado X’.
Microagregação • Conjunto de idade de 9 respondentes. • Microagregados com .
Microagregação • Medida de perda de Informação
Algoritmo MDAV • MDAV (MaximumDistancetoAverage Vector)
Microagregação • Exemplo proposto por Domingo-Ferrer et al (2006)
Microagregação • Exemplo proposto por Domingo-Ferrer et al (2006)
Microagregação • Exemplo proposto por Domingo-Ferrer et al (2006)
Referências • Domingo-Ferrer, J., Martínez-Ballesté J., Mateo-Sanz, Sebé F. (2006), ‘Efficient multivariate data-oriented microaggregation’, The VLDB Journal, Springer-Verlag. • Aggawal C. C., Yu S. P (2008), ‘Privacy-Preserving Data Mining: Models and Algorithms’, Spring, New York. • M. Solé, V. Muntés-Mulero, J. Nin, (2012), Efficientmicroaggregationtechniquesforlargenumerical data volumes, Int. J. Inform. Secur. 11 (4) 253–267. • C. Panagiotakis, G. Tziritas, (2013), Successivegroupselection for microaggregation,IEEETrans. Knowl. Data Eng. 25 (5) 1191–1195.