1 / 44

Apresentação

Apresentação. Defining a Quality Model for Digital Libraries Bárbara Lagoeiro Moreira. Motivação. O que seria uma boa biblioteca digital? Hipótese: Teoria formal pode ajudar a definir o que é uma boa biblioteca digital: Formalização de indicadores de qualidade dentro do modelo 5S.

evan
Télécharger la présentation

Apresentação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apresentação Defining a Quality Model for Digital Libraries Bárbara Lagoeiro Moreira

  2. Motivação • O que seria uma boa biblioteca digital? • Hipótese: Teoria formal pode ajudar a definir o que é uma boa biblioteca digital: • Formalização de indicadores de qualidade dentro do modelo 5S. • Contextualização dos indicadores propostos dentro do ciclo de vida da informação

  3. Contexto(1/2) • Para cada conceito principal de bibliotecas digitais, é formalmente definido um número de: • Dimensões de qualidade • ...e são propostos: • Um conjunto de indicadores numéricos para estas dimensões.

  4. Acessibility • Pertinence • Preservability • Relevance • Similarity • Significance • Timeliness Objeto Digital • Accuracy • Completeness • Conformance Metadados Indicadores Numéricos • Completeness • Impact Factor Coleção • Completeness • Consistency Catálogo • Completeness • Consistency Repositório • Composability • Efficiency • Effectiviness • Extensibility • Reusability • Reliability Serviços Contexto(2/2)

  5. Dimensões >> Objetos Digitais – Acessibility (1/3) • Um objeto digital é acessível por um ator da biblioteca, se: • Ele existe nas coleções da biblioteca; • É possível recuperá-lo pelo repositório • Ele não apresenta restrições de acesso: • Por metadados (rights) • Ou, se existe política restritiva, esta não restringe a comunidade a que pertence o ator, ou o ator em particular.

  6. Dimensões >> Objetos Digitais – Acessibility (2/3) • A Accessibility de um objeto “dox” por um ator “acx”, é dado por: • 0, se dox não pertence a nenhuma coleção da biblioteca • Do contrário: • Acc = (z e streams de do r(acx)) / |streams(dox)| • r(acx): • 1, se z não tem restrições de acesso, ou se tem, não proíbe acx • 0, do contrário.

  7. Dimensões >> Objetos Digitais – Acessibility (3/3) • Exemplo: Virginia Tech’s ETD: • Unrestricted: acessibilidade = 1, para todos • Restricted: acessibilidade = 1 para VTcm, e 0 para fora de • VTcm • Mixed: exemplo: 5 dos 6 capítulos(streams) do 3o documento misto são disponíveis só para VTcm. A acessibilidade para fora da VTcm é 1/6 = 0.167.

  8. Dimensões >> Objetos Digitais – Pertinence(1/2) • Depende muito do ator: Relação entre a informação que um objeto digital carrega e a necessidade de informação de um ator. Definições: • Inf(doi) = informação de um objeto digital • IN(acj) = necessidade de informação de um ator • Contextjk = fatores que podem impactar sobre o julgamento de pertinência por acj no tempo k (ex: lugar, história de interação do ator, tarefa em questão...)

  9. Dimensões >> Objetos Digitais – Pertinence(2/2) • Pertinence(doi, acj): Inf(doi)  IN(acj)  Contextjk • Definida como: • 1, se Inf(doi) é julgada como informativa, em relação a IN(acj) no contexto Contextjk; • 0, de outra forma • Muito subjetiva! Depende do usuário.

  10. Dimensões >> Objetos Digitais – Preservability(1/3) • Reflete o estado do objeto, que pode variar em relação a mudanças de: • HW (novas tecnologias de gravação) • SW (nova versão de SW que cria o objeto) • formatos padrão (novos padrões para representar imagens) • e processos (migração).

  11. Dimensões >> Objetos Digitais – Preservability(2/3) • Preservability de um objeto pode ser afetada por: • sua obsolescência: objeto obsoleto é difícil de migrar, pode ser definida como custo da migração do objeto. • pela fidelidade do processo de migração: reflete a distorção do processo de migração, pode ser definida como inverso da distorção do objeto, causada pelo processo • Preservability(doi,dl)= (fidelidade na migração(doi ,formatx,,formaty), obsolescência(doi,dl)).

  12. Dimensões >> Objetos Digitais – Preservability(3/3) • Exemplo: • 1.000 imagens, em TIFF versão 5, • Migração para JPEG 2000. • Custo de migração: ferramenta de $500,00 + 20 horas de trabalho, a $66,6 a hora. • Compressão: distorção de 9 por imagem. • Preservability = (1/9, ($500 + 20*$66,6)/1.000) = (0,11, $1,83) (f,o)

  13. Dimensões >> Objetos Digitais – Relevance (1/2) • Contexto: relevância de um objeto em relação a uma consulta, ou um perfil, dentro do contexto de um serviço (Busca, recomendação). • Relevância é uma relação entre a representação de um documento e a representação de uma necessidade de informação. != de Pertinência!!

  14. Dimensões >> Objetos Digitais – Relevance (2/2) • Relevance(doi, q) é definida como: • 1, se doi é julgado como relevante para q, por um juiz externo • 0, do contrário • Relevância pode ser estimada, tendo como base propriedades dos streams do objeto digital. Ex: Medida do cosseno. • Define uma noção objetiva, diferente de Pertinência.

  15. Dimensões >> Objetos Digitais - Significance • Pode ser vista como: • Relevância • Em termos absolutos, calculada pelo # de citações de um documento. • Exemplo: ACM – DL • Mais citado/significante • Computer Programming Art, CACM, 1974, 279 citações.

  16. Dimensões >> Objetos Digitais - Similarity • Reflete o quão relacionados são 2 objetos. • Define-se a Similaridade em relação a: • Conteúdo (Bag-of-words) • Organização interna (Okapi, medida do cosseno) • Citações (cocit, bibcoup, Amsler) • Pode ser usada em serviços de classificação automática

  17. Dimensões >> Objetos Digitais - Timeliness • Representa atualização do objeto: • (data atual ou última atualização da coleção) – (data da última citação), se o objeto foi citado • (data atual ou ultima atualização da coleção) – (data da criação ou publicação), se o objeto nunca foi citado

  18. Dimensões >> Esp. de Metadados – Accuracy (1/2) • A Accuracy de uma especificação de metadados é dada pelo somatório do grau de accuracy de seus atributos. • O grau de Accuracy de um atributo “a” se refere á proximidade do valor “v” de “a” de um valor “v’” definido como correto para “a”. • Regras devem ser definidas: valor correto e proximidade deste valor.

  19. Dimensões >> Esp. de Metadados – Accuracy (2/2) • Exemplo de regras: • Grau de accuracy para atributo título: é 1 se não conter informação sobre autores; do contrário é 0.5. • Grau de accuracy para atributo sumário: é 0 se contiver frases como “Title from *”, “Includes bibliographical references”; é 0 se for igual a “Thesis” ou “Dissertetion”; do contrário é 1.

  20. Dimensões >>Esp.de Metadados-Completeness(1/2) • Grau com o qual os valores estão presentes de acordo com o padrão de metadados. Ou está presente, ou não. • Completeness(msx) = 1 - (# de atributos ausentes na msx/ total de atributos do schema ao qual a msx segue)

  21. Dimensões >>Esp.de Metadados-Completeness(2/2) • Exemplo: Especificações de Metadados da NDLTD Union Archives, de acordo com o padrão de metadados DC (15 atributos)

  22. Dimensões >>Esp.de Metadados–Conformance(1/3) • A Conformance de uma especificação de metadados é dada pelo somatório da conformidade de seus atributos • O valor de um atributo está em conformidade com o “schema”, se ele pertence ao domínio de valores definido para o atributo (string, date, number). • Conformidade do atributo é 1, se obedece os requisitos, e 0 do contrário.

  23. Dimensões >>Esp.de Metadados–Conformance(2/3) • Cardinally Conformance: definição mais forte: • Valor do atributo deve obedecer domínio definido no esquema. • Cada atributo deve aparecer ao menos uma vez, se este está definido como obrigatório no esquema. • Um atributo não pode aparecer mais de uma vez, se este estiver definido sem a possibilidade de repetição.

  24. Dimensões >>Esp.de Metadados–Conformance(3/3) • Exemplo: ETD Union Archive: • padrão de metadados EDT-MS: • (6 atributos obrigatórios, domínio de dc.type:{“Collection”,“Dataset”,“Event”, “Image”, “InteractiveResource”, “Software”, “Sound”, “Text”, “PhysicalObject”, “StillImage”, ”MovingImge”, “Eletronic Thesis or Dissertation”}).

  25. Dimensões >> Coleção – Completeness (1/2) • Uma coleção completa contém todos os objetos digitais existentes que deveria conter. • Mais fácil de estimar para coleções baseadas em outras (harvesting). • Completeness(Cx)= |Cx| / |coleção ideal|

  26. Dimensões >> Coleção – Completeness (2/2) • Exemplo: ACM Guide, considerado boa aproximação para coleção ideal de computação.

  27. Dimensões >> Coleção – Impact Factor • Impact Factor CIF: # de citações ou links para objetos digitais da coleção em questão. • Imapct factor eCIF: elimina auto-citações. • Exemplo: • ACM-DL (referência) e DBLP (inclui ACM-DL).

  28. Dimensões >> Catálogo – Completeness • A completeza de um catálogo(DMc) é definida por: • Completeness(DMc) = 1 – (# de objetos digitais sem esp. de metadados / tamanho da coleção) • Exemplo: • Apenas 103, dos 4.446 registros de um catálogo são extraídos: • 1-(4.446 -103)/4.446 = 0.023

  29. Dimensões >> Catálogo – Consistency • A consistência de um catálogo é definida como: • 0,se houver pelo menos um conjunto de especificação de metadados atribuído a mais que um objeto digital. • 1, do contrário.

  30. Dimensões >> Repositório – Completeness • Um repositório completo contém todas as coleções que deveria conter. • Completeness(Rx)= # de coleções em Rx| / # ideal de coleções • Exemplo: • ACM Guide, como repositório de referência, considerando 11 de suas coleções, temos que a completeza do repositório da CITIDEL(ACM, IEEE, NCTRL, NDLTD-CS), pode ser definida por: 4/11 = 0.36

  31. Dimensões >> Repositório – Consistency • Se um repositório armazena coleções com seus catálogos de metadados correspondentes, então, a consistência do repositório pode ser definida como: • 1, se a consistência de todos os catálogos, em relação às suas coleções descritas for 1. • 0, do contrário.

  32. Dimensões >> Serviços - Extensibility • Serviço A estende o serviço B, se A inclui o comportamento de B e potencialmente inclui sub-fluxos condicionais de eventos. Serv = conjunto de serviços; SM = conjunto de “gerentes” que executam os serviços: • Macro-Extensibility(Serv) = # de serviços que são “estendidos”/ # total de serviços • Micro-Extensibility(Serv) = # de linhas de código dos “gerentes” que executam serviços ”estendidos”/ total de linhas de código dos “gerentes”.

  33. Dimensões >> Serviços – Reusability (1/2) • Serviço A reusa o serviço B, se o comportamento de A incorpora o comportamento de B. Serv = conjunto de serviços; SM = conjunto de “gerentes” que executam os serviços: • Macro-Reusability(Serv) = # de serviços que são “reusados”/ # total de serviços • Micro-Reusability(Serv) = # de linhas de código dos “gerentes” que executam serviços ”reusados”/ total de linhas de código dos “gerentes”.

  34. Dimensões >> Serviços – Reusability (2/2) • Exemplo: Macro-Reusability= 2/8 = 0.25, Micro-Reusability = 2350/5300 = 0,44

  35. Dimensões >> Serviços – Effectiviness • Quão bom foi o resultado? • Normalmente está relacionado a serviços de satisfação de informação. • Medidas mais comuns: Precisão, Revocaçãol, F1, 10-precision, R-Precision

  36. Dimensões >> Serviços – Efficiency (1/2) • Diferença entre tempo de requisição e tempo de resposta: • t(e) é o tempo em que ocorre um evento e • eix e efx são os eventos inicial e final do service sex . • Para o serviço sex, efficiency é definida como: • Efficiency(sex) = t(efx) - t(eix)

  37. Dimensões >> Serviços – Efficiency (2/2) • Exemplo: • Serviço de indexação: • 0.40 GB/hora • Serviço de Busca: • 1.2 segundos/consulta

  38. Dimensões >> Serviços – Reliability (1/2) • Indica a probabilidade com a qual um serviço não falhará durante um dado período de tempo. • Reliability(sex) = 1 – (# de falhas/ # de acessos a sex )

  39. Dimensões >> Serviços – Reliability (2/2) • Exemplo: Serviços da CITIDEL

  40. Qualidade e o Ciclo de Vida da Informação • Informação nas bibliotecas digitais está contida nos objetos digitais e suas especificações de metadados. • Assim, as dimensões de qualidade propostas para esses 2 conceitos, podem ser conectadas ao ciclo de vida da informação nas bibliotecas digitais.

  41. Qualidade e o Ciclo de Vida da Informação • Tais conexões podem ser utilizadas para determinar: • Quando e onde pode-se medir, avaliar e aprimorar as questões de qualidade • Como problemas de qualidade podem ser prevenidos, detectados e eliminados.

  42. Qualidade e o Ciclo de Vida da Informação

  43. Avaliação • 3 biblitecários, com experiência prática com bibliotecas digitais. • Pontos levantados: • Foco definido sobre bibliotecas digitais, não bibliotecas traditionais • Alguns indicadores pode ter uso mais teórico que prático em alguns contextos • Gostaram da estratégia minimalista • Interessante e potencialmente útil para aprendizado e avaliação.

  44. Referência • Arcabouço teórico sobre dimensões de qualidade para avaliar bibliotecas digitais • Streams, Structures, Spaces, Scenarios, and Societies: A Formal Framewrok for Digital Libraries and Its Applications: Defining a Quality Model fopr Digital Libraries (Capítulo 8)

More Related