440 likes | 588 Views
Apresentação. Defining a Quality Model for Digital Libraries Bárbara Lagoeiro Moreira. Motivação. O que seria uma boa biblioteca digital? Hipótese: Teoria formal pode ajudar a definir o que é uma boa biblioteca digital: Formalização de indicadores de qualidade dentro do modelo 5S.
E N D
Apresentação Defining a Quality Model for Digital Libraries Bárbara Lagoeiro Moreira
Motivação • O que seria uma boa biblioteca digital? • Hipótese: Teoria formal pode ajudar a definir o que é uma boa biblioteca digital: • Formalização de indicadores de qualidade dentro do modelo 5S. • Contextualização dos indicadores propostos dentro do ciclo de vida da informação
Contexto(1/2) • Para cada conceito principal de bibliotecas digitais, é formalmente definido um número de: • Dimensões de qualidade • ...e são propostos: • Um conjunto de indicadores numéricos para estas dimensões.
Acessibility • Pertinence • Preservability • Relevance • Similarity • Significance • Timeliness Objeto Digital • Accuracy • Completeness • Conformance Metadados Indicadores Numéricos • Completeness • Impact Factor Coleção • Completeness • Consistency Catálogo • Completeness • Consistency Repositório • Composability • Efficiency • Effectiviness • Extensibility • Reusability • Reliability Serviços Contexto(2/2)
Dimensões >> Objetos Digitais – Acessibility (1/3) • Um objeto digital é acessível por um ator da biblioteca, se: • Ele existe nas coleções da biblioteca; • É possível recuperá-lo pelo repositório • Ele não apresenta restrições de acesso: • Por metadados (rights) • Ou, se existe política restritiva, esta não restringe a comunidade a que pertence o ator, ou o ator em particular.
Dimensões >> Objetos Digitais – Acessibility (2/3) • A Accessibility de um objeto “dox” por um ator “acx”, é dado por: • 0, se dox não pertence a nenhuma coleção da biblioteca • Do contrário: • Acc = (z e streams de do r(acx)) / |streams(dox)| • r(acx): • 1, se z não tem restrições de acesso, ou se tem, não proíbe acx • 0, do contrário.
Dimensões >> Objetos Digitais – Acessibility (3/3) • Exemplo: Virginia Tech’s ETD: • Unrestricted: acessibilidade = 1, para todos • Restricted: acessibilidade = 1 para VTcm, e 0 para fora de • VTcm • Mixed: exemplo: 5 dos 6 capítulos(streams) do 3o documento misto são disponíveis só para VTcm. A acessibilidade para fora da VTcm é 1/6 = 0.167.
Dimensões >> Objetos Digitais – Pertinence(1/2) • Depende muito do ator: Relação entre a informação que um objeto digital carrega e a necessidade de informação de um ator. Definições: • Inf(doi) = informação de um objeto digital • IN(acj) = necessidade de informação de um ator • Contextjk = fatores que podem impactar sobre o julgamento de pertinência por acj no tempo k (ex: lugar, história de interação do ator, tarefa em questão...)
Dimensões >> Objetos Digitais – Pertinence(2/2) • Pertinence(doi, acj): Inf(doi) IN(acj) Contextjk • Definida como: • 1, se Inf(doi) é julgada como informativa, em relação a IN(acj) no contexto Contextjk; • 0, de outra forma • Muito subjetiva! Depende do usuário.
Dimensões >> Objetos Digitais – Preservability(1/3) • Reflete o estado do objeto, que pode variar em relação a mudanças de: • HW (novas tecnologias de gravação) • SW (nova versão de SW que cria o objeto) • formatos padrão (novos padrões para representar imagens) • e processos (migração).
Dimensões >> Objetos Digitais – Preservability(2/3) • Preservability de um objeto pode ser afetada por: • sua obsolescência: objeto obsoleto é difícil de migrar, pode ser definida como custo da migração do objeto. • pela fidelidade do processo de migração: reflete a distorção do processo de migração, pode ser definida como inverso da distorção do objeto, causada pelo processo • Preservability(doi,dl)= (fidelidade na migração(doi ,formatx,,formaty), obsolescência(doi,dl)).
Dimensões >> Objetos Digitais – Preservability(3/3) • Exemplo: • 1.000 imagens, em TIFF versão 5, • Migração para JPEG 2000. • Custo de migração: ferramenta de $500,00 + 20 horas de trabalho, a $66,6 a hora. • Compressão: distorção de 9 por imagem. • Preservability = (1/9, ($500 + 20*$66,6)/1.000) = (0,11, $1,83) (f,o)
Dimensões >> Objetos Digitais – Relevance (1/2) • Contexto: relevância de um objeto em relação a uma consulta, ou um perfil, dentro do contexto de um serviço (Busca, recomendação). • Relevância é uma relação entre a representação de um documento e a representação de uma necessidade de informação. != de Pertinência!!
Dimensões >> Objetos Digitais – Relevance (2/2) • Relevance(doi, q) é definida como: • 1, se doi é julgado como relevante para q, por um juiz externo • 0, do contrário • Relevância pode ser estimada, tendo como base propriedades dos streams do objeto digital. Ex: Medida do cosseno. • Define uma noção objetiva, diferente de Pertinência.
Dimensões >> Objetos Digitais - Significance • Pode ser vista como: • Relevância • Em termos absolutos, calculada pelo # de citações de um documento. • Exemplo: ACM – DL • Mais citado/significante • Computer Programming Art, CACM, 1974, 279 citações.
Dimensões >> Objetos Digitais - Similarity • Reflete o quão relacionados são 2 objetos. • Define-se a Similaridade em relação a: • Conteúdo (Bag-of-words) • Organização interna (Okapi, medida do cosseno) • Citações (cocit, bibcoup, Amsler) • Pode ser usada em serviços de classificação automática
Dimensões >> Objetos Digitais - Timeliness • Representa atualização do objeto: • (data atual ou última atualização da coleção) – (data da última citação), se o objeto foi citado • (data atual ou ultima atualização da coleção) – (data da criação ou publicação), se o objeto nunca foi citado
Dimensões >> Esp. de Metadados – Accuracy (1/2) • A Accuracy de uma especificação de metadados é dada pelo somatório do grau de accuracy de seus atributos. • O grau de Accuracy de um atributo “a” se refere á proximidade do valor “v” de “a” de um valor “v’” definido como correto para “a”. • Regras devem ser definidas: valor correto e proximidade deste valor.
Dimensões >> Esp. de Metadados – Accuracy (2/2) • Exemplo de regras: • Grau de accuracy para atributo título: é 1 se não conter informação sobre autores; do contrário é 0.5. • Grau de accuracy para atributo sumário: é 0 se contiver frases como “Title from *”, “Includes bibliographical references”; é 0 se for igual a “Thesis” ou “Dissertetion”; do contrário é 1.
Dimensões >>Esp.de Metadados-Completeness(1/2) • Grau com o qual os valores estão presentes de acordo com o padrão de metadados. Ou está presente, ou não. • Completeness(msx) = 1 - (# de atributos ausentes na msx/ total de atributos do schema ao qual a msx segue)
Dimensões >>Esp.de Metadados-Completeness(2/2) • Exemplo: Especificações de Metadados da NDLTD Union Archives, de acordo com o padrão de metadados DC (15 atributos)
Dimensões >>Esp.de Metadados–Conformance(1/3) • A Conformance de uma especificação de metadados é dada pelo somatório da conformidade de seus atributos • O valor de um atributo está em conformidade com o “schema”, se ele pertence ao domínio de valores definido para o atributo (string, date, number). • Conformidade do atributo é 1, se obedece os requisitos, e 0 do contrário.
Dimensões >>Esp.de Metadados–Conformance(2/3) • Cardinally Conformance: definição mais forte: • Valor do atributo deve obedecer domínio definido no esquema. • Cada atributo deve aparecer ao menos uma vez, se este está definido como obrigatório no esquema. • Um atributo não pode aparecer mais de uma vez, se este estiver definido sem a possibilidade de repetição.
Dimensões >>Esp.de Metadados–Conformance(3/3) • Exemplo: ETD Union Archive: • padrão de metadados EDT-MS: • (6 atributos obrigatórios, domínio de dc.type:{“Collection”,“Dataset”,“Event”, “Image”, “InteractiveResource”, “Software”, “Sound”, “Text”, “PhysicalObject”, “StillImage”, ”MovingImge”, “Eletronic Thesis or Dissertation”}).
Dimensões >> Coleção – Completeness (1/2) • Uma coleção completa contém todos os objetos digitais existentes que deveria conter. • Mais fácil de estimar para coleções baseadas em outras (harvesting). • Completeness(Cx)= |Cx| / |coleção ideal|
Dimensões >> Coleção – Completeness (2/2) • Exemplo: ACM Guide, considerado boa aproximação para coleção ideal de computação.
Dimensões >> Coleção – Impact Factor • Impact Factor CIF: # de citações ou links para objetos digitais da coleção em questão. • Imapct factor eCIF: elimina auto-citações. • Exemplo: • ACM-DL (referência) e DBLP (inclui ACM-DL).
Dimensões >> Catálogo – Completeness • A completeza de um catálogo(DMc) é definida por: • Completeness(DMc) = 1 – (# de objetos digitais sem esp. de metadados / tamanho da coleção) • Exemplo: • Apenas 103, dos 4.446 registros de um catálogo são extraídos: • 1-(4.446 -103)/4.446 = 0.023
Dimensões >> Catálogo – Consistency • A consistência de um catálogo é definida como: • 0,se houver pelo menos um conjunto de especificação de metadados atribuído a mais que um objeto digital. • 1, do contrário.
Dimensões >> Repositório – Completeness • Um repositório completo contém todas as coleções que deveria conter. • Completeness(Rx)= # de coleções em Rx| / # ideal de coleções • Exemplo: • ACM Guide, como repositório de referência, considerando 11 de suas coleções, temos que a completeza do repositório da CITIDEL(ACM, IEEE, NCTRL, NDLTD-CS), pode ser definida por: 4/11 = 0.36
Dimensões >> Repositório – Consistency • Se um repositório armazena coleções com seus catálogos de metadados correspondentes, então, a consistência do repositório pode ser definida como: • 1, se a consistência de todos os catálogos, em relação às suas coleções descritas for 1. • 0, do contrário.
Dimensões >> Serviços - Extensibility • Serviço A estende o serviço B, se A inclui o comportamento de B e potencialmente inclui sub-fluxos condicionais de eventos. Serv = conjunto de serviços; SM = conjunto de “gerentes” que executam os serviços: • Macro-Extensibility(Serv) = # de serviços que são “estendidos”/ # total de serviços • Micro-Extensibility(Serv) = # de linhas de código dos “gerentes” que executam serviços ”estendidos”/ total de linhas de código dos “gerentes”.
Dimensões >> Serviços – Reusability (1/2) • Serviço A reusa o serviço B, se o comportamento de A incorpora o comportamento de B. Serv = conjunto de serviços; SM = conjunto de “gerentes” que executam os serviços: • Macro-Reusability(Serv) = # de serviços que são “reusados”/ # total de serviços • Micro-Reusability(Serv) = # de linhas de código dos “gerentes” que executam serviços ”reusados”/ total de linhas de código dos “gerentes”.
Dimensões >> Serviços – Reusability (2/2) • Exemplo: Macro-Reusability= 2/8 = 0.25, Micro-Reusability = 2350/5300 = 0,44
Dimensões >> Serviços – Effectiviness • Quão bom foi o resultado? • Normalmente está relacionado a serviços de satisfação de informação. • Medidas mais comuns: Precisão, Revocaçãol, F1, 10-precision, R-Precision
Dimensões >> Serviços – Efficiency (1/2) • Diferença entre tempo de requisição e tempo de resposta: • t(e) é o tempo em que ocorre um evento e • eix e efx são os eventos inicial e final do service sex . • Para o serviço sex, efficiency é definida como: • Efficiency(sex) = t(efx) - t(eix)
Dimensões >> Serviços – Efficiency (2/2) • Exemplo: • Serviço de indexação: • 0.40 GB/hora • Serviço de Busca: • 1.2 segundos/consulta
Dimensões >> Serviços – Reliability (1/2) • Indica a probabilidade com a qual um serviço não falhará durante um dado período de tempo. • Reliability(sex) = 1 – (# de falhas/ # de acessos a sex )
Dimensões >> Serviços – Reliability (2/2) • Exemplo: Serviços da CITIDEL
Qualidade e o Ciclo de Vida da Informação • Informação nas bibliotecas digitais está contida nos objetos digitais e suas especificações de metadados. • Assim, as dimensões de qualidade propostas para esses 2 conceitos, podem ser conectadas ao ciclo de vida da informação nas bibliotecas digitais.
Qualidade e o Ciclo de Vida da Informação • Tais conexões podem ser utilizadas para determinar: • Quando e onde pode-se medir, avaliar e aprimorar as questões de qualidade • Como problemas de qualidade podem ser prevenidos, detectados e eliminados.
Avaliação • 3 biblitecários, com experiência prática com bibliotecas digitais. • Pontos levantados: • Foco definido sobre bibliotecas digitais, não bibliotecas traditionais • Alguns indicadores pode ter uso mais teórico que prático em alguns contextos • Gostaram da estratégia minimalista • Interessante e potencialmente útil para aprendizado e avaliação.
Referência • Arcabouço teórico sobre dimensões de qualidade para avaliar bibliotecas digitais • Streams, Structures, Spaces, Scenarios, and Societies: A Formal Framewrok for Digital Libraries and Its Applications: Defining a Quality Model fopr Digital Libraries (Capítulo 8)