540 likes | 681 Views
Informação Biomédica e Clínica. Bibliotecas Digitais Aula 3. Bibliografia. Information Retrieval, W.Hersh. Definição na Wikipedia. Informação é o resultado do processamento, manipulação e organização de dados de tal forma que represente um acréscimo ao conhecimento da pessoa que a recebe.
E N D
Informação Biomédica e Clínica Bibliotecas Digitais Aula 3
Bibliografia • Information Retrieval, W.Hersh
Definição na Wikipedia • Informação é o resultado do processamento, manipulação e organização de dados de tal forma que represente um acréscimo ao conhecimento da pessoa que a recebe. • Informação enquanto conceito, carrega uma diversidade de significados, do uso quotidiano ao técnico. Genericamente, o conceito de informação está intimamente ligado às noções de restrição, comunicação, controle, dados, forma, instrução, conhecimento, significado, estímulo, padrão, percepção e representação de conhecimento.
Conceitos Básicos • Qual a diferença entre : • Dados • Informação • Conhecimento
Dados Colecção de caracteres, números, factos, observações …. Muitas vezes usa-se o prefixo em bruto (“raw”) • Não têm significado por si • Precisam de interpretação • 1 milhão de euros = dados
Informação • Uma colecção de factos (dados) a partir dos quais se podem obter conclusões • Dados interpretados e com um certo significado • Informação = Dados + Significado • A sua conta bancária aumentou 1 milhão de Euros = informação
Conhecimento • Informação aplicada ou processada • Maior que a soma das partes • O conhecimento pode criar novo conhecimento através de inferência • A minha conta não pode ter 1 milhão de Euros a menos que o meu nome tenha mudado para Cristiano Ronaldo
Importância da Informação • Apesar da sua definição a importância da informação não pode ser sobre ou sub-estimada • Informação é poder • Muitas fortunas feitas na indústria da informação (Bill Gates,…) • Informação não é importante apenas para os gestores mas também para os profissionais • Muitos profissionais de saúde (incluindo médicos) gastam 1/3 do seu tempo a manipular ou usar a informação (1973) • O custo da comunicação pessoal e profissional consome 35% dos recursos de um hospital (1970) • Embora sejam estudos com várias décadas • Os custos paragerir informação na saúde são superiores actualmente
Teoria da Informação • Uma forma de compreender um conceito como a informação é desenvolver teorias sobre ela • Claude Shannon(1949) • Engenheiro mais preocupado com a transmissão de sinais através de canais • Codificação e descodificar a informação para minimizar o ruído do canal • Warner Weaver(1949) • Focado no significado da informação e como esse significado pode ser comunicado
Modelo de comunicaçãoShannon and Weaver Destino da Informação Fonte de Informação Canal Receptor Transmissor Fonte de Ruído
Teoria de Codificação de Fontes • 2 conceitos fundamentais • Entropia • Medida da informação contida na fonte • Define a quantidade mínima do débito médio de bits para reconstrução perfeita dos símbolos da fonte • Taxa de distorção • Define um limite inferior no débito médio de bits para uma dada distorção nos símbolos reconstruídos.
Exemplo • Considere a string X=¨aaabbbbbbccaaabbcbbbb¨ • Determine o alfabeto • Determine o histograma e a função densidade de probabilidade dos caracteres. • Mostre que a soma das probabilidades dos símbolos do alfabeto é 1.
Exemplo: Transferência duma letra • Cada letra do alfabeto tem uma probabilidade de ocorrência 1/23 • Qual é a quantidade de informação • Mandar uma moeda ao ar • Qual é a quantidade de informação? • Em que caso há mais informação?
Medida da Informação de Shannon • Valiosa para inúmeros problemas de engenharia • Transmissão de mensagens através de médias electrónicos • Tem alguma importância para transmissão de informação médica? • Heckerling (90) usou este modelo para demonstrar baseado nas probabilidades à priori da doença, que a informação nos testes do diagnóstico são frequentemente insuficientes para ultrapassar a incerteza do diagnóstico
Modelo de Weaver • Mais preocupado com a transmissão do significado • 3 niveis: Eficácia: em que medida a informação tem o efeito desejado no destinatário Semântico: em que medida o destinatário compreende o significado dos dados que a fonte está a transmitir Técnico : aspectos de engenharia e como codificar e transmitir eficientemente com o mínimo de ruído
Modelo de Weaver • Um sistema de comunicação bem concebido do ponto de vista da engenharia • Pode ter uma boa representação semântica • Mas pode não fornecer o comportamento desejado do lado do destinatário • Não é eficaz
Outros Modelos de Informação • Hillel and Carnap (1953) • Acrescentaram uma camada semântica ao modelo de Shannon & Weaver • A informação não consiste apenas não consiste em bits isolados • Contém objectos que se relacionam • Os objectos e relações podem ser codificados em formas lógicas • Informação pode ser definida num conjunto de declarações • Que podem ser excluídas da mensagem
Outros Modelos de Informação • Belis and Guiasi (1968) • Trabalharam no nível de eficácia de Weaver • Adicionaram valores de utilidade a mensagens tanto para o originador como para o receptor • Uma mensagem recebida via rádio dum paramédico sobre um paciente teve uma paragem cardíaca recebida num Serviço de Urgência tem mais utilidade para o emissor e receptor do que outra a anunciar que alguém que fracturou o punho está a chegar • Acrescentaram factores baseados na utilidade nas equações originais de Shannon.
Teoria e Ciência da Informação • As ciências da informação preocupam-se com as noções teóricas de informação e comunicação • Grande parte do trabalho tem um ênfase mais prático • CI ocupa-se mais da comunicação escrita que tem um papel importante na disseminação de eventos históricos e ideias académicas • CI foca-se na na comunicação escrita tanto na sua recuperação como arquivo • A comunicação escrita pode ser vista • do ponto de vista teórico • Medir a productivudade do cientista • do ponto de vista prático • Que livros colocar nas prateleiras da biblioteca • Como construir e disseminar os sistemas de RI
Propriedades da Informação Científica • Crescimento • Obsolescência • Fragmentação • Ligações • Citações • Productividade de autores • Dispersão temática • Importância de jornais: o factor de impacto
O início 1665
INTRODUCTION. Henry Oldenburg 1665 --- there is nothing more necessary for promoting the improvement of Philosophical Matters, than the communicating --- [of] such things as are discovered or put in practice by others; it is therefore thought fit to employ the Press --- solid and useful knowledge may be further entertained, ingenious Endeavours and Undertakings cherished; those addicted to and conversant in such matters, may be invited and encouraged to search, try and find out new things, impart their knowledge to one another, and contribute what they can to the Grand design of improving Natural knowledge ---
Crescimento • Crescimento exponencial há séculos • Price (1963) • Tempo de duplicação é 15 anos a partir do artigo de 1660 • Pao (1989) • Validou o modelo de Price : 2.3 M previstos para 2.2 M existentes (1977) confirmados pela National Federation of Abstract and Indexing Services (1977)
Crescimento Área Médica • O aumento teve profundas consequências • É uma das razões da escolha de especialidades pelos médicos em detrimento dos cuidados de saúde primários (médicos generalistas) – Petersdorf (1989) • Preços mais altos • Em cada ano são adicionadas 300K referências à NLM • Como é impossível ler todas essas referências individualmente • Há informação científica desconhecida • Os cuidados de saúde dos pacientes estão potencialmente em perigo
Crescimento Área Médica • O crescimento das publicações científicas vai continuar? • Não há árvores suficientes para produzir papel e imprimir todos os artigos • Em vez do papel vai se usar cada vez a via electrónica • Cada vez menos fundos públicos para financiar a investigação • A investigação vai continuar a produzir um grande número de literatura científica • Impossivel assimilar tudo….
Obsolescência • Apesar do seu crescimento exponencial • Torna-se obsoleta às vezes demasiado depressa • Nova literatura • Relata experiências mais recentes • Disponibiliza uma lista actualizada de referências • Permite o conhecimento mais profunda de um dado tópico • Com obtenção de novos resultados, as experiências mais antigas são vistas com outros olhos
ObsolescênciaExemplo clássico • Mudanças no tempo devido a novas experiências • Papel do colesterol nas doenças do coração • Antes de estabelecer a ligação entre o nivel de colesterol no sangue e a doença da artéria coronária não se sabia que diminuindo o nível de colesterol podia ser benéfico • Actualmente já se conclui que nem toda a gente beneficia ao baixar o colosterol
Obsolescência • Muitos fenómenos variam no tempo • Mutações no vírus • Mudanças nas doenças infecciosas desde o aparecimento dos antibióticos • Incidência de doenças na artéria coronária continuam a decrescer • Mesmo fenómenos da física e da química • Embora não mudem em si, são vistos de forma diferente quando se refinam métodos para a sua medição e detecção
Obsolescência • Mudanças no tempo • Literatura mais recente é vantajosa • Alguma literatura mais antiga fica obsoleta • Price(1963): Obsolescência varia de área para área • Citações em artigos de Química < 8 anos • Citações em artigos de Física < 5 anos • São apenas indicadores
Obsolescência • Outro problema é o tempo muito grande de disseminação da informação • Na área médica é comum dizer-se que os livros quando são publicados já estão desactualizados • Podem mesmo estar desactualizados quando os autores se sentam para escrevê-los • Antman et al (1992) • Informação dos especialistas difundida através de livros artigos e recomendações práticas bastante depois do conhecimento ser obtido • Como resultado avanços importantes permanecem desconhecidos e tratamentos obsoletos ou ineficazes são ainda ministrados
Obsolescência • Antiguidade não é sinónimo de Obsolescência • Pode haver mortes por causa de um documento antigo não estar indexado no NLM • Há necessidade de abordagem mais sistemáticas de recuperação e indexação
Fragmentação • Ziman(1969) • Um artigo relata apenas uma experiência, uma pequena parte da imagem geral • A literatura científica é apenas usada para os cientistas comunicarem com os seus pares • Presumem um conhecimento dos conceitos da área • Não é apenas fragmentada mas derivativa • Baseia-se bastante no trabalho já publicado • Fornece um mecanismo de controlo de qualidade
Fragmentação • Cientistas querem semear os seus artigos num número variado de jornais para atingir uma maior audiência • Promoção na carreira académica significa “publicar ou morrer” • Partir resultados em publicações diferentes para maximizar o seu número
Ligações • Um última propriedade da informação científica • Ocorre através das citações • O estudo das citações na literatura científica é realizada pela bibliometria • Medição da contribuição individual para a ciência • Identificação dos locais para procurar informação sobre determinado tópico • Disponibiliza mecanismos para melhorar os sistemas de IR
Citações • A bibliografia é uma parte importante dum artigo científico • Indica os fundamentos • Trabalho prévio que motivou a investigação • Também é usada para sustentar as contribuições originais • Um artigo para divulgar um novo tratamento para uma doença cita • Artigos que descrevem a doença • Sucesso das terapias existentes • Ciência de base ou outros trabalhos para sustentar a nova abordagem
Citações • Podem ser vistas como uma rede, ou um grafo acíclico directo • As razões da citação podem ser obtusas • Um artigo de medicina pode citar um artigo de estatística para descrição dum método não comum utilizado • A rede pode dar uma indicação genérica de relação temática • Garfield (1984) • Um dos investigadores mais antigos em Bibliometria • Originador do Science Citation Index
Citações • Importante para os cientistas • A progressão na carreira • Manutenção da categoria • Financiamentos • Price(1965) • Em certas áreas metade das principais citações • formam um núcleo de artigos dos cientistas mais influentes • Ex: Salton no Information Retrieval • Adam(2000) • Prós e contras da utilização dos índices na avaliação do trabalho científico
Bibliometria • Unidades básicas • Publicações • Podem ser atribuídas a jornais, instituições e países dos seus autores • (Co-)autores • Referências • Citações • Podem ser atribuídas a categorias temáticas
Bibliometria • Unidades são conjuntos específicos de elementos • Jornais • Categorias Temáticas • Instituições • Regiões • Países • Aos quais os elementos são atribuídos
Produtividade científica • Actividade de publicação • Influenciada por vários factores. Ao nível micro • Área temática • Idade • Situação social • Período de Observação • A actividade de publicação em áreas teóricas (matemática) e em engenharia é inferior a áreas mais exprimentais e ciências da saúde • Comparação inter-áreas– sem uma normalização apropriada não é válida. Aplica-se a comparação entre departamentos e universidades
Produtividade científica Lei do quadrado inverso da Produção científica (Pao,1986) • Áreas científicas • Pequeno número de autores produzem um grande número de publicações • Lei de Lotka • x – nº de publicações de um cientista numa área e y o nº de cientistas que publicam x publicações cada • C é uma constante e n é proximo 20 normalmente • Em áreas científicas o número de artigos publicados por um dado autor é inversamente proporcional ao número de autores que produzem esse número de artigos
Produtividade científicaLei de Lotka • # autores 100 • # autores com 2 artigos= 25 • # de autores com 3 artigos =11 • 10% dos autores produzem metade da literatura numa área enquanto 75% produz 25%
Dispersão TemáticaLei de Bradford (1948) • Nomes de revistas numa área e nº de artigos por revista • Divididem-se em grupos contendo de aproximadamente o mesmo # de artigos Quando uma área científica cresce torna-se cada vez mais dispersa e difícil de organizar
Dispersão TemáticaLei de Bradford (1948) • A maior parte dos artigos científicos numa área estão num núcleo de jornais
Factor de Impacto • Contar as referências para seriar o uso dos jornais científicos foi relatado por Gross & Gross (1927) • O termo factor de impacto não foi usado até a publicação de uma publicação de 1961 no Science Citation Index (SCI) in 1963. • Isto levou a um produto o Journal Citation Reports (JCR Fonte: Garfield E. How can impact factors be improved? BMJ 1966; 313:413-5.
Factor de Impacto O mais usado no JCR são as taxas de factor de impacto obtidas O cálculo do factor de impacto do JCR é baseado em artigos de investigação original e revisão bem como notas
JOURNALS WITH THE HIGHEST IMPACT FACTOR IN 1969Source: Farfield E. Citation Analysis as a Tool in Journal Evaluation. Science 1972; 178:471
JOURNALS WITH THE HIGHEST IMPACT FACTOR IN 1999Source: Journal Citation Reports (JCR) on CD-ROM 1999 Science Edition Journal RankingsSorted by Impact Factor
JOURNALS PUBLISHING REVIEW ARTICLES WITHINTHE 50 MOST CITED IN 1969Source: Garfield E. Citation Analysis as a Tool in Journal Evaluation. Science 1972; 178:471