410 likes | 822 Views
Informática Documental Introducción. Pablo Garaizar Sagarminaga garaizar@eside.deusto.es. Introducción. ¿Qué es la informática documental? ¿Qué es un documento? ¿Qué es una Base de Datos? El ordenador en la documentación. Introducción. ¿Qué es la informática documental? Informática:
E N D
Informática DocumentalIntroducción Pablo Garaizar Sagarminaga garaizar@eside.deusto.es
Introducción • ¿Qué es la informática documental? • ¿Qué es un documento? • ¿Qué es una Base de Datos? • El ordenador en la documentación.
Introducción • ¿Qué es la informática documental? • Informática: • Tratamiento automatizado de la información. • Software + Hardware. • Documental: • Encaminada a la gestión de documentos: • Recepción, catalogación, almacenamiento, búsqueda de documentos.
Introducción • Hardware vs. Software: • Sistema operativo. • Ratón. • Navegador web. • Disco duro. • CD-ROM.
Introducción • Dispositivos de entrada y de salida: • Teclado. • Pantalla. • Ratón. • Impresora. • Lector DVD. • Diskette. • Lápiz USB.
Introducción • ¿Qué es un documento? • Es fuente y soporte de información. • Fuente: proporciona información. • Soporte: almacena, contiene, la información. • Diferentes tipos en función de diferentes criterios: • Naturaleza de la información (visual, auditivo, etc.). • Tipo de soporte físico (impresos, digitalizados, etc.). • Difusión del documento (inédito, publicado, reservado). • Contenido del documento: • Primarios: fuentes originales (libros, artículos, informes, leyes, etc.). • Secundarios: resultado del análisis documental de documentos primarios (anuarios, bibliografías, resúmenes, fichas, etc.).
Introducción • ¿Qué es una Base de Datos? • Conjunto de información almacenada en cualquier tipo de soporte, de forma que sea accesible y manipulable por un sistema informático. • Base de Datos vs. SGBD. • AEROPUERTOS.MDB vs. Microsoft Access. • LIBROS.DOK vs. Knosys.
Introducción • Tipos de Bases de Datos: • En función del diseño: • Jerárquicas, en Red, Relacionales, Documentales, Orientadas a Objetos, etc. • En función de la información almacenada: • Referenciales: almacenan documentos secundarios: • BD bibliográficas, directorios. • Fuentes: almacenan documentos primarios: • BD textuales, numéricas (bancos de datos), mixtas. • Mixtas: textuales + bibliográficas.
Introducción • El ordenador en la documentación: • Ordenador = centro de documentación: • Como BD, almacenamiento de documentos. • Como SGBD, sistema eficaz de búsqueda y localización de documentos. • Modos de acceso a la información: • Conexión on-line (Teledocumentación). • Acceso local o conexión off-line
Introducción • Tele-documentación:
Introducción • Acceso local:
Tareas del servicio de documentación • Paralelismo con la informática documental: • Almacenamiento y análisis: • Obtener una descripción del documento formalizada dentro del sistema (registro-índice). • Interrogación y búsqueda: • Comprender las peticiones del usuario y encontrar los documentos apropiados.
Hardware y software para la documentación • Entrada de documentos: • Teclado + Procesador de textos: • Varias disposiciones: QWERTY, Dvorak, etc. • Procesador de textos: MS Word, OpenOffice Writer, Google Docs, etc. • Ventajas: sencillo y cómodo. • Desventajas: lentitud.
Hardware y software para la documentación • Entrada de documentos: • Scanner + software OCR: • Reconocimiento óptico de caracteres. • Ventajas: rapidez. • Desventajas: errores y pérdida de formato.
Hardware y software para la documentación • Salida de documentos: • Pantalla-Monitor: • Diferentes tipos: • CRT: Tubo de rayos catódicos. • LCD-TFT: Pantalla de cristal líquido – Transistor de Película Fina. • Plasma: excitación de sustancias fosforescentes mediante una corriente de plasma.
Hardware y software para la documentación • Salida de documentos: • Impresora: • Diferentes tipos: • Matricial: matriz de agujas con tinta golpean el papel. • Chorro de tinta: pequeños eyectores de tinta. • Láser: similar a las fotocopiadoras (tóner + rodillo).
Hardware y software para la documentación • Almacenamiento de documentos: • Cinta magnética: • En desuso. • Acceso secuencial: lento. • Discos magnéticos: • Los más utilizados. • Disco girando + cabeza lectora / escritora. • Dos tipos: • Disco flexible: diskette. • Disco rígido / duro: herméticamente sellado.
Hardware y software para la documentación • Almacenamiento de documentos: • Discos ópticos: • Láser y lente + picos y valles en los discos. • Tipos más comunes: • CD-ROM: sólo lectura, 650-900 MB. • CD-R: escritura una vez, lectura varias (WORM). • CD-RW: muchas escrituras, muchas lecturas. • DVD: sólo lectura, una capa 4,7 GB, doble capa, 8,5 GB. • DVD-R, DVD+R: escritura una vez, lectura varias. • DVD-RW: muchas escrituras, muchas lecturas.
Nociones sobre ficheros • Fichero: • Conjunto de información similar con una estructura determinada. • Cada unidad de acceso a un fichero se llama registro, y cada registro está compuesto por diferentes campos. • Ejemplo: • Fichero de clientes de una empresa: • Cada cliente es un registro. • Cada registro contiene los campos "nombre", "número", "dirección", "teléfono"...
Nociones sobre ficheros • Organización y tipos de acceso: • Secuencial: el primer registro es el primero que ha llegado. • Indexada: se define un campo clave y se crea un árbol de índices (metadatos).
Gestión documental • Primera parte: análisis de contenido. • Objetivo: Documento >>> Índice (proceso de indexación). • El registro-índice tiene un diseño estandarizado en cada Sistema de Gestión Documental. • Ejemplo: nombre, identificativo, fecha de entrada, 10 campos descriptores + pesos.
Gestión documental • Análisis de contenido: • Subtareas: • Catalogación o descripción física del documento: título, autor, etc. • Indexación del documento: texto >>> términos-índice o descriptores (palabras clave). • Valoración de los índices del documento: cálculo de pesos en base a frecuencias.
Gestión documental • Análisis de contenido: • Tipos de Indexación: • Indexación Automática / Manual: • Crear diccionarios que el sistema necesita (glosario, palabras-vacías, tesauro). • Indicar las zonas del documento objeto de análisis. • Indexación de términos controlados / incontrolados: • Incontrolado: toda la variedad del lenguaje natural. • Controlado: propio de sistemas sobre un tema en concreto. • Indexación Postcoordinada / Precoordinada: • Postcoordinada: términos-índice individuales, posteriormente pueden coordinarse. • Precoordinada: términos-índice ya coordinados, como frases.
Gestión documental • Análisis de contenido: • Diccionarios necesarios para el análisis: • Glosario-Lexicón-Vocabulario: • Descriptores del área de conocimiento tratada (= todas las palabras de búsqueda e identificación de los documentos). • Stoplist-Diccionario de palabras vacías: • Palabras no útiles para la búsqueda, con valor únicamente gramatical (artículos, preposiciones, etc.). • Thesaurus (tesauro): • Diccionario estructurado de conceptos, con relaciones jerárquicas y asociativas entre ellos. • Objetivo: garantizar la coincidencia entre el descriptor usado para analizar el documento y para la formulación de la búsqueda o pregunta.
Gestión documental • Análisis de contenido: • Tesauro: • Componentes: • Unidades léxicas: • Descriptores. • No-descriptores: términos rechazados, reenvían al descriptor adecuado. • Identificadores: nombres propios, de lugares, etc.. • Relaciones conceptuales.
Gestión documental • Análisis de contenido: • Relaciones conceptuales: • Equivalencia: descriptor y sus sinónimos. • USE: para remitir del sinónimo al descriptor. • UP: para remitir del descriptor al sinónimo. • ORDENADOR UP COMPUTER • COMPUTER USE ORDENADOR • Jerárquicas: cosa-tipo, género-especie, todo-parte. • TG: Términos genéricos. • TE: Términos específicos. • TG PERRO TE CANICHE
Gestión documental • Análisis de contenido: • Relaciones conceptuales: • Asociativas: horizontales, de proximidad conceptual. • TR: Término relacionado. • TA: Término asociado. • CRISTAL TR: TRANSPARENCIA • LAPIZ TA: PORTAMINAS • Definitorias: no son una definición, sino que facilitan la correcta utilización del descriptor, delimitando su uso ("nota de alcance"). • NA: Nota de alcance (en inglés SN, scope note) • ALUMNO NA: Referido al que cursa la ESO.
Gestión documental • Análisis de contenido: • Tareas: • Catalogación: trivial, rellenar una ficha con los datos físicos. • Indexación, Elección de los descriptores. • Valoración o Cálculo de los pesos de los índices.
Gestión documental • Indexación, Elección de los descriptores: • Identificar palabras individuales, separadas por espacios. • Cálculo de la frecuencia de cada palabra (FREQik). • Calculo de la frecuencia total de cada palabra (TOTFREQk). • Ordenación de las palabras en orden decreciente por su frecuencia total. • Eliminación de las palabras que pertenecen al STOPLIST. • Eliminación de las palabras de menor frecuencia. • Elección de las palabras con mayor frecuencia individual en el documento (FREQik) y menor frecuencia total. • Traducción de estas palabras a forma canónica (quitando prefijos, sufijos, plurales, etc.). • Identificación de las categorías semánticas en el Tesauro y elección del PT (Preferred Term).
Gestión documental • Valoración o Cálculo de los pesos de los índices: • Efectividad: • Exhaustividad de indexación: si la indexación es exhaustiva, se asignan muchas palabras clave (normal: de 5 a 12). Poca exhausitividad = silencio. • Especificidad o precisión del término: si los términos-índice asignados son muy generales, se recuperará mucha información útil, pero junto con otra que no lo es (ruido).
Gestión documental • Valoración o Cálculo de los pesos de los índices: • Efectividad: • Ruido: conjunto de documentos no útiles recuperados en una consulta (inverso a la precisión). • Silencio: conjunto de documentos relevantes existentes en la base de datos que no han sido recuperados (inverso a la exhaustividad).
Gestión documental • Efectividad: a: doc relevantes recuperados b: doc relevantes no recuperados (silencio) c: doc irrelevantes recuperados (ruido) d: doc irrelevantes no recuperados b d a c
Gestión documental • Efectividad: • Tasas: • Ruido: c / a + c. • Precisión: a / a + c. • Silencio: b / a + b. • Exhaustividad: a / a + b.
Gestión documental • Pesos: • Wik = FTik x FIk • El mejor índice es el de mayor frecuencia en el documento (FT) y menor frecuencia en los otros documentos (FI). • Frecuencias de Término: FTk = FREQik • Frecuencia inversa: FIk = 1 / TOTFREQk
Gestión documental • Elementos funcionales: • Elementos de exhaustividad: • Objetivo: disminuir el silencio. • Estructuración jerárquica del tesauro. • Normalización de la indexación. • Elementos de precisión: • Objetivo: disminuir el ruido. • Especificidad del lenguaje de indexación. • Nivel de coordinación: poca precoordinación → fácil tesauro → mucha postcoordinación → más ruido. • Indicadores de unión y de función: poco usados.
Gestión documental • Segunda parte: recuperación de la información. • Técnicas relativas al acceso y posterior selección de información almacenada en un sistema informático. • Dos componentes: • Interfaz de usuario: traducir la demanda del usuario a una ecuación en lenguaje formal (lenguaje de interrogación). • Función de recuperación: comparación de esta ecuación con la información almacenada para proporcionar la respuesta adecuada.
Gestión documental • Recuperación de la información. • Interfaz de usuario: • Diferentes posibilidades: • Mediante menús o ventanas. • Mediante instrucciones o comandos. • Mediante Lenguaje Natural: • Estado-ASK: el usuario desconoce la respuesta. • NLQ: petición en lenguaje natural. • QNF: petición en lenguaje normalizad.
Gestión documental • Recuperación de la información. • Función de recuperación: • Modelos de operadores: • Operadores boléanos: AND, OR, etc. • CNF: Forma Normal Conjuntiva (AND). • DNF: Forma Normal Disyuntiva (OR). • Modelos booleanos con pesos. • Operadores de intervalo: =, >, <, etc. • Operadores de proximidad: INFORMATICA D3 DOCUMENTACION. • Operadores de cualificación: (INFORMATICA D3 DOCUMENTACION) EN TITULO. • Operadores de encadenamiento: encadenando búsquedas precedentes.
Referencias • DA COSTA CARBALLO, C. Introducción a la Informática Documental. Fundamentos Teóricos, Prácticos y Jurídicos. Agapea, 1995. • GARCÍA MELERO, L. y GARCÍA CAMARERO, E.: Automatización de bibliotecas. Arco-Libros, 1999. • KOWALSKI, G.: Information Retrieval Systems. Teory and Implementation. Kluwer Academic Press, 1997. • MIGUEL CASTAÑO, A.d.y PIATTINI VELTHUIS, M.: Fundamentos y modelos de bases de datos. Madrid: RAMA, 1999. • PEÑA, R., BAEZA-YATES,R. y RODRÍGUEZ, J.V.: Gestión digital de la Información. De bits a bibliotecas digitales y la web. Madrid: RA-MA, 2002.