180 likes | 413 Views
Greenstone. Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com. Greenstone…. Es una aplicación para bibliotecas digitales… Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc.
E N D
Greenstone Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com
Greenstone… • Es una aplicación para bibliotecas digitales… • Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc. • La interface de visualización es en html y permite una visualización total del contenido • Organiza los documentos en colecciones… • Permite desarrollar estructuras de organización de la colección…
Aplicaciones • En organizaciones y/o servicios de información que utilicen documentos digitales • Indexa y busca sobre texto completo además de hacerlo sobre los metadatos • Es multilingüe: utiliza Unicode
Arquitectura • Aplicación en Perl • Usa el motor de representación y recuperación de información MG, o su versión avanzada MGPP, que usan el modelo vectorial • Codifica toda la información en XML • Necesita de un servidor web de soporte • Incorpora una interfaz gráfica en Java
Requerimientos • Versiones binarias ejecutables para Linux, Windows y Mac • Requiere un intérprete Perl • Requiere un servidor web • Requiere Java Runtime Environment, JRE • Para otros Unix hay código fuente que es necesario compilar
Greenstone en acción • Da acceso a una interfaz predefinida, donde muestra las colecciones disponibles • La selección de una de ellas lleva a la consulta de la misma • La interfaz está muy estandarizada: barra de botones, campo de expresión de búsqueda y listado de respuestas • El acceso es libre a la interfaz de busqueda y recuperación
La consulta en Greenstone • Uso de las opciones en la barra de menú, y del campo de búsqueda • Une los términos con AND • Uso de comillas para frases • Existencia de una interfaz más avanzada, a través de Preferencias • Visualiza los documentos según haya sido predefinido por el creador de la colección
Creación de colecciones • El proceso clave es la creación de colecciones • Es necesario definir claramente el objetivo, contenido, características y organización de la colección • Interfaces de creación: • Greenstone Librarian Interface, GLI • Línea de órdenes
Greenstone Librarian Interface, GLI • Método recomendado (y recomendable) desde la versión 2.41a • Interfaz en Java que necesita el JRE • Integra todos los pasos necesarios para crear una colección • Comprobar las Preferencias
Desarrollo de la colección, 1 • Definir el nombre y la descripción de la colección • Seleccionar el conjunto de metadatos a utilizar • Crea un fichero básico de configuración de la colección • Selección de los documentos a incluir • Asignación de metadatos a cada uno de los documentos
Desarrollo de la colección, 2 • Es necesario definir los tipos de documentos, y los plugins necesarios para su manipulación • Definir tipos de búsqueda • Definir índices para las búsquedas • Definir los clasificadores • Definir los formatos de presentación • Construir la colección… e informe de errores
Plugins • Son los procesadores de los tipos de documentos • Son terceros programas, pueden aparecer nuevos • Se pueden seleccionar y configurar • Cuatro son necesarios: BasPlug, GAPlug, ArcPlug y RecPlug • Los más importantes: TextPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug, PSPPlug…
Clasificadores • Criterios de organización de los documentos de la colección • Suelen aparecer en forma de botones • Clasificadores: • List • AzList, AzCompactList • DateList • Hierarchy • Phind…
Nuestra experiancia • Instalación LinuxSi bien tiene algunos inconvenientes ya que necesita que estén instalados ciertos componentes y en el manual de instalación no indica cuales, una vez que estos están instalados no tiene mayor dificultad, la inteface es buena y se configura fácilmente, en la versión 2.60 han corregidos alguno errores con respecto a esto.
Nuestra experiencia • Interface para crear coleccionesMuy amena e intuitiva, su pueden configurar los plugins que procesan los distintos tipos de documentos, se puede asociar un conjunto de metadatos a cada archivo de la colección, se puede indicar la forma de recuperación de las colecciones, (institución, letra, tema, etc), se puede editar el formato de visualización (no fue investigado a fondo) entre otras cosas.
Nuestra Experiencia • Marcado de las tesis para que se puedan ver en capítulosEl marcado es sencillo, cualquier persona con conocimientos intermedios de HTML lo puede hacer, lo recomendable en todos los casos es convertir el documento a html, por lo que habría que conseguir un buen programa, el mejor resultado que conseguí para convertir docs es con el CZ-Doc2html y después aplicando el Bresoft Word HTML cleanup, para “limpiar” el documento ya que deja mucho “basura” de Word al convertirlo, y esto dificulta el marcado.En el caso de pdf el procedimiento es el mismo.Después de la conversión hay que recorrer todo el documento de punta a punta para observar si se corresponde con el original, ya que puede haber algunos problemas con las tablas y listas.En promedio (depende de la cantidad de capítulos, exagerada muchas veces y de la fidelidad de la conversión) el formateo de la tesis en capítulos nos llevó entre uno y dos días de trabajo.
Nuestra Experiencia • Tratamiento de tesis escaneadas En líneas generales el ocr interpretó bien el texto. Problemas: • Se pierden las listas, sobre todo si en lugar de puntos, se usó otro caracter. • Las tablas salen bien en cuanto al contenido, se pierde todo el formato, por lo que hay que reconstruirlas
Nuestra Experiencia • Imágenes y formulas, principal problema, no se puede obtener automáticamente, hay que escanear uno por uno, por lo que con una tesis con muchas formulas como es el comun en exactas, ingenieria, etc., el trabajo que lleva es mucho y tedioso.Una buena manera de tratar las formulas, podría ser, conseguir el texto en Word y escribirlas de vuelta con el constructor de formulas (se va a conseguir una calidad mejor que escanearlas, si bien es mas trabajoso) • El tiempo de tratamiento de las tesis escaneadas depende de la cantidad de gráficos y formulas que tengan.