380 likes | 615 Views
Interfaz Avanzada de Consulta al Multilingual Central Repository (MCR) María Eguimendia Director: Germán Rigau. Proyecto Fin de Carrera Ingeniería Informática. Indice. Introducción Objetivos del proyecto Antecedentes Elección tecnológica Pruebas Gestión Conclusiones Demostración.
E N D
Interfaz Avanzada de Consulta al Multilingual Central Repository (MCR) María Eguimendia Director: Germán Rigau Proyecto Fin de CarreraIngeniería Informática
Indice • Introducción • Objetivos del proyecto • Antecedentes • Elección tecnológica • Pruebas • Gestión • Conclusiones • Demostración
Introducción • Se enmarca dentro del área de investigación de la Inteligencia Artificial y más concretamente, dentro de la semántica del Lenguaje Natural. • MCR: Multilingual Central Repository. • WEI: Web Eurowordnet Interface. • Objetivo: modificar la interfaz gráfica (WEI) al MCR de modo que no se requiera pre-instalar ningún componente en el navegador.
Objetivos del proyecto • Seleccionar una tecnología que no requiera de la máquina virtual de Java (JVM) para ser visualizada en el navegador. • Se implementa un solo caso de uso “Consultar al MCR”. • Se han realizado varias iteraciones donde al final de cada una se ha obtenido un prototipo. • A priori, se desconocían el número de iteraciones.
Antecedentes • Redes semánticas • Wordnet • EuroWordNet • Proyecto Meaning • Multilingual Central Repository • Interfaces Web
Redes Semánticas • La semántica léxica es un área de la lingüistica que cubre las teorías de la clasificación y la descomposición del significado de las palabras, las diferencias y las semejanzas en estructura semántica léxica entre diversos idiomas y las relaciones de las mismas. • Una forma comúnmente utilizada para representar la semántica léxica es mediante redes semánticas.
Redes semánticas • Ejemplo de red semántica:
Redes semánticas • Diversos tipos de relaciones semánticas como la sinonimia, antonimia, hiponimia, hiperonimia, meronimia, holonimia, entre otras. • Muy utilizadas en Lenguaje Natural para representar el conocimiento.
WordNet • Base de datos léxica creada por un grupo de psicólogos y lingüistas del Cognitive Science Laboratory de la Universidad de Princeton. • Está estructurada como una red semántica cuyos nodos se denominan synsets (synomym sets o conjunto de sinónimos).
EuroWordNet • Extensión multilingüe de Wordnet, compuesta por bases de datos léxicas para 8 idiomas (inglés, holandés, español, italiano, franceś, alemán, checo y estonio). • Cada Wordnet se construyó de forma separada y la conexión entre los distintos Wordnets se hizo a través del ILI (InterLingua Index).
Proyecto Meaning • Objetivo: adquisición automática del conocimiento lingüistico a partir de la Web y construcción de recursos léxicos multilingües que sirvan para una desambiguación semántica automática más eficiente. • Se centró en los wordnets para 5 idiomas europeos: inglés, italiano, español, catalán y euskera.
Multilingual Central Repository (MCR) • Resultado de la fusión de distintos recursos, distintas versiones de WordNet, ontologías y bases de conocimiento. • La versión final está integrada por Wordnets para 5 idiomas diferentes (inglés, italiano, español, catalán y euskera).
Multilingual Central Repository (MCR) • Está enriquecido por 3 ontologías: WordNet Domains, Top Concept Ontology y SUMO. • Para poder interactuar con el MCR se desarrollo WEI.
Interfaces Web • WordNethttp://wordnet.princeton.edu/perl/webwn • Visual Thesaurus http://www.visualthesaurus.com/ • Treebolic http://treebolic.sourceforge.net/en/home.htm • WEI http://garraf.epsevg.upc.es/cgi-bin/wei4/public/wei.consult.perl
Interfaces Web • DEBhttp://deb.fi.muni.cz/index.php • Otros: http://www.cozyenglish.com/dictionary http://grokitbetter.com/ http://nalanda.nitc.ac.in/reference/general/wordnet/wordnet.html http://poets.notredame.ac.jp/cgi-bin/wn http://www.golovchenco.org/cgi-bin/wnsearch
Elección tecnológica • Google Web Toolkit (GWT) • Librerías Ajax: Dojo Toolkit • PHP • Perl
Google Web Toolkit • Framework creado por Google. • Compatible con todos los navegadores. • Se crea el código en Java y el compilador lo traduce a HTML y JavaScript.
Google Web Toolkit • Componentes de GWT:
En contra Solo para proyectos Java. Mayor tiempo de aprendizaje que otras librerías. Google Web Toolkit (GWT) A favor • No hace falta saber HTML ni JavaScript. • Se pueden usar clases complejas de Java. • Libros disponibles. /home/maria/gwt-linux-1.1.10/Proyecto GWT/www/com.mycompany.MiAplicacion/MiAplicacion.html
Librerías Ajax: Dojo Toolkit • Ajax (Asynchronous Javascript And Xml) • Combinación de 3 tecnologías existentes: - XHTML y CSS - DOM - XMLHttpRequest
Librería Ajax: Dojo Toolkit • Librería de código abierto. • Acepta PHP, Perl, ASP, JSP y ColdFusion como lenguajes de servidor. • Dispone de un paquete (dojo.io.bind) con la implementación de XMLHttpRequest.
En contra JavaScript activado. Conocimientos de 3 tecnologías. Librerías Ajax: Dojo Toolkit A favor • Comunicación asíncrona con el servidor. http://localhost/interfazMCRPtodoWei.html
PHP • Acrónimo de PHP Hypertext Pre-processor (inicialmente PHP tools o Personal Home Page tools). • Lenguaje de programación usado para la creación de páginas web dinámicas.
En contra Manejo de errores. PHP A favor • Existen extensiones para añadir funcionalidades. • Existe amplia documentación. • Fácil de aprender. http://localhost/InterfazConsultaE.php
Perl • Acrónimo de Practical Extraction and Report Language. • Se usa para escribir guiones (scripts) CGI. • Es uno de los lenguajes más populares para la creación de aplicaciones web junto con PHP y Python.
En contra Manejo de errores. Perl A favor • Gran número de librerías. • Fácil de usar. • Existe amplia documentación. http://localhost/cgi-bin/wei4/public/wei.interfazconsulta.perl
Solución tecnológica • Interfaz desarrollada en Perl. • Servidor desarrollado en Perl. • Ningún problema de comunicación.
Pruebas • Pruebas unitarias • Pruebas de integración • Proceso de implantación
Pruebas unitarias • Comprobar: - Página bien construída. - Página accesible. • Para ello: - Subir página al servidor. - Intentar acceder a la página. - Si error, solucionarlo.
Pruebas de Integración • Conectar interfaz con servidor. • Comprobar resultado de la consulta. • Comparar resultados de las interfaces.
Proceso de Implantación • Instalar el proyecto en un servidor. • Comprobar su funcionamiento.
Conclusiones • Es muy importante la elección de las herramientas a la hora de desarrollar un proyecto. • Si no es correcta, se corre el riesgo de invertir un número de horas sin conseguir el resultado esperado. • La facilidad para aprender a utilizar una herramienta incrementa su uso frente a otras.
Conclusiones • Unificar los conocimientos adquiridos a lo largo de la carrera en un proyecto. • Adquirir conocimientos sobre linux y sobre lenguajes de programación. • Existen distintas alternativas a la hora de abordar un proyecto.
Demostración http://adimen.si.ehu.es/cgi-bin/wei6/public/wei.consult.perl