340 likes | 544 Views
Experimentación Numérica. Antiplagium. Integrantes. Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado. Agenda. Objetivo de la Experimentación Selección del Método Experimental Hipótesis Ejecución del Experimento Resultados Conclusiones.
E N D
Experimentación Numérica Antiplagium
Integrantes Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado
Agenda Objetivo de la Experimentación Selección del Método Experimental Hipótesis Ejecución del Experimento Resultados Conclusiones
Objetivo Encontrar el algoritmo más eficiente para la detección de plagio de documentos. Comparar dos algoritmos según tiempo de ejecución y porcentaje de plagio.
Algoritmos a Comparar Secuencia de Maximales Lenguaje Natural
Factores Experimentales Los factores elegidos para el análisis son: • El número de comparaciones entre documentos. • El tamaño de los documentos
Variables de Respuesta El porcentaje de plagio de un documento contra los documentos de la base de datos. El tiempo de ejecución del algoritmo de detección de plagio.
Método Experimental Se utilizará el estadístico T-Student. Análisis con la distribución Normal. Análisis de las medias con desviación estándar conocidas
Criterios de evaluación Media muestralµ Varianza muestral δ2
T-student Sirve para comparar medias de muestras independientes. Su objetivo es demostrar por hipótesis una muestra es mejor que otra. Trabaja con la media y la varianza. Requiere saber si las varianzas son iguales o no.
T-student Alpha: Grado de confianza o de certeza. Utilizaremos 95% como grado de certeza. C: Punto crítico que separa la región a rechazar y la región de aceptación.
T-student Sean: Si: Varianza muestral del algoritmo i g.l.: Grados de libertad (n1+n2-2) y la fórmula para hallar el estadístico t:
Hipótesis para el tiempo de ejecución H0: X1 < X2 : "Secuencia de Maximales requiere un mayor tiempo de ejecución que Lenguaje Natural“ H1: X1 >= X2: " Lenguaje Natural requiere un mayor tiempo de ejecución que Secuencia Maximales ” Siendo: X1: Media de tiempo de ejecución de Lenguaje Natural. X2: Media de tiempo de ejecución de Secuencia Maximales.
Hipótesis para el porcentaje de plagio H0: X1 < X2 : "Secuencia de Maximales detecta mayor porcentaje de plagio que Lenguaje Natural“ H1: X1 >= X2: " Lenguaje Natural detecta mayor porcentaje de plagio que Secuencia Maximales ” Siendo: X1: Media de porcentaje de Lenguaje Natural. X2: Media de porcentaje de plagio de Secuencia Maximales.
Muestra de ejecución Datos Utilizados. Ejecución del algoritmo Secuencia Maximales. Ejecución del algoritmo Lenguaje Natural.
Datos utilizados 50 documentos de extensión .txt que serán comparados cada uno contra la los 49 restantes.
Resultados para el tiempo de ejecución t = -8.7274 Rechazo Ho Si t > 1.9845 "Como t = -8.7274 < 1.9845 se acepta Ho"
Resultados para porcentaje de plagio t = -2.7371 Rechazo Ho Si t > 1.9845 "Como t = -2.731 < 1.9845 se acepta Ho"
Conclusiones Se acepta la Hipótesis nula para el tiempo de ejecución, es decir el algoritmo de Secuencias Maximales requiere de un mayor tiempo de ejecución que el algoritmo Lenguaje Natural Se acepta la Hipótesis nula para el porcentaje de detección de plagio, es decir el algoritmo de Secuencias Maximales detecta mayor porcentaje de plagio frente al algoritmo de Lenguaje Natural.
Bibliografía Estadística Descriptiva e Inferencial Córdova Zamora, Manuel (2003)