Everardo Medina Palomo 1428512 Reporte Octubre - emedina

Everardo Medina Palomo 1428512 Reporte Octubre 2014 : 80 horas Resumen Se han recopilado alrededor de 1000 muestras para realizar pruebas. El enfoque de este mes fue a darle al sistema todo lo necesario para realizar el reporte de similitud. Introducción En el transcurso del mes, con la ayuda de los maestros de la FIME se consiguieron más de 1000 archivos para probar el algoritmo con mucha más información. El sistema se adaptó para que fuera aún más sencillo de usar. Alrededor de 250 tareas fueron habilitadas en el sistema durante una semana, los alumnos simplemente tenían que seleccionar qué maestra, en que curso y que tarea querían enviar. Todo esto aún quedó bajo mi supervisión, de manera que al término del plazo que fue dado a los alumnos, las tareas fueron deshabilitadas para iniciar a realizar los reportes de los archivos enviados. Modelos del sistema El sistema quedó justo con la necesidad que había, un modelo mayormente en cascada para facilitar la comprensión de su relación. Se cuenta con Maestros, cursos, tareas, ejercicios, reportes y usuarios. Los Usuarios son para el uso del sistema administrativo, los demás modelos son para el almacenamiento del archivo y la creación de los reportes. El modelo que guardar los archivos es el de Exercise y se encarga de almacenar el archivo en un folder con jerarquía que corresponde a la relación que tiene respecto a la tarea, la materia y el maestro. Las tareas tienen una propiedad que ayudará a comprobar si existe un reporte relacionado a esa tarea, de este modo la tarea de crear los reportes se facilita y no se repite el procesamiento Reportes Los reportes que se generan contienen la información del Maestro, la materia y la tarea que están relacionadas con todos los archivos que fueron analizados. Primero se organizan las matrículas de los alumnos que enviaron su ejercicio y después se lista el grado de similitud que hay entre cada uno de los ejercicios. Lo interesante de los reportes, es que los grados de similitud guardan relación, es decir que los de menor porcentaje de similitud pueden ser plagiados, pero tiene tienen un grado mayor de modificación respecto a esos archivos. Dicho de otra manera, el 100% de similitud corresponde a 2 archivos idénticos y va disminuyendo por cada carácter que difiere. Con la mayor cantidad de los ejercicios que fueron usados para probar el algoritmo, se puede apreciar que no hay un porcentaje que defina si es plagio o no, el porcentaje de similitud es solamente eso, un indicador que sirve como referencia para los maestros de cada materia. Como caso de referencia, se le pidió a 2 estudiantes que realizar un ejercicio muy sencillo y el grado de similitud era del 90%, esto debido a que el ejercicio era demasiado sencillo y la manera efectiva de realizarlo era solo 1. Sin embargo, a grandes escalas se puede apreciar que los resultados son una buena guia. Actualización del repositorio El repositorio del proyecto no ha tenido cambios, pero el submódulo si, y es el que más se encuentra en desarrollo. Se hizo la bifurcación de un proyecto llamado consistent_hash el cual ayuda al algoritmo de winnowing para tener un hash consistente en cada ejecución. Esto porque Ruby utiliza distintos algoritmos de hash en cada ejecución, para aumentar su seguridad, pero nosotros no estamos usando el hash con fines de seguridad, por eso dejamos un hash rápido y consistente para el algoritmo. Para crear los reportes se utilizó thin reports un proyecto japonés en el cual se puede crear un archivo template y después llenarlo con información dinámica a través de ruby. Conclusión Ahora el sistema ya tiene una forma de contener los archivos y poder manipularlos para identificar qué tanta similitud tienen entre ellos. Después de hacer todas las pruebas, la mayoría de ellas parecen satisfactorias, pero no se descarta el hecho de que también sería bueno probarlo utilizando otro tipo de archivos de texto, aunque por desgracia eso implique otros casos especiales. Respecto al curso del proyecto, los módulos que probarían la compilación y ejecución del sistema se han quedado un poco atrás, la gran cantidad de archivos de muestra se tienen que volver a segmentar debido a que muchos están escritos usando librerías propias de windows y la compilación falla por compatibilidad. Sin embargo no se descarta que esas mismas muestras puedan servir para el desarrollo de esos módulos. Respecto al sistema, se encuentra andando y posiblemente los maestros le den más uso en la etapa de exámenes ordinarios, pero aun no se confirma. Tiempos ●
20 hrs Adecuaciones en el servidor para soportar y manejar mejor los archivos. ●
10 hrs Desarrollo e implementación del generador de reportes. ●
20 hrs Cambios al diseño del front­end y adecuación para el acceso único. ●
5 hrs Pláticas y explicación del sistema a ingenieros de la FIME ●
25 hrs Desarrollo del apartado administrativo para adquisición de datos.