UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INFORMÁTICA Secretaria de Postgrado Carrera: Nombre del curso Procesamiento y modelado de aplicaciones de datos masivos Año 2015 Duración: Profesor a Cargo: Dr. A. Marcela Printista, Dr. G. Veronica Gil Costa y Mg. Jair Lobos OBJETIVOS GENERALES El objetivo del curso es caracterizar los problemas de procesamiento sobre datos masivos en paralelo desde el punto de vista de una arquitectura de cluster de procesadores multicore. Además se presentaran los principales modelos de computación paralela y paradigmas de programación aptos para ella. METODOLOGIA El curso consistirá en el desarrollo de clases teóricas y de prácticas par experimentación sobre un arquitectura de cluster de procesadores multicore. MODALIDAD DE EVALUACION Para aprobar el curso el alumno deberá presentar un proyecto integrador de las técnicas estudiadas en el curso. PROGRAMA 1- Arquitectura Multicore – Tendencias. a- Programación: ILP, TLP y SMT. b- Jerarquía de Memoria. a. Memoria distribuida, compartida. b. Límites de los procesadores de memoria compartida c. Algoritmos de scheduling a nivel multicore (work stealing, basadas en sincronización y colas de trabajo) d. El modelo de computación BSP y Multi-BSP i. Definición del modelo original y su costo. ii. Algoritmos fundamentales utilizando Multi-BSP Calle 120 y 50 – 2do. piso (1900) TEL-FAX: (54) 221-4273235 1 La Plata http://postgrado.info.unlp.edu.ar E-Mail: [email protected] UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INFORMÁTICA Secretaria de Postgrado 2- Modelos de computación para memoria compartida a. Motivación para un modelo estándar b. Descripción del modelo c. Caso de Estudio: Modelo Map-Reduce 3- Procesamiento de datos masivos: Caso de estudio la Web a. Clasificación de información en la Web b. Recuperación de la información en la Web c. Motores de Búsqueda d. Real Time Big Data e. El nuevo desafío: Capacity Planning 4- Stream Processing f. Sistemas para procesamiento de flujos de eventos g. Sistemas para procesamiento de eventos complejos h. Colaboración entre sistemas de procesamiento de eventos i. Aplicaciones para móviles j. Caso Práctico: Estudio y análisis de herramientas de procesamiento de datos en streaming BIBLIOGRAFIA 1- F. Afrati, A., Sarma, S., Salihoglu, S., J.D. and Ullman. Vision paper: Towards an understanding of the limits of map-reduce computation. 2- K. Agrawal and Y. He and E. Leiserson. Adaptive work stealing with parallelism feedback. In Principles and Practice of Paralle Computing, pages 112-120. 2007. 3- M. Barlow. Real Time Big Data. O’Reilly Media Inc. 2013. First Edition. 4- O. Beaumont, N. Bonichon, and L. Eyraud-Dubois. Scheduling divisible workloads on heterogeneous platforms under bounded multi-port model. In Parallel and Distributed Processing, 2008. pages 1-7. 5- R. C. Fernandez, M. Migliavacca, E. Kalyvianak and P. Pietzuch. Integrating scale out and fault tolerance in stream processing using operator state management, in: SIGMOD, 2013, pp. 725-736. Calle 120 y 50 – 2do. piso (1900) TEL-FAX: (54) 221-4273235 2 La Plata http://postgrado.info.unlp.edu.ar E-Mail: [email protected] UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INFORMÁTICA Secretaria de Postgrado 6- Q. Gan and T. Suel: Improved techniques for result caching in web search engines. WWW 2009: 431-440. 7- A. Grama. Introduction to parallel computing. Pearson Education. 2003. 8- V. Gulisano, R. Jim_enez-Peris, M. Pati~no-Mart__nez, C. Soriente and P. Valduriez. Streamcloud: An elastic and scalable data streaming system, Trans. Parallel Distrib. Syst. 23 (12) (2012) 2351-2365. 9- G. Hager-Gerhard Wellein. Introduction to High Performance Computing for Scientists and Engineers. Chapman & Hall/CRC. Computational Science Series. 2011. 10- R. Hoffmann, M. Korch and T. Rauber. Performance Evaluation of Task Pools Based on Hardware Synchronization. In Supercomputing Conference. 2004. 11- A. Jacobs. The pathologies of big data. Communications of the ACM, 52(8):36-44, 2009. 12- E. Koskinen, M. Parkinson and M. Herlihy. Coarse-Grained Transactions. In POPL, 2010. 13- E. Lusk and C. Anthony. Early experiments with the OpenMP/MPI hybrid programming model. IWOMP'08 Proceedings of the 4th international conference on OpenMP in a new era of parallelism. 2008. 14- K. G. S. Madsen, P. Thyssen and Y. Zhou. Integrating fault-tolerance and elasticity in a distributed data stream processing system, in: SSDBM, 2014, p. 48. 15- A. Montresor and M. Jelasity. PeerSim: A Scalable P2P Simulator. Proc. of the 9th Int. Conference on Peer-to-Peer. Pp. 99-100 , 2009. 16- L. Neumeyer, B. Robbins, A. Nair and A. Kesari. S4: Distributed Stream Computing Platform. Pages 170 – 177. International Conference on Data Mining Workshops (ICDMW), 2010. 17- B. Satzger, W. Hummer, P. Leitner and S. Dustdar. Esc: Towards an elastic stream computing platform for the cloud, in: CLOUD, 2011, pp. 348-355. 18- The OpenMP API specification for parallel programming. http://openmp.org Calle 120 y 50 – 2do. piso (1900) TEL-FAX: (54) 221-4273235 3 La Plata http://postgrado.info.unlp.edu.ar E-Mail: [email protected] UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INFORMÁTICA Secretaria de Postgrado 19- A. Toshniwal, S. Taneja, A. Shukla, K. Ramasamy, J. M. Patel, S. Kulkarni, J. Jackson, K. Gade, M. Fu, J. Donham, N. Bhagat, S. Mittal and D. Ryaboy. Storm@twitter, in: SIGMOD, 2014, pp. 147-156. 20- L. G. Valiant. A Bridging Model for Multi-core Computing.In ESA, 2008. 21- L. G. Valiant. A Bridging Model for Parallel Computation Comm. ACM, 33(8): 103-111, 1990. Calle 120 y 50 – 2do. piso (1900) TEL-FAX: (54) 221-4273235 4 La Plata http://postgrado.info.unlp.edu.ar E-Mail: [email protected]
© Copyright 2024 ExpyDoc