Nombre del curso - UNLP Postgrado Informática

UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE INFORMÁTICA
Secretaria de Postgrado
Carrera:
Nombre del curso
Procesamiento y modelado de
aplicaciones de datos masivos
Año 2015
Duración:
Profesor a Cargo:
Dr. A. Marcela Printista,
Dr. G. Veronica Gil Costa y
Mg. Jair Lobos
OBJETIVOS GENERALES
El objetivo del curso es caracterizar los problemas de procesamiento sobre datos
masivos en paralelo desde el punto de vista de una arquitectura de cluster de
procesadores multicore. Además se presentaran los principales modelos de
computación paralela y paradigmas de programación aptos para ella.
METODOLOGIA
El curso consistirá en el desarrollo de clases teóricas y de prácticas par
experimentación sobre un arquitectura de cluster de procesadores multicore.
MODALIDAD DE EVALUACION
Para aprobar el curso el alumno deberá presentar un proyecto integrador de las
técnicas estudiadas en el curso.
PROGRAMA
1- Arquitectura Multicore – Tendencias.
a- Programación: ILP, TLP y SMT.
b- Jerarquía de Memoria.
a. Memoria distribuida, compartida.
b. Límites de los procesadores de memoria compartida
c. Algoritmos de scheduling a nivel multicore (work stealing, basadas en
sincronización y colas de trabajo)
d. El modelo de computación BSP y Multi-BSP
i. Definición del modelo original y su costo.
ii. Algoritmos fundamentales utilizando Multi-BSP
Calle 120 y 50 – 2do. piso (1900)
TEL-FAX: (54) 221-4273235
1
La Plata http://postgrado.info.unlp.edu.ar
E-Mail: [email protected]
UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE INFORMÁTICA
Secretaria de Postgrado
2- Modelos de computación para memoria compartida
a. Motivación para un modelo estándar
b. Descripción del modelo
c. Caso de Estudio: Modelo Map-Reduce
3- Procesamiento de datos masivos: Caso de estudio la Web
a. Clasificación de información en la Web
b. Recuperación de la información en la Web
c. Motores de Búsqueda
d. Real Time Big Data
e. El nuevo desafío: Capacity Planning
4- Stream Processing
f. Sistemas para procesamiento de flujos de eventos
g. Sistemas para procesamiento de eventos complejos
h. Colaboración entre sistemas de procesamiento de eventos
i. Aplicaciones para móviles
j. Caso Práctico: Estudio y análisis de herramientas de procesamiento
de datos en streaming
BIBLIOGRAFIA
1- F. Afrati, A., Sarma, S., Salihoglu, S., J.D. and Ullman. Vision paper: Towards
an understanding of the limits of map-reduce computation.
2-
K. Agrawal and Y. He and E. Leiserson. Adaptive work stealing with
parallelism feedback. In Principles and Practice of Paralle Computing, pages
112-120. 2007.
3- M. Barlow. Real Time Big Data. O’Reilly Media Inc. 2013. First Edition.
4- O. Beaumont, N. Bonichon, and L. Eyraud-Dubois. Scheduling divisible
workloads on heterogeneous platforms under bounded multi-port model. In
Parallel and Distributed Processing, 2008. pages 1-7.
5- R. C. Fernandez, M. Migliavacca, E. Kalyvianak and P. Pietzuch. Integrating
scale out and fault tolerance in stream processing using operator state
management, in: SIGMOD, 2013, pp. 725-736.
Calle 120 y 50 – 2do. piso (1900)
TEL-FAX: (54) 221-4273235
2
La Plata http://postgrado.info.unlp.edu.ar
E-Mail: [email protected]
UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE INFORMÁTICA
Secretaria de Postgrado
6- Q. Gan and T. Suel: Improved techniques for result caching in web search
engines. WWW 2009: 431-440.
7- A. Grama. Introduction to parallel computing. Pearson Education. 2003.
8- V. Gulisano, R. Jim_enez-Peris, M. Pati~no-Mart__nez, C. Soriente and P.
Valduriez. Streamcloud: An elastic and scalable data streaming system,
Trans. Parallel Distrib. Syst. 23 (12) (2012) 2351-2365.
9- G. Hager-Gerhard Wellein. Introduction to High Performance Computing for
Scientists and Engineers. Chapman & Hall/CRC. Computational Science
Series. 2011.
10- R. Hoffmann, M. Korch and T. Rauber. Performance Evaluation of Task Pools
Based on Hardware Synchronization. In Supercomputing Conference. 2004.
11- A. Jacobs. The pathologies of big data. Communications of the ACM,
52(8):36-44, 2009.
12- E. Koskinen, M. Parkinson and M. Herlihy. Coarse-Grained Transactions. In
POPL, 2010.
13- E. Lusk and C. Anthony. Early experiments with the OpenMP/MPI hybrid
programming model. IWOMP'08 Proceedings of the 4th international
conference on OpenMP in a new era of parallelism. 2008.
14- K. G. S. Madsen, P. Thyssen and Y. Zhou. Integrating fault-tolerance and
elasticity in a distributed data stream processing system, in: SSDBM, 2014,
p. 48.
15- A. Montresor and M. Jelasity. PeerSim: A Scalable P2P Simulator. Proc. of the
9th Int. Conference on Peer-to-Peer. Pp. 99-100 , 2009.
16- L. Neumeyer, B. Robbins, A. Nair and A. Kesari. S4: Distributed Stream
Computing Platform. Pages 170 – 177. International Conference on Data
Mining Workshops (ICDMW), 2010.
17- B. Satzger, W. Hummer, P. Leitner and S. Dustdar. Esc: Towards an elastic
stream computing platform for the cloud, in: CLOUD, 2011, pp. 348-355.
18- The OpenMP API specification for parallel programming. http://openmp.org
Calle 120 y 50 – 2do. piso (1900)
TEL-FAX: (54) 221-4273235
3
La Plata http://postgrado.info.unlp.edu.ar
E-Mail: [email protected]
UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE INFORMÁTICA
Secretaria de Postgrado
19- A. Toshniwal, S. Taneja, A. Shukla, K. Ramasamy, J. M. Patel, S. Kulkarni, J.
Jackson, K. Gade, M. Fu, J. Donham, N. Bhagat, S. Mittal and D. Ryaboy.
Storm@twitter, in: SIGMOD, 2014, pp. 147-156.
20- L. G. Valiant. A Bridging Model for Multi-core Computing.In ESA, 2008.
21- L. G. Valiant. A Bridging Model for Parallel Computation Comm. ACM, 33(8):
103-111, 1990.
Calle 120 y 50 – 2do. piso (1900)
TEL-FAX: (54) 221-4273235
4
La Plata http://postgrado.info.unlp.edu.ar
E-Mail: [email protected]