Big data technologies - course description

General information

Course name	Big data technologies
Course ID	11.3-WE-BEP-TBD
Faculty	Faculty of Computer Science, Electrical Engineering and Automatics
Field of study	E-business
Education profile	practical
Level of studies	First-cycle studies leading to Engineer's degree
Beginning semester	winter term 2016/2017

Course information

Semester	3
ECTS credits to win	6
Course type	obligatory
Teaching language	polish
Author of syllabus	dr inż. Mariusz Jacyno

Classes forms

The class form	Hours per semester (full-time)	Hours per week (full-time)	Hours per semester (part-time)	Hours per week (part-time)	Form of assignment
Lecture	30	2	18	1,2	Credit with grade
Project	30	2	18	1,2	Credit with grade

Aim of the course

Głównym celem przedmiotu jest zaznajomienie studentów z istniejącymi rozwiązaniami do składowania oraz przetwarzaniu dużych zbiorów danych (big data) oraz wykształceniu w nich umiejętności racjonalnego doboru istniejących technologii pod względem dopasowania do rozpatrywanego problemu. Studenci zapoznają się z następującymi technologiami: SQL, Apache Hadoop, Apache Spark, ElasticSearch oraz SAS. Rozpatrywane przykłady użycia technologii będą dotyczyły takich problemów jak: transfer, składowanie oraz przetwarzanie big data, koszt wdrożenia oraz utrzymania infrastruktury, skalowalność oraz niezawodność rozwiązań.

Prerequisites

Projektowanie i programowanie obiektowe.

Scope

Geneza oraz charakterystyka big data. Zastosowanie big data w inteligencji biznesowej oraz analityce. Techniki składowania dużych wolumenów danych. Systemy relacyjne typu SQL (MySQL). Dedykowane technologie oraz platformy do przetwarzania oraz analizy big data (Apache Hadoop, Apache Spark, ElasticSearch oraz SAS). Przetwarzanie równoległe z wykorzystaniem paradygmatu MapReduce. Rozproszone bazy kolumnowe typu NoSQL (Hbase).

Przykłady wykorzystania technologii big data. Analiza strumieni danych, składowanie oraz przetwarzanie dużych wolumenów danych w trybie wsadowym, analityka w czasie rzeczywistym (w pamięci).

Analiza funkcjonalności platform big data. Dzielenie, repliki, balansowanie obciążeniem, odporność na uszkodzenia podczas składowania/udostępniania danych. Techniki dostępu do danych. Wizualizacja oraz eksploracja danych w czasie rzeczywistym z wykorzystaniem platformy ElasticSearch, Apache Spark oraz SAS Visual Analytics.

Omówienie problemów związanych z kosztem wdrożenia oraz utrzymania infrastruktury, skalowalności oraz niezawodności omawianych rozwiązań.

Zrozumienie zasad pracy rozproszonych baz danych typu NoSQL (Hadoop oraz ElasticSearch). Stworzenie aplikacji (w Javie) strumieniującej dane do powyższych systemów. Stworzenie prostego algorytmu MapReduce do równoległego przetwarzania danych.

Teaching methods

Wykład - wykład konwencjonalny z wykorzystaniem wideoprojektora.

Laboratorium - zajęcia praktyczne w laboratorium komputerowym.

Learning outcomes and methods of theirs verification

Outcome description	Outcome symbols	Methods of verification	The class form

Assignment conditions

Wykład - sprawdzian w formie pisemnej i/lub ustnej, realizowany na koniec semestru.

Laboratorium – ocena końcowa stanowi sumę ważoną ocen uzyskanych za realizację poszczególnych ćwiczeń laboratoryjnych oraz sprawdzianów kontrolnych weryfikujących przygotowanie merytoryczne do ćwiczeń.

Ocena końcowa = 50 % oceny zaliczenia z formy zajęć wykład + 50 % oceny zaliczenia z formy zajęć laboratorium.

Notes

Modified by dr hab. inż. Marcin Mrugalski, prof. UZ (last modification: 03-10-2016 00:01)

Generate PDF for this page