SylabUZ

Generate PDF for this page

Data mining - course description

General information
Course name Data mining
Course ID 04.2-WE-BEP-ED
Faculty Faculty of Computer Science, Electrical Engineering and Automatics
Field of study E-business
Education profile practical
Level of studies First-cycle studies leading to Engineer's degree
Beginning semester winter term 2016/2017
Course information
Semester 2
ECTS credits to win 4
Course type obligatory
Teaching language polish
Author of syllabus
  • dr hab. inż. Marek Kowal, prof. UZ
Classes forms
The class form Hours per semester (full-time) Hours per week (full-time) Hours per semester (part-time) Hours per week (part-time) Form of assignment
Lecture 15 1 9 0,6 Credit with grade
Laboratory 30 2 18 1,2 Credit with grade

Aim of the course

Prezentacja oprogramowania wykorzystywanego do eksploracji danych. Zapoznanie słuchaczy z metodami czyszczenia danych. Prezentacja metod odkrywania asocjacji i sekwencji. Prezentacja metod klasteryzacji danych. Prezentacja metod klasyfikacji danych. Wykształcenie praktycznych umiejętności obsługi wybranych systemów eksploracji danych. Wykształcenie umiejętności w zakresie stosowania metod eksploracji danych w e-biznesie (segmentacji klientów, ocenie ryzyka kredytowego, strategii cross-sellingu, wykrywaniu nadużyć, ukierunkowanej reklamie).

 

Prerequisites

Scope

Przegląd i charakterystyka oprogramowania wykorzystywanego do eksploracji danych. Metody dostępu do baz danych z poziomu oprogramowani do eksploracji danych. Charakterystyka typowych danych biznesowych podlegających eksploracji. Problem eksploracji dużych wolumenów danych. Przykłady komercyjnych technologii eksploracji danych (IBM Watson Explorer, IBM DATA Mining, Microsoft, SAP, Oracle)

Przygotowanie danych do eksploracji. Odkrywanie danych nadmiarowych i odstających. Uzupełnianie danych brakujących. Próbkowanie danych.

Definicja problemu odkrywania wzorców asocjacji. Rodzaje reguł asocjacyjnych. Miary opisujące statystyczną ważności i siłę reguł asocjacji. Problem analizy koszyka zakupów. Złożoność obliczeniowa problemu odkrywania reguł asocjacji. Omówienie algorytmu Apriori i algorytmu Frequent Pattern Growth. Ćwiczenia praktyczne z wykorzystania poznanych metod odkrywania asocjacji.

Definicja problemu odkrywania wzorców sekwencji. Rodzaje reguł sekwencji. Miary opisujące statystyczną ważności i siłę wzorców sekwencji. Złożoność obliczeniowa problemu odkrywania wzorców sekwencji. Omówienie algorytmów: Generalized Sequential Pattern, Prefix Span oraz klasteryzacji sekwencji. Ćwiczenia praktyczne z wykorzystania poznanych metod odkrywania wzorców sekwencji.

Definicja zagadnienia klasteryzacji danych. Metody grupowania hierarchicznego. Metody grupowania iteracyjno-optymalizacyjnego. Miary odległości stosowane w klasteryzacji. Wyznaczanie charakterystyk klastrów. Metody szacowania liczby klastrów. Ćwiczenia praktyczne z wykorzystania poznanych metod klasteryzacji danych. 

Definicja zagadnienia klasyfikacji danych. Przygotowanie danych treningowych i testowych. Miary jakości klasyfikacji. Klasyfikacja danych za pomocą drzew klasyfikacyjnych, algorytmu k najbliższych sąsiadów, naiwnego klasyfikatora Bayesa, sieci neuronowych, algorytm wektorów nośnych. Ćwiczenia praktyczne z wykorzystania poznanych metod klasyfikacji danych. 

Zastosowanie metod eksploracji danych: w segmentacji klientów, ocenie ryzyka kredytowego, ukierunkowanej reklamie, strategii cross-sellingu i up-sellingu, wykrywaniu nadużyć.

 

Teaching methods

Wykład - wykład konwencjonalny z wykorzystaniem wideoprojektora.
Laboratorium - ćwiczenia praktyczne w laboratorium komputerowym.

 

Learning outcomes and methods of theirs verification

Outcome description Outcome symbols Methods of verification The class form

Assignment conditions

Wykład - warunkiem zaliczenia jest uzyskanie pozytywnych ocen z testów przeprowadzonych, co najmniej raz w semestrze.

Laboratorium - warunkiem zaliczenia jest uzyskanie pozytywnych ocen ze wszystkich ćwiczeń laboratoryjnych oraz kolokwiów i sprawdzianów przewidzianych w ramach laboratorium.

Składowe oceny końcowej = wykład: 50% + laboratorium: 50%

Recommended reading

  1. Hand, D., Mannila, H., Smyth, P., Eksploracja danych, Warszawa, WNT, 2005.
  2. Larose, D. T., Odkrywanie wiedzy z danych, Warszawa, PWN, 2006.
  3. Larose, D. T., Metody i modele eksploracji danych, Warszawa, PWN, 2008.
  4. Kwiatkowska, A. M., Systemy wspomagania decyzji: jak korzystać z wiedzy i informacji w praktyce, Warszawa, PWN, 2007.
  5. Han, J., Kamber, M., Data Mining: Concepts and Techniques, Morgan Kaufmann, 2011.

Further reading

  1. Stąpor, K., Automatyczna klasyfikacja obiektów, EXIT, 2005.
  2. Berry, M. J. A., Linoff, G. S., Mastering Data Mining: The Art and Science of Customer Relationship Management, Wiley, 1999.

Notes


Modified by dr hab. inż. Marcin Mrugalski, prof. UZ (last modification: 29-09-2016 21:13)