SylabUZ

Generate PDF for this page

Web mining - course description

General information
Course name Web mining
Course ID 11.3-WE-BEP-EZI
Faculty Faculty of Computer Science, Electrical Engineering and Automatics
Field of study E-business
Education profile practical
Level of studies First-cycle studies leading to Engineer's degree
Beginning semester winter term 2021/2022
Course information
Semester 5
ECTS credits to win 4
Course type obligatory
Teaching language polish
Author of syllabus
  • dr hab. inż. Artur Gramacki, prof. UZ
Classes forms
The class form Hours per semester (full-time) Hours per week (full-time) Hours per semester (part-time) Hours per week (part-time) Form of assignment
Lecture 15 1 9 0,6 Credit with grade
Project 30 2 18 1,2 Credit with grade

Aim of the course

  1. Zapoznanie studentów z podstawowymi modelami i technikami odkrywania informacji znajdujących się w sieci Internet.
  2. Zapoznanie ze sposobami działania algorytmów text mining.
  3. Ukształtowanie umiejętności eksploracji zasobów internetowych w oparciu o oprogramowanie statystyczne.

Prerequisites

podstawy analityki biznesowej

Scope

Rodzaje informacji w internecie. Wprowadzenie do tematyki Text Mining. Przeszukiwanie informacji tekstowych. Wstępne przetwarzanie dokumentów tekstowych: usuwanie zbędnych elementów z dokumentów tekstowych (stop lista, znaki interpunkcyjne, liczby itp.), sprowadzanie słów do postaci rdzenia znaczeniowego za pomocą algorytmu Portera oraz wybranych bibliotek informatycznych. Wyszukiwanie według słów kluczowych. Organizacja dokumentów w postaci macierzy term-dokument (ang. term-document matrix, TDM) oraz różne sposoby obliczania wagi poszczególnych termów (TF – term frequency, IDF – inverse document frequency). Miary podobieństwa wektorów oraz wykorzystanie ich do tworzenia rankingu wyszukanych dokumentów. Porównywanie jakości działania wyszukiwarek dokumentów tekstowych za pomocą różnych miar, np. precision-recall, krzywe ROC. Wybrane elementy algebry liniowej i zastosowanie ich do zadania aproksymacji macierzy TDM (ang. Low-rank approximation), omówienie korzyści z wykonanej aproksymacji. Różne techniki grupowania i klasyfikacji dokumentów. Ranking dokumentów oparty o strukturę połączeń: algorytm PageRank; autorytety i koncentratory. Tworzenie podsumowań dokumentów poprzez automatyczny wybór najważniejszych zdań oraz najważniejszych słów (termów). Tworzenie chmur słów (ang. wordclouds). Analiza sentymentu, jako technika badania wydźwięku dokumentów (np. pozytywny, negatywny, neutralny itp.). Omówienie wybranych narzędzi informatycznych do realizacji zadań z dziedziny Text Mining.

Teaching methods

Wykład - wykład konwencjonalny.
Projekt - zajęcia praktyczne w laboratorium komputerowym.

Learning outcomes and methods of theirs verification

Outcome description Outcome symbols Methods of verification The class form

Assignment conditions

Wykład – uzyskanie oceny pozytywnej ze sprawdzianu w formie pisemnej, przeprowadzonego na koniec semestru.


Projekt – ocena końcowa stanowi sumę ważoną ocen uzyskanych za realizację poszczególnych elementów projektu oraz formy jego prezentacji. Wkład poszczególnych elementów oceny: ocena projektu - 75%, wizualna forma prezentacji projektu 25%.


Ocena końcowa = 50 % oceny zaliczenia z formy zajęć wykład + 50 % oceny zaliczenia z formy zajęć projekt.

Recommended reading

  1. Markov, Z., Larose, D.T.: Eksploracja zasobów internetowych: Analiza struktury, zawartości i użytkowania sieci WWW, Warszawa, PWN, 2009.
  2. Chakraborty, G., Pagolu, M., Garla, S.: Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS, Cary, SAS Press, 2013.
  3. Ch. Aggarwal, Ch-X Zhai, C. O’Neil: Mining Text Data, Springer, 2012.
  4. D. Robinson, J. Silge: Text Mining with R, O’Reilly, 2017.
  5. Julia Silge, David Robinson: Text Mining with R. A Tidy Approach, O’Reilly, 2017.
  6. Michael W. Berry, Murray Browne: Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, 2005.
  7. Dokumentacja systemu R (https://www.r-project.org/)

Further reading

Notes


Modified by dr hab. inż. Marek Kowal, prof. UZ (last modification: 21-04-2021 08:39)