Data mining (DM; dolování z dat nebo vytěžování dat) je široce používanou metodikou pro práci s rozsáhlými datovými soubory, často však provázenou nepochopením nebo s přehnaným očekáváním. Výjimkou není ani klinický výzkum pracující s rozsáhlými a heterogenními soubory dat. DM obecně využívá metod, které jsou dostupné i v běžných statistických nástrojích, nicméně nabízí jednotlivé postupy v souvislostech a vazbách, které ve formě standardizované komplexní metodiky pokrývají všechny fáze zpracování dat od sběru až po interpretaci. Ve skutečnosti jde tedy o metodický koncept zahrnující velkou šíři metod a způsobů práce. Celý systém je podřízen jedinému cíli, nalézt v datech zajímavé, netriviálně skryté, ale potenciálně užitečné informace. Hovoříme-li o dolování z dat, máme tedy na mysli spíše než speciální statistické metody jejich tvůrčí skloubení. Tato koncepce byla využita i při přípravě výukového kurzu „Zavedení technologie data miningu a analýzy dat genových expresních map do výuky“ dostupného v rámci e-learningového portálu Lékařské fakulty Masarykovy univerzity
OBSAH
A. Co musíte vědět než se pustíte do data miningu
1. Co je data mining
1.1. CRISP-DM
2. Nástroje data-miningu
2.1. Přehled SW nástrojů
2.2. Software Statistica Miner a jeho pracovní prostředí
2.3. Software Clementine a jeho pracovní prostředí: část 1,část 2
3. Data a jejich uložení
4. Základy analýzy dat – biostatistika jako předpoklad data-miningu
4.1. Data a informace
4.2. Data a jejich prezentace: základ statistické analýzy
4.3. Jak vznikají informace
4.4. Základní typy dat
4.5. Modelová rozložení
4.6. Sumární statistika
4.7. Strategie sumarizace a zviditelnění dat
4.8. Provádění odhadů
4.9. Testy hypotéz – úvod
4.10. Předpoklady a pojmy statistických testů
4.11. Statistické testy o parametrech jednoho výběru
4.12. Statistické testy parametrech dvou výběrů
4.13. Binomické rozložení
4.14. Binomický test
4.15. Analýza kontingenčních tabulek
4.16. Poissonovo rozložení
4.17. Analýza rozptylu
4.18. Korelace a regrese
B. Metody data – miningu
5. Vstupní data pro vícerozměrné analýzy
6. Zjednodušení dat a hledání vztahů
6.1. Přehled metod a jejich teorie
6.2. Analýza hlavních komponent v programu Statistica
6.3. Faktorová analýza v programu Statistica
6.4. Korespondenční analýza v programu Statistica
6.5. Kanonická analýza v programu Statistica
6.6. Multidimensional scaling v programu Statistica, příloha - matematické pozadí vícerozměrných neparametrických metod
7. Shlukování
7.1. Přehled metod a jejich teorie
7.2. Shlukování v programu Statistica
8. Modelování, klasifikace a predikce
8.1. Principy regresního modelování
8.2. Zobecněné lineární modely
8.3. Regresní modelování v programu Statistica
8.4. Rozhodovací a regresní stromy
8.5. Rozhodovací a regresní stromy v programu Statistica
8.6. Diskriminační analýza
8.7. Diskriminační analýza v programu Statistica
8.8. Metody strojového učení
8.9. Naivní Bayesovské klasifikátory v programu Statistica
8.10. Support Vector Machines v programu Statistica
8.11. Nearest neighbours metoda v programu Statistica
8.12. Asociační pravidla
8.13. Neuronové sítě
8.14. Neuronové sítě v programu Statistica
C. Data mining prakticky
9. Případová studie I: Analýza dat microrrays pomocí data-miningu
9.1. Popis problému, jeho řešení a výsledky
9.2. Načtení dat a selekce významných genů: část 1, část 2
9.3. Logistická regrese nad daty microarrays
9.4. Rozhodovací stromy nad daty microarrays
9.5. Strojové učení nad daty microarrays
9.6. Zdrojová data případové studie
4-D hodnocení:
Skripta a návody |
Edukační weby a atlasy |
Digitální video |
Prezentace a animace |
Obrazový materiál – kasuistiky |
E-learningové kurzy (LMS) |
Nerecenzováno |
Základní úroveň |
Pokročilá úroveň |
Specializační úroveň |
Komplexní úroveň |
HodnoceníZvolte prosím dosaženou úroveň vzdělání a poté ohodnoťte výukový materiál především z hlediska vhodnosti materiálu pro samostudium.
Student – student bakalářského nebo magisterského stupně
Absolvent – absolvent bakalářského nebo magisterského stupně Ph.D. absolvent – postgraduální student, absolvent Ph.D. studia, odborný asistent, ...
%
Ohodnoťte hodnotitjako první tento článek! |
Obsah článku podléhá licenci Creative Commons Uveďte autora-Neužívejte dílo komerčně-Nezasahujte do díla 3.0 Česko
Klíčová slova: data mining, statistika, vícerozměrná analýza, velké datové soubory, databáze
citace: Jiří Jarkovský, Danka Némethová, Eva Gelnarová, Eva Budinská, Klára Kubošová, Lukáš Kokrment, Ladislav Dušek: Zavedení technologie data miningu a analýzy dat genových expresních map do výuky. Multimediální podpora výuky klinických a zdravotnických oborů :: Portál Lékařské fakulty Masarykovy univerzity [online] , [cit. 21. 11. 2024]. Dostupný z WWW: https://portal.med.muni.cz/clanek-318-zavedeni-technologie-data-miningu-a-analyzy-dat-genovych-expresnich-map-do-vyuky.html. ISSN 1801-6103.