Multimediální podpora výuky klinických a zdravotnických oborů :: Portál LF MU
Projekt MEFANET (MEdical FAculties Educational NETwork)
Lékařská fakulta Masarykovy univerzity
Rada pro informační technologie v medicíně, Lékařská fakulta Masarykovy univerzity
Institut biostatistiky a analýz, Lékařská a Přírodovědecká fakulta Masarykovy univerzity

Zavedení technologie data miningu a analýzy dat genových expresních map do výuky

Zavedení technologie data miningu a analýzy dat genových expresních map do výuky

Data mining (DM; dolování z dat nebo vytěžování dat) je široce používanou metodikou pro práci s rozsáhlými datovými soubory, často však provázenou nepochopením nebo s přehnaným očekáváním. Výjimkou není ani klinický výzkum pracující s rozsáhlými a heterogenními soubory dat. DM obecně využívá metod, které jsou dostupné i v běžných statistických nástrojích, nicméně nabízí jednotlivé postupy v souvislostech a vazbách, které ve formě standardizované komplexní metodiky pokrývají všechny fáze zpracování dat od sběru až po interpretaci. Ve skutečnosti jde tedy o metodický koncept zahrnující velkou šíři metod a způsobů práce. Celý systém je podřízen jedinému cíli, nalézt v datech zajímavé, netriviálně skryté, ale potenciálně užitečné informace. Hovoříme-li o dolování z dat, máme tedy na mysli spíše než speciální statistické metody jejich tvůrčí skloubení. Tato koncepce byla využita i při přípravě výukového kurzu „Zavedení technologie data miningu a analýzy dat genových expresních map do výuky“ dostupného v rámci e-learningového portálu Lékařské fakulty Masarykovy univerzity


OBSAH

A. Co musíte vědět než se pustíte do data miningu

1.     Co je data mining
1.1.  CRISP-DM

2.     Nástroje data-miningu
2.1.  Přehled SW nástrojů
2.2.  Software Statistica Miner a jeho pracovní prostředí
2.3.  Software Clementine a jeho pracovní prostředí: část 1,část 2
3.     Data a jejich uložení

4.     Základy analýzy dat – biostatistika jako předpoklad data-miningu

4.1.  Data a informace
4.2.  Data a jejich prezentace: základ statistické analýzy
4.3.  Jak vznikají informace
4.4.  Základní typy dat
4.5.  Modelová rozložení
4.6.  Sumární statistika
4.7.  Strategie sumarizace a zviditelnění dat
4.8.  Provádění odhadů
4.9.  Testy hypotéz – úvod
4.10. Předpoklady a pojmy statistických testů
4.11. Statistické testy o parametrech jednoho výběru
4.12. Statistické testy parametrech dvou výběrů
4.13. Binomické rozložení
4.14. Binomický test
4.15. Analýza kontingenčních tabulek
4.16. Poissonovo rozložení
4.17. Analýza rozptylu
4.18. Korelace a regrese


B. Metody data – miningu

5.     Vstupní data pro vícerozměrné analýzy
6.     Zjednodušení dat a hledání vztahů
6.1.  Přehled metod a jejich teorie
6.2.  Analýza hlavních komponent v programu Statistica
6.3.  Faktorová analýza v programu Statistica
6.4.  Korespondenční analýza v programu Statistica
6.5.  Kanonická analýza v programu Statistica
6.6.  Multidimensional scaling v programu Statistica, příloha - matematické pozadí vícerozměrných neparametrických metod

7.      Shlukování
7.1.  Přehled metod a jejich teorie
7.2.  Shlukování v programu Statistica
8.     Modelování, klasifikace a predikce
8.1.  Principy regresního modelování
8.2.  Zobecněné lineární modely
8.3.  Regresní modelování v programu Statistica
8.4.  Rozhodovací a regresní stromy
8.5.  Rozhodovací a regresní stromy v programu Statistica
8.6.  Diskriminační analýza
8.7.  Diskriminační analýza v programu Statistica
8.8.  Metody strojového učení
8.9.  Naivní Bayesovské klasifikátory v programu Statistica
8.10. Support Vector Machines v programu Statistica
8.11. Nearest neighbours metoda v programu Statistica
8.12. Asociační pravidla
8.13. Neuronové sítě
8.14. Neuronové sítě v programu Statistica

C. Data mining prakticky

9.     Případová studie I: Analýza dat microrrays pomocí data-miningu
9.1.  Popis problému, jeho řešení a výsledky
9.2.  Načtení dat a selekce významných genů: část 1, část 2
9.3.  Logistická regrese nad daty microarrays
9.4.  Rozhodovací stromy nad daty microarrays
9.5.  Strojové učení nad daty microarrays
9.6.  Zdrojová data případové studie

Klíčová slova: data mining, statistika, vícerozměrná analýza, velké datové soubory, databáze

4-D hodnocení:

typ
Skripta a návody
typ
Edukační weby a atlasy
typ
Digitální video
typ
Prezentace a animace
typ
Obrazový materiál – kasuistiky
typ
E-learningové kurzy (LMS)
result
Nerecenzováno

level
Základní úroveň
level
Pokročilá úroveň
level
Specializační úroveň
level
Komplexní úroveň
   
Zvolte prosím dosaženou úroveň vzdělání a poté ohodnoťte výukový materiál především z hlediska vhodnosti materiálu pro samostudium.
Student – student bakalářského nebo magisterského stupně
Absolvent – absolvent bakalářského nebo magisterského stupně
Ph.D. absolvent – postgraduální student, absolvent Ph.D. studia, odborný asistent, ...
 
Ohodnoťte
jako první tento článek!
hodnotit

Creative Commons LicenseObsah článku podléhá licenci Creative Commons Uveďte autora-Neužívejte dílo komerčně-Nezasahujte do díla 3.0 Česko
autor: Jiří Jarkovský, Danka Némethová, Eva Gelnarová, Eva Budinská, Klára Kubošová, Lukáš Kokrment, Ladislav Dušek | pracoviště: Institut biostatistiky a analýz | publikováno: 25.11.2005 | poslední úpravy: 25.10.2011
citace: Jarkovský Jiří, Danka Némethová, Eva Gelnarová, Eva Budinská, Klára Kubošová, Lukáš Kokrment, Ladislav Dušek: Zavedení technologie data miningu a analýzy dat genových expresních map do výuky. Multimediální podpora výuky klinických a zdravotnických oborů :: Portál Lékařské fakulty Masarykovy univerzity [online] 25.11.2005, poslední aktualizace 25.10.2011 [cit. 2019-09-18] Dostupný z WWW: <http://portal.med.muni.cz/clanek-318-zavedeni-technologie-data-miningu-a-analyzy-dat-genovych-expresnich-map-do-vyuky.html>. ISSN 1801-6103.
 

Komentáře a diskuse

Vložit nový příspěvek:

Autor / e-mail: [ přihlášení/ověření uživatele ]
Titulek:
Text:
 
 Přidat štítek:   Štítek odeslán, děkujeme