Použití klasifikace v dolování dat

Klasifikace je technikou dolování dat, která přiřazuje kategorie ke sběru dat, aby pomohla při přesnějších predikcích a analýzách. Také volal někdy nazvaný a Rozhodovací strom , klasifikace je jednou z několika metod určených k tomu, aby analýza velkých datových souborů byla účinná.

Proč klasifikace?

Velmi rozsáhlé databáze se stávají normou v dnešním světě velké údaje . Představte si databázi s více terabajty dat - terabajt je jeden bilion bajtů dat.

Samotný Facebook zkracuje 600 terabajtů nových dat každý den (od roku 2014, kdy naposledy uvedl tyto specifikace). Primárním úkolem velkých dat je, jak to udělat smysl.

Úplný objem není jediným problémem: velké údaje mají tendenci být různorodé, nestrukturované a rychle se měnící. Zvažte audio a video data, příspěvky v sociálních médiích, 3D data nebo geoprostorová data. Tento druh dat není snadno kategorizován ani organizován.

Aby bylo možné tuto výzvu splnit, byla vytvořena řada automatických metod pro získávání užitečných informací klasifikace .

Jak funguje klasifikace

Při nebezpečí, že se dostaneme příliš daleko do tech-mluvit, pojďme diskutovat o tom, jak funguje klasifikace. Cílem je vytvořit soubor klasifikačních pravidel, které budou odpovídat na otázku, rozhodovat nebo předpovídat chování. Pro začátek je vytvořena sada výcvikových dat, která obsahuje určitou sadu atributů i pravděpodobný výsledek.

Úkolem algoritmu klasifikace je zjistit, jak tento atribut dosáhne svého závěru.

Scénář: Snad společnost s kreditními kartami se snaží zjistit, které vyhlídky by měly obdržet nabídku kreditní karty.

Může se jednat o sadu výcvikových údajů:

**Výcvikové údaje**

název	Stáří	Rod	Roční příjem	Nabídka platební karty
John Doe	25	M	$39,500	Ne
Jane Doe	56	F	$125,000	Ano

Sloupce "prediktor" Stáří , Rod , a Roční příjem určit hodnotu "atributu prediktoru" Nabídka platební karty . V tréninku je známý atribut prediktoru. Klasifikační algoritmus se pak pokusí zjistit, jak byla hodnota atributu prediktora dosažena: jaké vztahy existují mezi přediktory a rozhodnutím? Vypracuje soubor pravidel předpovědí, obvykle příkaz IF / THEN, například:

IF (věk> 18 let nebo věk <75) A roční příjem> 40 000 THEN Nabídka platební karty = ano

Je zřejmé, že je to jednoduchý příklad a algoritmus by potřeboval mnohem větší vzorkování dat než ty dva zde zobrazené záznamy. Pravidla predikce jsou pravděpodobně mnohem složitější, včetně podřízených pravidel pro zachycení detailů atributů.

Dále je algoritmu dána "sada předpovědí" dat, která má být analyzována, ale v této sadě chybí atribut (nebo rozhodnutí) predikce:

**Prediktor Data**

název	Stáří	Rod	Roční příjem	Nabídka platební karty
Jack Frost	42	M	$88,000
Mary Murrayová	16	F	$0

Tato data o prediktoru pomáhají odhadovat přesnost pravidel předpovídání a pravidla se pak vylepšují, dokud vývojář nepovažuje předpovědi za efektivní a užitečné.

Každodenní příklady klasifikace

Klasifikace a další techniky dolování dat jsou za naši každodenní zkušenost jako spotřebitelé.

Předpovědi počasí mohou použít klasifikaci, aby bylo možné ohlásit, zda bude den deštivý, slunečný nebo zamračený. Lékařská profese by mohla analyzovat zdravotní stav, aby mohla předpovědět zdravotní výsledky. Typ klasifikační metody, Naive Bayesian, využívá podmíněnou pravděpodobnost pro kategorizaci nevyžádaných e-mailů. Od zjišťování podvodů až po nabídky produktů je klasifikace každodenně za zákulisí analýzy dat a vytváření předpovědí.