The k- algoritmus shlukování je nástroj pro dolování dat a strojový učení, který slouží k seskupování pozorování do skupin souvisejících pozorování bez předchozí znalosti těchto vztahů. Vzorkováním se algoritmus pokusí ukázat, do které kategorie nebo clusteru patří data, přičemž počet clusterů je definován hodnotou k.
The k- znamená, že algoritmus je jednou z nejjednodušších technik klastrování a je běžně používán v lékařském zobrazování, biometrii a souvisejících oborech. Výhoda k- znamená shlukování tím, že spíše informuje o vašich datech (pomocí své neověřené podoby), než aby jste museli algoritmus o datách na začátku poučit (pomocí supervizovaného formuláře algoritmu).
To je někdy označováno jako Lloydův algoritmus, zvláště v kruzích počítačových věd, protože standardní algoritmus byl nejprve navržen Stuart Lloyd v roce 1957. Termín "k-prostředky" byl vytvořen v roce 1967 James McQueen.
Jak algoritmus K-znamená Algoritmus
The k- znamená algoritmus evoluční algoritmus, který získává své jméno z jeho způsobu fungování. Algoritmus shlukuje pozorování do k skupiny, kde k jako vstupní parametr. Pak přiřadí každému pozorování clusterem na základě pozorování blízké středu clusteru. Střední hodnota clusteru je pak přepočítána a proces začíná znovu. Zde funguje algoritmus:
- Algoritmus libovolně vybírá k body jako počáteční centra clusterů (prostředky).
- Každý bod datové sady je přiřazen uzavřenému clusteru na základě euklidovské vzdálenosti mezi každým bodem a každým středem clusteru.
- Každé centrum clusteru je přepočteno jako průměr bodů v tomto clusteru.
- Kroky 2 a 3 opakujte, dokud se clustery nepřiblíží. Konvergence může být definována odlišně v závislosti na implementaci, ale normálně znamená, že ani při změnách kroků 2 a 3 se žádné změny nezmění, nebo že změny nedělají podstatný rozdíl v definici klastrů.
Výběr počtu klastrů
Jedním z hlavních nevýhod k- znamená shlukování je skutečnost, že musíte zadat počet klastrů jako vstup do algoritmu. Jak je navrženo, algoritmus není schopen určit vhodný počet clusterů a závisí na tom, že uživatel ji předem identifikuje.
Například pokud byste měli skupinu lidí, kteří mají být shlukováni na základě binární pohlavní identity jako muži nebo ženy, k- znamená algoritmus pomocí vstupu k = 3 by přinutilo lidi k třech skupinám, kdyby jen dva, nebo vstupy k = 2, by bylo přírodnější.
Podobně, kdyby byla skupina jednotlivců snadno seskupena na základě domovského stavu a zavolala jste k- znamená algoritmus se vstupem k = 20, výsledky mohou být příliš zobecněné, aby byly účinné.
Z tohoto důvodu je často dobré experimentovat s různými hodnotami k identifikovat hodnotu, která nejlépe vyhovuje vašim datům. Můžete také chtít prozkoumat použití jiných algoritmů dolování dat ve vašem hledání strojově-naučených znalostí.