Dáta

Prácu so SimplexDivide a SimplexImpera si môžete vyskúšať na nasledujúcich vzorkách dát:

file-iconVzorka dát na stiahnutie

A. Shape - in parts - video 11

Ak nastavíte parameter Similarity na hodnotu A. Shape - in parts, potom aplikácia SimplexDivide bude vytvárať zhluky na základe podobnosti tvaru častí kriviek. Nie je pritom rozhodujúce, kde v grafe sa podobné krivky nachádzajú. Inak povedané, nie je rozhodujúce, či sú hodnoty kriviek vysoké alebo nízke. Rozhodujúci je tvar kriviek – miera klesania a stúpania v častiach kriviek.

Nastavenie A. Shape - in parts vyhodnocuje podobnosť kriviek v kontexte susediacich bodov kriviek, ktoré tvoria časti kriviek. Preto výsledok závisí od poradia stĺpcov vstupného súboru.

fig-1

Obr.1 Vstupné dáta demonštračného príkladu dealer.csv

Dobrým demonštračným príkladom sú dáta v súbore dealer.csv. V tomto súbore každá krivka reprezentuje obchodnú aktivitu jedného dealera v období 24 mesiacov. Ukážka vstupných dát je na Obr.1 (panel CLUSTER aplikácie SimplexImpera). Graf kriviek súboru dealer.csv je na Obr.2 (panel GRAPH aplikácie SimplexImpera).

fig-2

Obr.2 Grafické zobrazenie údajov o 100 dealeroch v súbore dealer.csv

V tomto príklade je cieľom rozdeliť krivky – dealerov do zhlukov tak, aby sme získali informáciu o vývoji ich obchodnej aktivity. To znamená, že požadovaná informácia má vypovedať o klesajúcich alebo stúpajúcich trendoch obchodnej aktivity dealerov. V tomto prípade nás teda nezaujíma veľkosť objemu obchodnej aktivity, ale jej pokles alebo nárast počas sledovaného obdobia. Preto je v tomto príklade rozhodujúci tvar v častiach kriviek, čomu zodpovedá nastavenie A. Shape - in parts.

fig-3

Obr.3 Spracovanie príkladu dealer.csv aplikáciou SimplexDivide

Výsledok rozdelenia dealerov do zhlukov si môžete prezrieť v aplikácii SimplexImpera, ak si tento príklad vyskúšate. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor dealer.csv (SimplexManualsample). Hodnoty parametrov ponechajte bez zmeny a kliknite na tlačidlo Divide (Obr.3). Uložte výsledok kliknutím na Yes. Spustite aplikáciu SimplexImpera a zvoľte výsledok dealer_A_W_W_0_0spx. Môžete si prezrieť identifikované zhluky. Grafy z všetkých piatich zhlukov rozdelenia sú na Obr.4 a Obr.5.

fig-4

Obr.4 Zhluk kriviek - dealerov s viacmenej vyrovnanou obchodnou aktivitou

Na Obr.4 je zobrazený zhluk 26 dealerov (panel GRAPH aplikácie SimplexImpera), ktorých obchodná aktivita je počas sledovaného obdobia viacmenej vyrovnaná (bledou farbou v pozadí sú zobrazené krivky všetkých 100 dealerov). Z obrázku je zrejmé, že v zhluku sa nachádzajú dealeri s vysokým aj nízkym objemom obchodnej aktivity, pretože veľkosť objemu nás nezaujímal. Zaujímal nás vývoj obchodnej aktivity – tvar kriviek.

fig-5

Obr.5 Zhluky kriviek - dealerov so špecifickou obchodnou aktivitou

Na Obr.5 sú zostávajúce identifikované zhluky. Napríklad v druhom zhluku je 23 dealerov s klesajúcou obchodnou aktivitou.

Pripomeňme, že pre nastavenie A. Shape - in parts výsledok závisí od poradia stĺpcov vstupného súboru. Ak by sme zamiešali poradie stĺpcov pre mesiace január 2001 – december 2002, potom by bol výsledok odlišný. A bol by to v tomto demonštračnom príklade aj nezmysel, keby sme zamiešali chronologické poradie mesiacov.

Nastavenia SimplexDivide: similarity: A – shape in parts, modification: W - without data modification, Analysis: W - without data analysis, Strictness: 0

file-iconVzorka dát na stiahnutie

B. Shape - in points - video 12

Ak nastavíte parameter Similarity na hodnotu B. Shape - in points, potom aplikácia SimplexDivide bude vytvárať zhluky kriviek na základe podobnosti tvaru kriviek v jednotlivých bodoch kriviek. Nie je pritom rozhodujúce, kde v grafe sa podobné krivky nachádzajú. Inak povedané, nie je rozhodujúce, či sú hodnoty kriviek vysoké alebo nízke. Rozhodujúci je tvar kriviek v jednotlivých bodoch kriviek – miera poklesu alebo nárastu oproti všetkým ostatným bodom krivky.

Nastavenie B. Shape - in points vyhodnocuje podobnosť kriviek v jednotlivých bodoch kriviek, bez ohľadu na kontext susediacich bodov častí kriviek. Preto výsledok nezávisí od poradia stĺpcov vstupného súboru.

fig-1

Obr.1 Vstupné dáta demonštračného príkladu patient.csv

Dobrým demonštračným príkladom sú dáta v súbore patient.csv, ktorý nájdete v adresári SimplexManualsample. Súbor obsahuje 100 riadkov o pacientoch, ktorých zdravotný stav bol monitorovaný nejakým medicínskym prístrojom. Pre každého pacienta bolo prístrojom nameraných 14 hodnôt, ktoré sú uložené v stĺpcoch s kódovými názvami FGD, RFA, NBT, ..., PVD. Ukážka vstupných dát je na Obr.1 (panel CLUSTER aplikácie SimplexImpera). Graf kriviek súboru patient.csv je na Obr.2 (panel GRAPH aplikácie SimplexImpera).

p-fig-1

Obr.2 Grafické zobrazenie údajov o 100 pacientoch v súbore patient.csv

V tomto príklade je cieľom rozdeliť pacientov do zhlukov tak, aby pacienti v zhlukoch mali namerané hodnoty podobné v zmysle vzájomného poklesu alebo nárastu jednotlivých hodnôt. Niektorí pacienti majú namerané hodnoty celkovo vyššie, iní pacienti celkovo nižšie. Nezáleží pritom na poradí jednotlivých meraní. Chceme teda zistiť, aká je štruktúra tejto vzorky dát o pacientoch, a to v zmysle podobného poklesu alebo nárastu jednotlivých meraní oproti všetkým ostatným meraniam pacienta. Preto je v tomto príklade rozhodujúci tvar kriviek v jednotlivých bodoch kriviek, čomu zodpovedá nastavenie B. Shape - in points.

fig-3

Obr.3 Spracovanie príkladu patient.csv aplikáciou SimplexDivide

Výsledok rozdelenia užívateľov do zhlukov si môžete prezrieť v aplikácii SimplexImpera, ak si tento demonštračný príklad vyskúšate. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor patient.csv (SimplexManualsample). Parameter Similarity nastavte na B. Shape - in points a parameter Strictness nastavte na hodnotu 30. Ostatné hodnoty parametrov ponechajte bez zmeny, kliknite na tlačidlo Divide (Obr.3) a uložte výsledok. Spustite aplikáciu SimplexImpera a zvoľte výsledok patient_B_W_W_0_30spx. Môžete si prezrieť identifikované zhluky. Grafy dvoch zhlukov (z 11 zhlukov rozdelenia) sú na nasledujúcom Obr.4.

image008-patients

Obr.4 Grafy dvoch zhlukov výsledku rozdelenia (patient_B_W_W_0_30spx)

Z grafickej reprezentácie na Obr.4 je zreteľný rozdiel medzi zobrazenými zhlukmi. Namerané hodnoty pacientov sú evidentne v navzájom odlišnom tvare. Výsledné zhluky boli teda vytvorené na základe tvaru v jednotlivých bodoch kriviek – miery poklesu alebo nárastu oproti všetkým ostatným bodom krivky. A to je podstata nastavenia B. Shape - in points.

Pripomeňme, že rovnaký výsledok by sme získali, ak by bolo poradie stĺpcov vstupného súboru ľubovoľne zmenené (napr. HFP, RFA, FGD, ..., NBT). Pre nastavenie B. Shape - in points výsledok nezávisí od poradia stĺpcov vo vstupnom súbore, na rozdiel od nastavenia A. Shape - in parts.

Nastavenia SimplexDivide: similarity: B – shape in points, modification: W - without data modification, Analysis: W - without data analysis, Strictness: 30

file-iconVzorka dát na stiahnutie

C. Proximity – in parts - video 13

Ak nastavíte parameter Similarity na hodnotu C. Proximity - in parts, potom aplikácia SimplexDivide bude vytvárať zhluky kriviek na základe blízkosti častí kriviek. To znamená, že je rozhodujúce, kde v grafe sa podobné krivky nachádzajú, teda ako blízko seba sa nachádzajú. Podobnosť kriviek závisí od miery podobnosti číselných hodnôt v častiach kriviek. Krivky v každom identifikovanom zhluku budú mať tú vlastnosť, že číselné hodnoty v častiach kriviek budú približne rovnaké.

Nastavenie C. Proximity - in parts vyhodnocuje podobnosť kriviek v kontexte susediacich bodov kriviek, ktoré tvoria časti kriviek. Preto výsledok závisí od poradia stĺpcov vstupného súboru.

image002

Obr.1 Vstupné dáta demonštračného príkladu internet.csv

Dobrým demonštračným príkladom sú dáta v súbore internet.csv, ktorý nájdete v adresári SimplexManualsample. Súbor obsahuje 100 riadkov o aktivite zákazníkov internetového poskytovateľa. Každý riadok obsahuje údaje o dĺžke pripojenia jedného užívateľa internetu v 24 hodinách dňa, a to za obdobie niekoľkých týždňov. To znamená, že pre každého užívateľa obsahuje súbor 24 hodnôt – počet minút pripojenia v danej hodine dňa za sledované obdobie. Ukážka vstupných dát je na Obr.1 (panel CLUSTER aplikácie SimplexImpera). Graf kriviek vstupných dát internet.csv je na Obr.2 (panel GRAPH aplikácie SimplexImpera).

image004

Obr.2 Graf údajov o pripojení 100 užívateľov počas dňa (internet.csv)

V tomto príklade je cieľom rozdeliť krivky – užívateľov do zhlukov tak, aby sme získali informáciu o ich aktivite počas dňa. Chceme, aby v zhlukoch boli užívatelia, ktorí sú približne v rovnakom čase zhruba rovnako dlho pripojení k internetu. V tomto prípade nás teda zaujíma veľkosť dĺžky pripojenia užívateľov v podobných hodinách dňa. Preto je v tomto príklade rozhodujúca blízkosť častí kriviek, čomu zodpovedá nastavenie C. Proximity - in parts.

image006

Obr.3 Spracovanie príkladu internet.csv aplikáciou SimplexDivide

Výsledok rozdelenia užívateľov do zhlukov si môžete prezrieť v aplikácii SimplexImpera, ak si tento príklad vyskúšate. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor internet.csv (SimplexManualsample). Parameter Similarity nastavte na C. Proximity - in parts. Parameter Analysis nastavte na A. Statistical analysis - in row. Parameter Strictness nastavte na hodnotu 5. Ostatné hodnoty parametrov ponechajte bez zmeny, kliknite na tlačidlo Divide (Obr.3) a uložte výsledok. Spustite aplikáciu SimplexImpera a zvoľte výsledok internet_C_W_A_0_5spx. Grafy štyroch identifikovaných zhlukov sú na Obr.4.

image008

Obr.4 Grafy štyroch zhlukov výsledku rozdelenia (internet_C_W_A_0_5spx)

Z grafickej reprezentácie na Obr.4 je zrejmé, že užívatelia internetu v jednotlivých zhlukoch sú navzájom podobní objemom ich aktivity počas dňa. Napríklad v treťom zhluku sú užívatelia, ktorí majú vysokú aktivitu vo večerných až nočných hodinách dňa. Užívatelia v prvom zhluku majú tiež vyššiu aktivitu vo večerných hodinách, ale v menšom objeme dĺžky pripojenia. Výsledné zhluky boli teda vytvorené na základe podobnej dĺžky pripojenia počas častí dňa. A to je podstata nastavenia C. Proximity - in parts.

Pripomeňme, že pre nastavenie C. Proximity - in parts výsledok závisí od poradia stĺpcov vstupného súboru. Ak by sme zamiešali poradie stĺpcov pre jednotlivé hodiny dňa, potom by bol výsledok odlišný. A bol by to v tomto demonštračnom príklade aj nezmysel, keby sme zamiešali chronologické poradie hodín dňa.

Nastavenia SimplexDivide: similarity: C – proximity in parts, modification: W - without data modification, Analysis: A - statistical analysis in row, Strictness: 5

file-iconVzorka dát na stiahnutie

D. Proximity – in points - video 14

Ak nastavíte parameter Similarity na hodnotu D. Proximity - in points, potom aplikácia SimplexDivide bude vytvárať zhluky kriviek na základe blízkosti jednotlivých bodov kriviek v grafe. Podobnosť kriviek závisí od miery podobnosti jednotlivých číselných hodnôt kriviek. Krivky v každom identifikovanom zhluku budú mať tú vlastnosť, že jednotlivé číselné hodnoty kriviek budú približne rovnaké.

Nastavenie D. Proximity - in points vyhodnocuje podobnosť kriviek v jednotlivých bodoch kriviek, bez ohľadu na kontext susediacich bodov častí kriviek. Preto výsledok nezávisí od poradania stĺpcov vstupného súboru.

image002_people

Obr.1 Vstupné dáta demonštračného príkladu people.csv

Dobrým demonštračným príkladom sú dáta v súbore people.csv. V tomto súbore každá krivka reprezentuje jednu osobu s troma údajmi: výška, váha a vek. Ukážka vstupných dát je na Obr.1 (panel CLUSTER aplikácie SimplexImpera). Súbor people.csv obsahuje údaje o 50 osobách, ktorých grafické znázornenie je na Obr.2 (panel GRAPH aplikácie SimplexImpera).

image004_people

Obr.2 Grafické zobrazenie údajov o 50 osobách v súbore people.csv

V tomto príklade je cieľom rozdeliť osoby do zhlukov tak, aby osoby v zhlukoch mali približne rovnakú výšku, váhu a vek. Chceme teda zistiť, aká je štruktúra tejto vzorky dát o osobách, a to v zmysle podobnosti osôb z hľadiska ich váhy, výšky a veku. Preto je v tomto príklade rozhodujúca podobná veľkosť jednotlivých číselných hodnôt, čomu zodpovedá nastavenie D. Proximity - in points.

image006_people

Obr.3 Spracovanie príkladu people.csv aplikáciou SimplexDivide

Výsledok rozdelenia užívateľov do zhlukov si môžete prezrieť v aplikácii SimplexImpera, ak si tento príklad vyskúšate. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor people.csv (SimplexManualsample). Parameter Similarity nastavte na D. Proximity - in points. Parameter Analysis nastavte na B. Statistical analysis - in column. Ostatné parametre ponechajte bez zmeny, kliknite na tlačidlo Divide a uložte výsledok spracovania. Následne spustite aplikáciu SimplexImpera a zvoľte výsledok people_D_W_B_0_0spx. Môžete si prezrieť identifikované zhluky.

image008_people

Obr.4 Rozdelenie súboru people.csv do 4 zhlukov

Aplikácia SimplexDivide rozdelila 50 osôb do štyroch zhlukov, ktorých popis je na Obr.4 (tabuľka panelu IMPERA aplikácie SimplexImpera). Za poradovým číslom zhluku nasleduje počet osôb v zhluku a priemerné hodnoty pre výšku, váhu a vek osôb v danom zhluku.

image010_people

Obr.5 Grafy štyroch zhlukov výsledku rozdelenia (people_D_W_B_0_0spx)

Z grafickej reprezentácie na Obr.5 je zrejmé, že osoby v jednotlivých zhlukoch sú navzájom podobné svojou výškou, váhou a vekom. Potvrzujú to aj priemerné hodnoty výšky, váhy a veku v tabuľke na Obr.4. Napríklad v druhom zhluku je 13 osôb, ktoré sú stredne vysoké, ľahké a mladé. Výsledné zhluky boli teda vytvorené na základe blízkosti jednotlivých hodnôt pre výšku, váhu a vek osôb. A to je podstata nastavenia D. Proximity - in points.

Pripomeňme, že rovnaký výsledok by sme získali, ak by bolo poradie stĺpcov vstupného súboru ľubovoľne zmenené (napr. vek, výška, váha). Pre nastavenie D. Proximity - in points výsledok nezávisí od poriadania stĺpcov vo vstupnom súbore, na rozdiel od nastavenia C. Proximity - in parts.

nastavenia SimplexDivide: similarity: D – proximity in points, modification: W - without data modification, Analysis: B - statistical analysis – in column, Strictness: 0

file-iconVzorka dát na stiahnutie

A. [min,max] >> [0%,100%] - in row - video 15

Ak nastavíte parameter Modification na hodnotu A. [min,max] >> [0%,100%] - in row, potom aplikácia SimplexDivide vykoná pred vytvorením zhlukov nasledujúcu modifikáciu dát vstupného súboru, a to v každom riadku:

  • aplikácia zistí minimálnu a maximálnu hodnotu v riadku
  • minimálna hodnota predstavuje 0% a maximálna hodnota predstavuje 100%
  • všetky hodnoty v riadku aplikácia nahradí zodpovedajúcimi percentami vzhľadom k minimu a maximu

Napríklad v nasledujúcom riadku so 7 hodnotami je minimálna hodnota 100 (0%) a maximálna hodnota 200 (100%).

170,190,100,120,200,160,130

Po modifikácii A. [min,max] >> [0%,100%] - in row bude tento riadok vyzerať nasledovne:

70%,90%,0%,20%,100%,60%,30%

Uvedenú modifikáciu vykoná aplikácia SimplexDivide v každom riadku samostatne (minimum a maximum môže byť v každom riadku iné). Aplikácia SimplexDivide najskôr modifikuje dáta vstupného súboru uvedeným spôsobom, a potom krivky modifikovaných dát použije na vytvorenie zhlukov.

image002-store

Obr.1 Nemodifikované vstupné dáta store.csv

Dobrým demonštračným príkladom sú dáta v súbore store.csv, ktorý nájdete v adresári SimplexManualsample. Súbor obsahuje 100 riadkov o predaji železiarskeho tovaru počas 24 týždňov. Každý riadok obsahuje 24 hodnôt o jednej tovarovej položke. Jednotlivé hodnoty zodpovedajú celkovému výdaju zo skladu k danému týždňu roka. Napríklad, ak je v treťom stĺpci (3.week) hodnota 21 znamená to, že celkový výdaj zo skladu za prvé tri týždne bol 21 kusov (kilogramov, metrov alebo litrov). Ak sa v nasledujúcom týždni predalo 5 kusov, potom vo štvrtom stĺpci (4.week) bude hodnota 26. Pôvodné nemodifikované dáta sú na Obr.1 (panel CLUSTER aplikácie SimplexImpera).

image004-store

Obr.2 Graf nemodifikovaných vstupných dát store.csv

Cieľom manažéra skladu je zistiť, ako rastie dopyt po druhoch tovaru v priebehu sledovaného obdobia. Problém je v tom, že jednotlivé druhy tovaru sa predávajú v rozličných merných jednotkách (kusy, metre, kilogramy, litre, ...) a v rozličných objemoch (desiaky, stovky, tisíce). Táto skutočnosť je dobre viditeľná na grafe vstupných dát na Obr.2 (panel GRAPH aplikácie SimplexImpera).

Ak chceme rozdeliť tovar do zhlukov s podobným dopytom, potom musíme vstupné dáta modifikovať tak, aby tvar kriviek v grafe výstižne vypovedal o raste dopytu počas roka. Preto je vhodné použiť modifikáciu A. [min,max] >> [0%,100%] - in row. V tomto prípade je v každom riadku minimum v prvom stĺpci a maximum v poslednom stĺpci. Dôsledkom modifikácie je, že tovary s podobným dopytom budú mať podobné krivky bez ohľadu na to, či sa predávajú v desiatkach, stovkách alebo tisícoch kusov. Zmysel tejto modifikácie je zrejmý z grafov výsledných zhlukov uvedených nižšie.

image006-store

Obr.3 Modifikované vstupné dáta store.csv

image008-store

Obr.4 Graf modifikovaných vstupných dát store.csv

Ako nastaviť parameter Similarity? Pretože chceme získať zhluky tovaru s približne rovnakým rastom dopytu počas sledovaného obdobia, pričom záleží na poradí stĺpcov, použijeme nastavenie A. Shape - in parts.

image010-store

Obr.5 Spracovanie príkladu store.csv aplikáciou SimplexDivide

Výsledné zhluky tovarov s podobným dopytom si môžete prezrieť v aplikácii SimplexImpera, ak si tento príklad vyskúšate. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor store.csv (SimplexManualsample). Parameter Similarity nastavte na A. Shape - in parts a parameter Modification nastavte na A. [min,max] >> [0%,100%] - in row. Parameter Strictness nastavte na hodnotu 30, kliknite na tlačidlo Divide a uložte výsledok. Spustite aplikáciu SimplexImpera a zvoľte výsledok store_A_A_W_0_30spx. Môžete si prezrieť identifikované zhluky. Grafy štyroch zhlukov (zo 16 zhlukov rozdelenia) sú na Obr.6.

image012-store

Obr.6 Grafy štyroch zhlukov výsledku rozdelenia (store_A_A_W_0_30spx)

Z grafickej reprezentácie zhlukov na Obr.6 sú zrejmé rozdiely v dopyte po tovare počas sledovaných 24 týždňov. Tovar v prvom identifikovanom zhluku sa predával zhruba rovnako dobre počas celého obdobia. Tovar v druhom zhluku sa predával hlavne v prvých 14 týždňoch a potom nastal útlm. Naopak tovar v treťom zhluku sa začal predávať po počiatočnom útlme, ktorý trval zhruba prvých 6 týždňov. Posledný zhluk na obrázku je špecifický malým alebo takmer žiadnym dopytom zhruba od 6. do 18.týždňa.

nastavenia SimplexDivide: similarity: A – shape in parts, modification: A. [min,max] >> [0%,100%] - in row, Analysis: W - without data analysis, Strictness: 30

file-iconVzorka dát na stiahnutie

B. [min,max] >> [0%,100%] - in column - video 16

Ak nastavíte parameter Modification na hodnotu B. [min,max] >> [0%,100%] - in column, potom aplikácia SimplexDivide vykoná pred vytvorením zhlukov nasledujúcu modifikáciu dát vstupného súboru, a to v každom stĺpci:

  • aplikácia zistí minimálnu a maximálnu hodnotu v stĺpci
  • minimálna hodnota predstavuje 0% a maximálna hodnota predstavuje 100%
  • všetky hodnoty v stĺpci aplikácia nahradí zodpovedajúcimi percentami vzhľadom k minimu a maximu

Napríklad v nasledujúcich 10 riadkoch s 3 hodnotami sú minimálne a maximálne hodnoty v jednotlivých stĺpcoch: [25,59], [30000,64900] a [0,3].

28,37000,1
27,33100,0
50,63900,3
43,44100,3
33,53100,0
52,60300,1
46,64900,3
25,30100,1
25,30000,1
59,54500,1

Po modifikácii B. [min,max] >> [0%,100%] - in column budú tieto riadky vyzerať nasledovne:

8.82%,20.06%,33.33%
5.88%,8.88%,0%
73.53%,97.13%,100%
52.94%,40.4%,100%
23.53%,66.19%,0%
79.41%,86.82%,33.33%
61.76%,100%,100%
0%,0.29%,33.33%
0%,0%,33.33%
100%,70.2%,33.33%

Uvedenú modifikáciu vykoná aplikácia SimplexDivide v každom stĺpci samostatne (minimum a maximum môže byť v každom stĺpci iné). Aplikácia SimplexDivide najskôr modifikuje dáta vstupného súboru uvedeným spôsobom, a potom krivky modifikovaných dát použije na vytvorenie zhlukov.

image002-employee

Obr.1 Nemodifikované vstupné dáta employee.csv

Dobrým demonštračným príkladom sú dáta v súbore employee.csv, ktorý nájdete v adresári SimplexManualsample. Súbor obsahuje 100 riadkov o zamestnancoch s údajmi: vek, príjem a počet detí. Pôvodné nemodifikované dáta sú na Obr.1 (panel CLUSTER aplikácie SimplexImpera).

image004-employee

Obr.2 Graf nemodifikovaných vstupných dát employee.csv

V tomto príklade je cieľom rozdeliť zamestnancov do zhlukov tak, aby boli v zhlukoch zamestnanci s podobným vekom, príjmom a počtom detí. Získame tým informáciu o ekonomicko-sociálnej štruktúre zamestnancov. Problém je v tom, že jednotlivé údaje sú príliš odlišné veľkosťou hodnôt. Hodnoty pre vek sú v desiatkach, príjem v tisícoch a počet detí je obvykle veľmi malé číslo. Následkom toho sú krivky týchto dát nedostatočne špecifické na vytvorenie zhlukov. Táto skutočnosť je dobre viditeľná na grafe vstupných dát na Obr.2 (panel GRAPH aplikácie SimplexImpera).

Ak chceme rozdeliť zamestnancov do zhlukov, potom musíme vstupné dáta modifikovať tak, aby sme zvýraznili rozdiely medzi krivkami pre odlišných zamestnancov. Preto je vhodné použiť modifikáciu B. [min,max] >> [0%,100%] - in column. Dôsledkom modifikácie je, že zamestnanci s odlišnými údajmi budú mať zodpovedajúco odlišné krivky. Modifikované dáta sú na Obr.3 a ich graf na Obr.4.

image006-employee

Obr.3 Modifikované vstupné dáta employee.csv

image008-employee

Obr.4 Graf modifikovných vstupných dát employee.csv

Ako nastaviť parameter Similarity? Pretože chceme získať zhluky zamestnancov s približne rovnakým vekom, príjmom a počtom detí, pričom nezáleží na poradí stĺpcov, použijeme nastavenie D. Proximity - in points.

image010-employee

Obr.5 Spracovanie príkladu employee.csv aplikáciou SimplexDivide

Tento príklad si môžete vyskúšať. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor employee.csv (SimplexManualsample). Parameter Similarity nastavte na D. Proximity - in points, parameter Modification nastavte na B. [min,max] >> [0%,100%] - in column a parameter Analysis nastavte na B. Statistical analysis - in column. Ostatné parametre ponechajte bez zmeny, kliknite na tlačidlo Divide a uložte výsledok spracovania. Následne spustite aplikáciu SimplexImpera a zvoľte výsledok employee_D_B_B_0_0spx. Môžete si prezrieť identifikované zhluky.

image012-employee

Obr.6 Rozdelenie súboru employee.csv do 4 zhlukov

Aplikácia SimplexDivide rozdelila 100 zamestnancov do 4 zhlukov, ktorých popis je tabuľke panelu IMPERA aplikácie SimplexImpera (Obr.6). Za poradovým číslom zhluku nasleduje počet zamestnancov v zhluku a priemerné hodnoty pre vek, príjem a počet detí v danom zhluku.

image014-employee

Obr.7 Grafy štyroch zhlukov výsledku rozdelenia (employee_D_B_B_0_0spx)

Z grafickej reprezentácie na Obr.7 je zrejmé, že zamestnanci v jednotlivých zhlukoch sú navzájom podobné svojím vekom, príjmom a počtom detí. Potvrzujú to aj priemerné hodnoty veku, príjmu a počtu detí v tabuľke na Obr.6. Napríklad v treťom zhluku je 26 zamestnancov, ktorí sú v strednom veku, majú vysoký príjem a jedno alebo žiadne dieťa. Zodpovedajú tomu aj údaje týchto zamestnancov na Obr.8.

image016-employee

Obr.8 Zamestnanci tretieho identifikovaného zhluku

Settings of the simplexDivide: similarity: D – proximity in points, modification: B. [min,max] >> [0%,100%] - in column , Analysis: B - Statistical analysis in column, Strictness: 0

file-iconVzorka dát na stiahnutie

E. [sum] >> [100%] - in row

Ak nastavíte parameter Modification na hodnotu E. [sum] >> [100%] - in row, potom aplikácia SimplexDivide vykoná pred vytvorením zhlukov nasledujúcu modifikáciu dát vstupného súboru, a to v každom riadku:

  • aplikácia zistí celkový súčet všetkých hodnôt v riadku
  • celkový súčet v riadku predstavuje 100%
  • všetky hodnoty v riadku aplikácia nahradí zodpovedajúcimi percentami z celkového súčtu

Napríklad v nasledujúcom riadku so 7 hodnotami je celkový súčet hodnôt 63000, čo je pre tento riadok 100%.

0,0,0,6300,37800,12600,6300

Po modifikácii E. [sum] >> [100%] - in row bude tento riadok vyzerať nasledovne:

0%,0%,0%,10%,60%,20%,10%

Uvedenú modifikáciu vykoná aplikácia SimplexDivide v každom riadku samostatne (celkový súčet môže byť v každom riadku iný). Aplikácia SimplexDivide najskôr modifikuje dáta vstupného súboru uvedeným spôsobom, a potom krivky modifikovaných dát použije na vytvorenie zhlukov.

image002-customer

Obr.1 Nemodifikované vstupné dáta customer.csv

Dobrým demonštračným príkladom sú dáta v súbore customer.csv, ktorý nájdete v adresári SimplexManualsample. Súbor obsahuje 18 riadkov o dlhodobých odberateľoch obchodnej firmy, ktorá sa špecializuje na veľkoobchodný predaj určitých druhov ovocia. Každý riadok obsahuje údaje o finančných objemoch, za ktoré daný odberateľ nakúpil v minulom období jednotlivé druhy ovocia. Pôvodné nemodifikované dáta sú na Obr.1 (panel CLUSTER aplikácie SimplexImpera).

image004-customer

Obr.2 Modifikované vstupné dáta customer.csv

Cieľom obchodného manažéra firmy je vykonať produktovú segmentáciu zákazníkov – odberateľov. To znamená, že potrebuje rozdeliť zákazníkov do segmentov tak, aby v segmentoch boli zákazníci s podobným portfóliom produktov, ktoré odoberajú. Za týmto účelom je potrebné modifikovať vstupné dáta tak, aby namiesto finančných objemov boli v stĺpcoch percentá, ktoré vyjadrujú záujem zákazníka o daný produkt – druh ovocia. Preto je vhodné použiť modifikáciu E. [sum] >> [100%] - in row. Modifikované dáta sú na Obr.2 a ich graf na Obr.3 (panel GRAPH aplikácie SimplexImpera).

image006-customer

Obr.3 Graf modifikovaných vstupných dát customer.csv

Ako nastaviť parameter Similarity? Pretože chceme získať zhluky zákazníkov s približne rovnakými percentami v jednotlivých stĺpcoch, pričom nezáleží na poradí stĺpcov, použijeme nastavenie D. Proximity - in points.

image008-customer

Obr.4 Spracovanie príkladu customer.csv aplikáciou SimplexDivide

Tento príklad si môžete vyskúšať. Spustite aplikáciu SimplexDivide a zvoľte vstupný súbor customer.csv (SimplexManualsample). Parameter Similarity nastavte na D. Proximity - in points a parameter Modification nastavte na E. [sum] >> [100%] - in row. Ostatné parametre ponechajte bez zmeny, kliknite na tlačidlo Divide a uložte výsledok spracovania. Následne spustite aplikáciu SimplexImpera a zvoľte výsledok customer_D_E_W_0_0spx. Môžete si prezrieť identifikované zhluky (Obr.5).

image010-customer

Obr.5 Produktová segmentácia zákazníkov customer.csv

Aplikácia SimplexDivide úspešne rozdelila 18 zákazníkov v customer.csv do štyroch zhlukov – segmentov. Z grafickej reprezentácie zhlukov sú zrejmé odlišné profily zákazníkov z hľadiska produktovej segmentácie. Napríklad 5 zákazníkov v druhom zhluku má záujem hlavne o hrozno, banány a pomaranče, a zvlášť o banány. Zodpovedajú tomu aj údaje týchto 5 zákazníkov na Obr.6.

image012-customer

Obr.6 Zákazníci druhého identifikovaného zhluku

nastavenia SimplexDivide: similarity: D – proximity in points, modification: E - [sum] >> [100%] - in row, Analysis: W - without data analysis, Strictness: 0