V dnešní době, když se řekne umělá inteligence, většina si představí chatovací roboty jako ChatGPT nebo generátory obrázků. Je to svět "generativní AI", který je vidět na první pohled. Ale AI má i druhou, mnohem tišší a zásadnější tvář: strojové učení (Machine Learning) a data mining. Právě zde se rozhoduje, zda vám banka schválí úvěr, jak se Netflix rozhoduje, jaký film vám doporučit, nebo jak doktoři detekují nemoci z lékařských snímků.
Pokud chcete proniknout pod povrch tohoto fascinujícího světa, ale zrazuje vás nutnost učit se složité programování v Pythonu nebo R, máme pro vás klasiku, která nestárne. Jmenuje se Weka.
V tomto článku si ukážeme, co je to Weka, proč je stále nepostradatelným nástrojem v arzenálu datových vědců a jak si ji můžete nainstalovat a začít s ní pracovat krok za krokem.
Co je Weka a proč by vás měla zajímat?
Weka (Waikato Environment for Knowledge Analysis) je jeden z nejstarších a nejrespektovanějších nástrojů pro strojové učení na světě. Vznikla už v roce 1993 na univerzitě na Novém Zélandu a od té doby se stala standardem v akademické sféře i v průmyslu.
Proč je Weka skvělá pro začátečníky i experty?
- Není potřeba programovat: Většinu operací provedete pomocí grafického rozhraní (GUI). Stačí vám myš a pochopení toho, co data dělají.
- Java = Univerzalita: Je napsaná v Javě, takže ji spustíte na Windows, macOS i Linuxu.
- Vzdělávací hodnota: Weka vás naučí "matematické podhoubí" AI. Uvidíte, jak fungují algoritmy jako K-Nearest Neighbors, Rozhodovací stromy nebo Neuronové sítě, bez toho, abyste se museli trápit syntaxí kódu.
- Bohatá knihovna algoritmů: Obsahuje desítky metod pro klasifikaci, regresi, clustering a asociace.
Zkrátka, Weka je jako laboratoř na stole, kde si můžete se svými daty hrát a zkoušet na nich různé teorie v reálném čase.
Příprava prostředí: Jak nainstalovat Weku
Jelikož je Weka napsaná v Javě, budete potřebovat nainstalované Java Runtime Environment (JRE). Většina moderních počítačů má Javu nainstalovanou, ale pokud ne, stáhnete si ji zdarma z webu Oracle nebo OpenJDK.
Samotnou instalaci Weky zvládnete za minutu:
- Navštivte oficiální stránky (CMS Waikato).
- Stáhněte si nejnovější stabilní verzi (zde je soubor s příponou
.exepro Windows nebo.dmgpro macOS). - Nainstalujte program jako jakoukoliv jinou aplikaci.
Po spuštění vás uvítá poměrně jednoduché okno s výběrem režimů práce. Pro náš tutoriál budeme používat Explorer, který je srdcem Weky pro interaktivní práci.
Práce s daty: Anatomie souboru ARFF
Než se pustíme do analýzy, musíme vědět, jak data Weka "nakrmit". Weka sice umí načíst běžné CSV soubory (z Excelu), ale svůj domovský formát má v ARFF (Attribute-Relation File Format).
ARFF soubor má dvě hlavní části:
- Header (Hlavička): Definuje název datové sady a seznam atributů (sloupců) s jejich typy (např. číslo, text, kategorie).
- Data (Data): Samotná data.
Příklad jednoduchého ARFF souboru (předpověď, zda půjdeme na tenis):
@RELATION tenis
@ATTRIBUTE outlook {sunny, overcast, rainy}
@ATTRIBUTE temperature REAL
@ATTRIBUTE humidity REAL
@ATTRIBUTE windy {TRUE, FALSE}
@ATTRIBUTE play {yes, no}
@DATA
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
...
Tip pro praxi: Můžete si připravit data v Excelu, uložit je jako CSV a v Wece je jednoduše otevřít. Weka se je pokusí automaticky detekovat a převést.
Krok za krokem: První model ve Wece
Představme si, že máte data o zákaznících banky. Chcete předpovědět, zda si klient vezme úvěr na bydlení (ano/ne) na základě jeho věku, příjmu a zůstatku na účtu. Tento proces se nazývá Klasifikace.
Zde je postup, jak v Wece vytvořit svůj první model:
Krok 1: Načtení dat
- Otevřete Weku a zvolte Explorer.
- V záložce Preprocess klikněte na tlačítko Open file.
- Vyberte svůj soubor (např.
banka.arffnebo.csv). - Po načtení uvidíte v levém sloupci seznam atributů (Features) a v pravém vybraný sloupec s statistikami.
- Tip: Podívejte se na sloupec "Class" (třída). To je to, co chceme předpovídat (např. "Si vezme úvěr").
Krok 2: Příprava dat (Preprocessing)
Data v reálném světě jsou často "špinavá". Ve Wece můžete v záložce Preprocess data čistit:
- Remove: Odstraňte irelevantní sloupce (např. ID zákazníka), které nemají vliv na výsledek.
- Discretize: Pokud máte spojitá data (např. věk 18-90), algoritmy někdy fungují lépe, když věk rozdělíte do skupin (mladý, střední, starý).
- Normalize: Škálování dat, aby byla čísla srovnatelná.
Pro náš první pokus data necháme tak, jak jsou, abychom viděli "surový" výkon.
Krok 3: Výběr algoritmu (Classify)
Přepněte se na záložku Classify. Zde se děje magie. Toto nastavení je klíčové:
- Test options: Zvolte Percentage split (např. 66 %). To znamená, že Weka si vezme 66 % dat na učení modelu a zbývajících 34 % použije na testování, zda model funguje.
- Classifier: Klikněte na tlačítko Choose.
- Otevře se obrovský strom algoritmů. Pro začátek doporučuji klasiku: trees -> J48. J48 je implementace slavného algoritmu C4.5 (Rozhodovací stromy). Je intuitivní a dává čitelné výsledky.
Krok 4: Trénování modelu
Nyní klikněte na tlačítko Start.
V pravé části obrazovky začnou běžet texty. Po chvíli se objeví výsledek. Co tam vidíme?
- Correctly Classified Instances: Např. 85 %. To znamená, že se váš model trefil v 85 % případů.
- Confusion Matrix (Matice záměn): Tabulka, která ukazuje, kde se model spletl. Kolikrát řekl "ANO", když mělo být "NE"?
Krok 5: Vizualizace stromu
To je ta nejzajímavější část. V okně s výsledky (Result list) klikněte pravým tlačítkem myši na váš nově vzniklý model a zvolte Visualize tree.
Otevře se vám grafický diagram. Uvidíte něco jako:
- Je příjem > 50 000?
- ANO: -> Půjčíme
- NE: -> Je věk < 30?
- ANO: -> Nepůjčíme
- NE: -> Půjčíme
Tento strom vám dává okamžitý business insight. Vidíte přesně, jak se algoritmus rozhoduje. To je obrovská výhoda oproti "Black Box" modelům, které jen vydávají výsledek bez vysvětlení.
Další možnosti Weky: Clustering a Asociace
Weka není jen o klasifikaci (předpovědi ano/ne). V záložce Cluster můžete použít algoritmy jako SimpleKMeans k seskupování dat.
Příklad z praxe: Máte databázi 10 000 zákazníků e-shopu, ale o nich nic nevíte. Použijete clustering. Weka vám zákazníky rozdělí například do 3 skupin:
- "Nakupující levně a často"
- "Nakupující draze a zřídka"
- "Návštěvníci bez nákupu"
Tento proces se nazývá segmentace trhu a je klíčový pro marketing.
V záložce Associate zase najdete pravidla pro nákupní košíky. Určitě znáte pravidlo "Kdo si koupí chléb, ten si často koupí máslo". Weka tato pravidla najde ve vašich datech automaticky.
Best Practices: Jak ve Wece pracovat jako profík
Jako expertní copywriter Vám radím: Nespoléhejte jen na výchozí nastavení. Zde jsou tipy, jak dostat z Weky maximum:
- Cross-Validation (Křížové ověření): Při testování modelu v záložce Classify zvolte raději možnost "10-fold cross-validation" než "Percentage split". Je to statisticky přesnější metoda, jak ověřit kvalitu modelu na menších datových souborech.
- Vybírejte správný metriku: Pokud máte data, kde je 95 % případů "Zdravý" a jen 5 % "Nemocný", dosáhnete 95 % úspěšnosti tím, že model bude všude hádat "Zdravý". To je ale k ničemu. Sledujte metriky jako Precision (Přesnost) a Recall (Citlivost) nebo ROC Area.
- Vizualizujte: V záložce Visualize si prohlížejte grafy. Často najdete vztahy, které algoritmus nezachytí, ale lidské oko okamžitě pozná (např. dva oddělené clustery dat).
- Experimentujte s parametry: Každý algoritmus v Wece (např. J48, NaiveBayes, SMO) má nastavení, která můžete změnit kliknutím na název algoritmu. Zkuste například u stromů změnit "confidenceFactor" a sledujte, jak se strom zjednodušuje.
Nevýhody a limity Weky
Abych byl objektivní, Weka není všemocná. Je primárně nástroj pro výuku a práci se středně velkými daty, která se vejdou do operační paměti RAM.
- Velká data (Big Data): Pokud máte gigabyty nebo terabyty dat, Weka se zacyklí nebo spadne. Na to potřebujete Spark nebo Hadoop.
- Deep Learning: Weka má základní podporu pro neuronové sítě (MultilayerPerceptron), ale pro moderní hluboké učení (obrazové rozpoznávání, GPT modely) je Python s knihovnou TensorFlow nebo PyTorch standardem.
Weka vs. Python: Co si vybrat?
Mnoho začátečníků řeší otázku: "Mám se učit Weku, nebo rovnou Python?"
- Začněte s Wekou, pokud chcete pochopit principy. Zjistíte, co je to "overfitting" (přeučení), jak funguje normalizace dat a jaký je rozdíl mezi náhodným lesem a logistickou regresí. Děláte to vizuálně a rychle.
- Přejděte na Python, až budete principy rozumět a potřebujete automatizovat procesy, pracovat s gigantickými daty nebo tvořit AI aplikace pro web.
Weka je skvělý "trenér" na pochopení základů.
Závěr: Začněte objevovat skryté vzorce ve svých datech
Weka je důkazem, že staré dobré nástroje mohou být stále užitečné. Pro českého nadšence do AI je to ideální vstupní brána. Umožní vám vám pustit se do data miningu a strojového učení bez strachu z programování.
Ať už jste student, marketingový analytik nebo jen zvídavý člověk, Weka vám dá moc vidět to, co je skryté. Stáhněte si ji, najděte si libovolnou tabulku s daty (stačí i export z vašeho bankovního účtu) a zkuste na ni aplikovat algoritmus J48. Uvidíte, jaká síla se v těch číslech skrývá.
Chcete se dozvědět více o typech algoritmů nebo jak připravit data pro analýzu? Sledujte web začínámsAI.cz, kde přinášíme další praktické návody ze světa umělé inteligence.