Cei mai buni algoritmi din data mining

Explorarea datelor generează concluzii importante prin cantități mari de observații complicate.

Copacii de decizie

Algoritmii arborelui de decizie constau în organizarea datelor în alegeri concurente care formează ramuri de influență după o decizie inițială. Trunchiul copacului reprezintă decizia inițială și începe cu o întrebare de da sau nu, cum să ia micul dejun sau nu. Luând micul dejun și fără a lua micul dejun, ar fi cele două ramuri divergente ale copacului, iar fiecare alegere ulterioară ar avea propriile ramuri divergente care conduc la un punct final.

Algoritmul K-mean

Algoritmul K-mean se bazează pe analiza grupurilor. Încercați să împărțiți datele colectate în "grupuri" separate grupate pe caracteristici comune.

Mașini vectoriale de suport

Algoritmii mașinilor vectoriale de suport iau datele de intrare și prezic care dintre cele două categorii posibile includ datele de intrare. Un exemplu ar fi colectarea de coduri poștale de la un grup de alegători și încercarea de a anticipa dacă un alegător este un democrat sau un republican.

Algoritmul a priori

Algoritmul a priori controlează de obicei datele tranzacției. De exemplu, într-un magazin de îmbrăcăminte, algoritmul ar putea controla care tip de cămăși clienții cumpără de obicei împreună.

Algoritmul EM

Acest algoritm definește parametrii prin analizarea datelor și prezice posibilitatea unui eveniment viitor sau a unui eveniment aleator în cadrul parametrilor de date. De exemplu, algoritmul EM ar putea încerca să prezică momentul unei erupții viitoare a unui gheizer pe baza datelor de erupție din trecut.

PageRank Algorithm

Algoritmul PageRank este un algoritm de bază pentru motoarele de căutare. Evaluați și estimați relevanța unei anumite date într-un set mare, cum ar fi un singur site web dintr-un set mai larg de site-uri Internet.

Algoritmul AdaBoost

Algoritmul AdaBoost funcționează în cadrul altor algoritmi de învățare care anticipează comportamentul în funcție de datele observate, astfel încât acestea sunt sensibile la extremele statistice. Deși algoritmul EM poate fi părtinitor din cauza unui gheizer care are două erupții în mai puțin de un minut când are în mod normal o erupție o dată pe zi, algoritmul AdaBoost va modifica rezultatul algoritmului EM analizând relevanța punctului final.

Algoritmul celui mai apropiat k vecin

Acest algoritm recunoaște modelele în locația datelor și le asociază cu date cu un identificator mai mare. De exemplu, dacă doriți să atribuiți un post la fiecare locație geografică a casei și aveți un set de date pentru fiecare locație geografică a casei, algoritmul celui mai apropiat k vecin va aloca casele la cel mai apropiat oficiu poștal pe baza proximității lor.

Naive Baye

Algoritmul Naive Baye prezice ieșirea unei identități pe baza datelor din observațiile cunoscute. De exemplu, dacă o persoană are o înălțime de 1, 97 m și poartă o mărime de 14 de pantofi, algoritmul Naive Baye poate prezice cu o anumită probabilitate că persoana este un bărbat.

CART Algoritm

"CART" este un acronim în limba engleză, care înseamnă analiza și clasificarea arborelui de regresie. Ca și analiza arborilor de decizie, aceasta organizează datele în funcție de opțiunile concurente, ca și când o persoană a supraviețuit unui cutremur. Spre deosebire de algoritmii arborilor de decizie, care pot clasifica doar o ieșire sau o ieșire numerică bazată pe regresie, algoritmul CART poate folosi ambele pentru a prezice probabilitatea unui eveniment.