Mis on k-vahendite klasterdamine?

Andmete kaevamine k-vahendi algoritmiga

K-vahendite klastrite algoritm on andmekaevandamise ja masinloetmisvahend, mida kasutatakse vaatluste kogumiseks seonduvate vaatluste rühmadesse, ilma et neid suhteid eelnevalt teada saaks. Proovide võtmise käigus püüab algoritm näidata, millises kategoorias või klastris need andmed kuuluvad, kusjuures klastrite arv on määratletud väärtusega k.

K-vahendite algoritm on üks lihtsamaid klastritehnikaid ning seda kasutatakse sageli meditsiinilise pildistamise, biomeetria ja sellega seotud valdkondades. K-funktsioonide klastrite eelis on see, et see räägib teie andmeid (kasutades oma järelevalveta vormi), selle asemel, et teil oleks algusest peale andmete alguses algoritmi õpetada (kasutades algoritmi jälgitavat vormi).

Seda nimetatakse mõnikord Lloyd'si algoritmiks, eriti arvutiteaduse ringkondades, sest standard-algoritmi esmakordselt tegi Stuart Lloyd 1957. aastal. Terminit "k-means" kirjutas 1967. aastal James McQueen.

Kuidas k-vahendite algoritmi funktsioonid

K-vahendite algoritm on evolutsiooniline algoritm, mis omandab oma nime oma töömeetodist. Algoritm klastrite vaatlusi k- rühmadesse, kus k on sisendparameetrina. Seejärel määrab iga vaatluse klastritele, lähtudes vaatluse lähedusest klastri keskmisele. Seejärel arvutatakse klastri keskmine uuesti ja protsess algab uuesti. Algoritm töötab järgmiselt.

  1. Algoritm valib meelevaldselt k punktide esialgse klastri keskpunkti (vahendid).
  2. Iga andmekogumi punkt määratakse suletud klastriks, mis põhineb Eukliidsel kaugusel iga punkti ja iga klastrite keskpunkti vahel.
  3. Iga klastri keskus on selle klastri punktide keskmine ümber arvutatud.
  4. Korrake samme 2 ja 3, kuni klastrid lähenevad. Lähenemisviisi võib määratleda erinevalt sõltuvalt rakendamisest, kuid tavaliselt tähendab see seda, et ükski vaatlus ei muuda klastreid, kui samme 2 ja 3 korratakse, või et muudatused ei muuda klastrite määratlust oluliselt.

Klastrite arvu valimine

Üks k- vahendi peamisi puudusi tähendab klastrite tegemist, et algoritmile tuleb määrata klastrite arv. Nagu projekteeritud, ei võimalda algoritm kindlaks määrata sobivat arvu klastreid ja sõltub sellest, kas kasutaja seda eelnevalt identifitseerib.

Näiteks kui teil oleks grupp inimesi, keda tuleb rühmitada binaarse soolise identiteedi alusel isana või naisena, kutsudes k- vahendite algoritmi, kasutades sisendit k = 3, sundiksid inimesed kolmesse klastritesse, kui ainult kaks või sisend k = 2, oleks looduslikult sobivam.

Samamoodi, kui grupp üksikisikuid hõlpsasti rühmitati koduriigi järgi ja te kutsusite k- vahendi algoritmi sisendiga k = 20, võivad tulemused olla liiga üldistatud, et need oleksid tõhusad.

Sel põhjusel on sageli hea mõte katsetada erinevate väärtustega k, et tuvastada teie andmetele kõige paremini sobivad väärtused. Samuti võite soovida uurida teiste andmekogumisalgoritmide kasutamist oma püüdlustes masinloetatud teadmiste jaoks.