Andmete kaevandamisel klassifitseerimine

Klassifitseerimine on andmetöötluse meetod, mis määrab kategooriad andmete kogumiseks, et aidata täpsemaid ennustusi ja analüüse. Mõnikord nimetatakse seda ka otsuseküljeks , klassifitseerimine on üks mitmest meetodist, mille eesmärk on väga suurte andmekogumite analüüsimine tõhus.

Miks klassifikatsioon?

Väga suured andmebaasid muutuvad normiks tänapäeva "suurte andmete" maailmas. Kujutlege andmebaasi, millel on mitu terabyte andmeid - terabyteks on üks triljon baiti andmeid.

Üksnes Facebook katkestab iga päev 600 terabaiti uut teavet (alates 2014. aastast, mil viimati esitasite need andmed). Suurte andmete esmane väljakutse on see, kuidas seda mõista.

Ja ainukeseks probleemiks ei ole suur maht - suured andmed kipuvad olema mitmekesised, struktureerimata ja kiiresti muutuvad. Mõelge heli- ja videoandmetele, sotsiaalse meedia postitustele, 3D-andmetele või geograafilistele andmetele. Selliseid andmeid ei liigitata lihtsalt ega korraldata.

Selle väljakutse saavutamiseks on välja töötatud mitmesugused kasuliku teabe hankimise meetodid, sealhulgas nende klassifitseerimine .

Klassifikatsioon toimib

Kui liigume liiga kaugele tech-rääkimiseni, siis arutleme, kuidas klassifitseerimine toimib. Eesmärgiks on luua klassifitseerimisreeglite kogum, mis vastab küsimusele, teeb otsuse või ennustab käitumist. Alustuseks on välja töötatud koolitusandmete komplekt, mis sisaldab teatud atribuutide kogumit ja tõenäolist tulemust.

Klassifitseerimise algoritmi ülesandeks on avastada, kuidas atribuutide komplekt jõuab järeldusele.

Stsenaarium : ehkki krediitkaardifirma püüab kindlaks teha, millised väljavaated peaksid saama krediitkaardipakkumise.

See võib olla tema koolitusandmete komplekt:

Koolitusandmed
Nimi Vanus Sugu Aastane sissetulek Krediitkaardi pakkumine
John Doe 25 M 39 500 dollarit Ei
Jane Doe 56 F 125 000 dollarit Jah

Krediitkaardi pakkumise "prognoositava omaduse" väärtus määratakse veergude "ennustaja" vanus , sugu ja aastane tulu . Koolituskomplektides on prognoositava omadus teada. Seejärel püüab klassifitseerimisalgoritm kindlaks määrata, kuidas ennustaja atribuudi väärtus saavutati: millised on ennustajate ja otsuse vahel suhted? Ta töötab välja prognoosieeskirjad, tavaliselt IF / THEN avalduse, näiteks:

KUI (vanus> 18 VÕI Vanus <75) ja aastane sissetulek> 40,000 THEN krediitkaardi pakkumine = jah

Loomulikult on see lihtne näide ja algoritm vajaks palju suuremat andmete kogumist kui siin kahes registris. Lisaks on ennustusreeglid tõenäoliselt palju keerukamad, sealhulgas atribuudi üksikasjade hõivamiseks alamreeglid.

Seejärel antakse algoritmile analüüside jaoks "prognoosikomplekt", kuid sellel komplekti puuduvad ennustuse atribuudid (või otsus):

Prediktori andmed
Nimi Vanus Sugu Aastane sissetulek Krediitkaardi pakkumine
Jack Frost 42 M 88 000 dollarit
Mary Murray 16 F $ 0

Prognoosiandmete andmed aitavad hinnata ennustuseeskirjade täpsust ja reegleid kohandatakse siis, kui arendaja leiab, et prognoosid on tõhusad ja kasulikud.

Klassifikatsiooni igapäevased näited

Klassifitseerimine ja muud andmete kaevandamise tehnikad on meie igapäevase tarbijate kogemuse taga.

Ilmastikuprognoosid võivad kasutada liigitust, et teatada, kas päev on vihmane, päikseline või hägune. Meditsiinitöötaja võib analüüsida terviseseisundeid, et ennustada meditsiinilisi tulemusi. Tüüpi klassifitseerimismeetod, Naive Bayesian, kasutab tingimusteta tõenäosust rämpsposti e-kirjade liigitamiseks. Alates pettuste tuvastamisest kuni tootepakkumiste saamiseni, on andmete analüüs ja prognooside koostamine iga päev stseenide taga.