Mida peate teadma Bayesi rämpsposti filtreerimiseks

Uurige, kuidas statistika aitab teie postkasti puhtaks hoida

Bayesi rämpsposti filtrid arvutavad tõenäosuse, et sõnum on rämpssisu selle sisu alusel. Erinevalt lihtsatest sisupõhistest filtritest saab Bayesi rämpsposti filtreerimine rämpsposti ja hea e-kirja teel õppimist, mille tulemuseks on väga vastupidav, kohanemisvõimeline ja tõhus rämpspostiga seotud lähenemisviis, mis kõige paremini ei too tagasi valepositiivseid tulemusi.

Kuidas sa tunned rämpsposti?

Mõtle rämpsposti tuvastamisele. Kiire pilk on piisavalt tihti. Teate, mida rämpspost tundub, ja teate, mis see hea välja näeb.

Ebameeldivate rämpsposti tõenäosus on umbes ... null.

Sisupõhiste filtrite hinded ei kohandata

Kas poleks tore, kui ka automaatsed rämpsposti filtrid töötaksid?

Sisupõhiste rämpspostifiltrite hindamine proovige just seda. Nad otsivad sõnu ja muid rämpsposti iseloomustavaid tunnuseid. Iga iseloomuliku elemendi jaoks määratakse skoor ja kogu sõnumi rämpsposti arvutatakse individuaalsete punktide põhjal. Mõned skoorifiltrid vaatavad ka õigustatud kirja omadusi, vähendades sõnumi lõplikku tulemust.

Hindamisfiltrite lähenemine töötab, kuid sellel on ka mitu puudust:

Bayesi rämpsposti filtrid parandavad ennast paremaks ja paremaks

Bayesi rämpspostifiltrid on omamoodi ka hindamissuhtlusega sisupõhised filtrid. Kuid nende lähenemisviis aitab ära hoida lihtsate hindamisspetsifiltrite probleeme ja seda nii radikaalselt. Kuna hindamisfiltrite nõrkus on käsitsi üles ehitatud omaduste loendis ja nende skoorides, siis see nimekiri on kõrvaldatud.

Selle asemel valmistavad Bayesi rämpsposti filtrid enda nimekirja. Ideaaljuhul alustad (suured) hulga e-kirju, mille olete rämpspostiks liigutanud, ja teise hulga heale kirjale. Filtrid vaatavad mõlemat ja analüüsivad õigustatud meilisõnumit ja rämpsposti, et arvutada rämpspostiga kaasnevate erinevate omaduste tõenäosus ja heas kirjas.

Kuidas Bayesi rämpsposti filter uurib e-posti

Bayesi rämpspostifiltri omadused võivad olla järgmised:

Kui näiteks sõna "Cartesi" ei kuvata kunagi rämpsposti, kuid tihti õigustatud e-kirjas, mida sa saad, on tõenäosus, et "Cartesi" rämpspost kuvatakse peaaegu nulli. Teiselt poolt tundub "tooner" eranditult ja tihti rämpspostiks. Toneril on väga suur tõenäosus leida rämpsposti, mitte palju alla 1 (100%).

Uue sõnumi saabumisel analüüsib seda Bayesi rämpspostifilter ning üksikute omaduste põhjal arvutatakse kogu rämpsposti sõnumi tõenäosus.

Oletame, et sõnum sisaldab nii "Cartesian" kui ka "Toonerit". Üksnes neist sõnadest ei ole veel selge, kas meil on rämpspost või juriidiline post. Muud omadused (loodetavasti ja tõenäoliselt) näitavad tõenäosust, mis võimaldab filtri sõnumit rühmitada kas rämpsu või heaks.

Bayesi rämpsposti filtrid saavad automaatselt õppida

Nüüd, kui meil on klassifikatsioon, saab sõnumit kasutada filtri enda täiendamiseks. Sellisel juhul vähendatakse kas e-maili "Dekarta" tõenäosust (kui sõnum, mis sisaldab nii "Cartesi" kui ka "tooneri", on rämpspost) või rämpsposti näitav "tooneri" tõenäosus tuleb uuesti läbi vaadata.

Selle automaatse adaptiivse tehnika abil saavad Bayesi filtrid õppida nii oma kui ka kasutaja otsustest (kui ta filtreerib valestiotsingu käsitsi). Bayesi filtreerimise kohanemisvõime tagab ka selle, et see on üksikutele e-posti kasutajatele kõige tõhusam. Kuigi enamikul inimestel võib rämpsposti olla sarnaseid omadusi, on õigustatud post kõigile iseloomulikult erinev.

Kuidas rämpsposti saavad vanad bayesiafiltrid?

Õigustatud posti omadused on sama oluline kui Bayesi rämpsposti filtreerimisprotsess rämpspostina. Kui filtreid koolitatakse spetsiaalselt iga kasutaja jaoks, on rämpspostitel veelgi raskem aega töötada kõigi (või isegi enamike inimeste) rämpspostifiltritega ja filtreid saab kohandada peaaegu kõik rämpspostigajad proovida.

Rämpsposti saatjad teevad seda ainult väljaõppinud Bayesi filtritega, kui nad teevad oma rämpsposti sõnumid otsekui välja nagu kõik tavalised e-kirjad.

Rämpsposti saatjad ei saadeta tavapäraseid kirju tavaliselt. Oletame, et see on seepärast, et need meilid ei tööta rämpspostiga. Seega on tõenäoline, et nad ei tee seda, kui tavapärased, igav emailid on ainus võimalus muuta see rämpsposti filtriteks.

Kui rämpspostipakkujad kasutavad enamasti tavalisi välimusega e-kirju, siis näeme uuesti meie postkastis palju rämpsposti ja e-post võib muutuda nii heidutavaks, nagu see oli eelseisvatel päevadel (või veel hullem). Kuid see rikkus ka enamiku rämpsposti turgu ja seega ei kesta kaua.

Tugevad näitajad võivad olla Bayesi rämpspostifilter Achilles & # 39; Heel

Rämpspostitel võib tajuda ühte erandit, et töötada Bayesi filtrite abil isegi nende tavalise sisuga. Baiessi statistika iseloomustab seda, et üks sõna või tunnus, mis väga sageli hea kirja saab, võib olla nii märkimisväärne, et see muudab sõnumi rämpspostist, et see filtri järgi sorteerida.

Kui rämpspostijuhtkonnad leiavad teie kindel tulekahjumärgiste sõnade kindlakstegemise viisi, näiteks kasutades HTML - i tagasiside laekumisi, et näha, millised teie poolt avatud kirjad on, võivad need sisaldada üht neist rämpspostiga ja jõuavad teile isegi hästi läbimõeldud sõnumite kaudu. väljaõppinud Bayesi filter.

John Graham-Cumming on proovinud seda teha, lastes kaks Bayesi filtrit üksteisega töötada, "halvaks", mis kohaneb sõnumitega, mis jõuavad läbi "hea" filtri. Ta ütleb, et see töötab, kuigi protsess on aeganõudev ja keerukas. Me ei arva, et me näeksime suurt osa sellest, vähemalt mitte suuremas ulatuses, ja ei ole kohandatud üksikisikute e-posti omadustele. Rämpsposti saatjad võivad (pigem proovida) selle asemel mõista mõnda organisatsioonisisest märksõna (näiteks "Almaden" mõnele inimestele IBMis).

Tavaliselt on rämpspost alati (oluliselt) tavapärasest e-kirjast erinev või see pole rämpspost.

Bottom Line: Bayesi filtreerimise tugevus võib olla selle nõrkus

Bayesi rämpsposti filtrid on sisupõhised filtrid, mis: