Mida peate teadma Bayesi rämpsposti filtreerimiseks

by Heinz Tschabitscher

Uurige, kuidas statistika aitab teie postkasti puhtaks hoida

Bayesi rämpsposti filtrid arvutavad tõenäosuse, et sõnum on rämpssisu selle sisu alusel. Erinevalt lihtsatest sisupõhistest filtritest saab Bayesi rämpsposti filtreerimine rämpsposti ja hea e-kirja teel õppimist, mille tulemuseks on väga vastupidav, kohanemisvõimeline ja tõhus rämpspostiga seotud lähenemisviis, mis kõige paremini ei too tagasi valepositiivseid tulemusi.

Kuidas sa tunned rämpsposti?

Mõtle rämpsposti tuvastamisele. Kiire pilk on piisavalt tihti. Teate, mida rämpspost tundub, ja teate, mis see hea välja näeb.

Ebameeldivate rämpsposti tõenäosus on umbes ... null.

Sisupõhiste filtrite hinded ei kohandata

Kas poleks tore, kui ka automaatsed rämpsposti filtrid töötaksid?

Sisupõhiste rämpspostifiltrite hindamine proovige just seda. Nad otsivad sõnu ja muid rämpsposti iseloomustavaid tunnuseid. Iga iseloomuliku elemendi jaoks määratakse skoor ja kogu sõnumi rämpsposti arvutatakse individuaalsete punktide põhjal. Mõned skoorifiltrid vaatavad ka õigustatud kirja omadusi, vähendades sõnumi lõplikku tulemust.

Hindamisfiltrite lähenemine töötab, kuid sellel on ka mitu puudust:

Näituste loend põhineb filtrite inseneride käsutuses rämpspost (ja heas kirjas). Selleks, et saada hea haaret tüüpilisest rämpspostist, mida keegi võib saada, tuleb posti saata sadades e-posti aadressides. See nõrgendab filtrite tõhusust, eriti seetõttu, et hea e-posti omadused on iga inimese jaoks erinevad , kuid seda ei võeta arvesse.
Katsetavad omadused on enam-vähem kivistunud . Kui rämpspostiga tegelejad püüavad kohaneda (ja muuta nende rämpsposti filtriteks sobivaks), tuleb filtreerimistunnuseid käsitsi muuta - veelgi suuremat jõudu.
Igale sõna määratud skoor arvatavasti põhineb heale hinnangule, kuid see on endiselt meelevaldne. Ning nagu näitajate loend, ei kohandu see ei muutuva rämpssisuuga ega üldiselt üksikute kasutajate vajadustega.

Bayesi rämpsposti filtrid parandavad ennast paremaks ja paremaks

Bayesi rämpspostifiltrid on omamoodi ka hindamissuhtlusega sisupõhised filtrid. Kuid nende lähenemisviis aitab ära hoida lihtsate hindamisspetsifiltrite probleeme ja seda nii radikaalselt. Kuna hindamisfiltrite nõrkus on käsitsi üles ehitatud omaduste loendis ja nende skoorides, siis see nimekiri on kõrvaldatud.

Selle asemel valmistavad Bayesi rämpsposti filtrid enda nimekirja. Ideaaljuhul alustad (suured) hulga e-kirju, mille olete rämpspostiks liigutanud, ja teise hulga heale kirjale. Filtrid vaatavad mõlemat ja analüüsivad õigustatud meilisõnumit ja rämpsposti, et arvutada rämpspostiga kaasnevate erinevate omaduste tõenäosus ja heas kirjas.

Kuidas Bayesi rämpsposti filter uurib e-posti

Bayesi rämpspostifiltri omadused võivad olla järgmised:

loomulikult sõnad sõnumi kehas ja
selle päised (näiteks saatjad ja sõnumiteedid !), aga ka
muud aspektid, nagu HTML / CSS-kood (nt värvid ja muud vormindamine) või isegi
sõna paarid, fraasid ja
metaandmed (näiteks konkreetne fraas ilmub näiteks).

Kui näiteks sõna "Cartesi" ei kuvata kunagi rämpsposti, kuid tihti õigustatud e-kirjas, mida sa saad, on tõenäosus, et "Cartesi" rämpspost kuvatakse peaaegu nulli. Teiselt poolt tundub "tooner" eranditult ja tihti rämpspostiks. Toneril on väga suur tõenäosus leida rämpsposti, mitte palju alla 1 (100%).

Uue sõnumi saabumisel analüüsib seda Bayesi rämpspostifilter ning üksikute omaduste põhjal arvutatakse kogu rämpsposti sõnumi tõenäosus.

Oletame, et sõnum sisaldab nii "Cartesian" kui ka "Toonerit". Üksnes neist sõnadest ei ole veel selge, kas meil on rämpspost või juriidiline post. Muud omadused (loodetavasti ja tõenäoliselt) näitavad tõenäosust, mis võimaldab filtri sõnumit rühmitada kas rämpsu või heaks.

Bayesi rämpsposti filtrid saavad automaatselt õppida

Nüüd, kui meil on klassifikatsioon, saab sõnumit kasutada filtri enda täiendamiseks. Sellisel juhul vähendatakse kas e-maili "Dekarta" tõenäosust (kui sõnum, mis sisaldab nii "Cartesi" kui ka "tooneri", on rämpspost) või rämpsposti näitav "tooneri" tõenäosus tuleb uuesti läbi vaadata.

Selle automaatse adaptiivse tehnika abil saavad Bayesi filtrid õppida nii oma kui ka kasutaja otsustest (kui ta filtreerib valestiotsingu käsitsi). Bayesi filtreerimise kohanemisvõime tagab ka selle, et see on üksikutele e-posti kasutajatele kõige tõhusam. Kuigi enamikul inimestel võib rämpsposti olla sarnaseid omadusi, on õigustatud post kõigile iseloomulikult erinev.

Kuidas rämpsposti saavad vanad bayesiafiltrid?

Õigustatud posti omadused on sama oluline kui Bayesi rämpsposti filtreerimisprotsess rämpspostina. Kui filtreid koolitatakse spetsiaalselt iga kasutaja jaoks, on rämpspostitel veelgi raskem aega töötada kõigi (või isegi enamike inimeste) rämpspostifiltritega ja filtreid saab kohandada peaaegu kõik rämpspostigajad proovida.

Rämpsposti saatjad teevad seda ainult väljaõppinud Bayesi filtritega, kui nad teevad oma rämpsposti sõnumid otsekui välja nagu kõik tavalised e-kirjad.

Rämpsposti saatjad ei saadeta tavapäraseid kirju tavaliselt. Oletame, et see on seepärast, et need meilid ei tööta rämpspostiga. Seega on tõenäoline, et nad ei tee seda, kui tavapärased, igav emailid on ainus võimalus muuta see rämpsposti filtriteks.

Kui rämpspostipakkujad kasutavad enamasti tavalisi välimusega e-kirju, siis näeme uuesti meie postkastis palju rämpsposti ja e-post võib muutuda nii heidutavaks, nagu see oli eelseisvatel päevadel (või veel hullem). Kuid see rikkus ka enamiku rämpsposti turgu ja seega ei kesta kaua.

Tugevad näitajad võivad olla Bayesi rämpspostifilter Achilles & # 39; Heel

Rämpspostitel võib tajuda ühte erandit, et töötada Bayesi filtrite abil isegi nende tavalise sisuga. Baiessi statistika iseloomustab seda, et üks sõna või tunnus, mis väga sageli hea kirja saab, võib olla nii märkimisväärne, et see muudab sõnumi rämpspostist, et see filtri järgi sorteerida.

Kui rämpspostijuhtkonnad leiavad teie kindel tulekahjumärgiste sõnade kindlakstegemise viisi, näiteks kasutades HTML - i tagasiside laekumisi, et näha, millised teie poolt avatud kirjad on, võivad need sisaldada üht neist rämpspostiga ja jõuavad teile isegi hästi läbimõeldud sõnumite kaudu. väljaõppinud Bayesi filter.

John Graham-Cumming on proovinud seda teha, lastes kaks Bayesi filtrit üksteisega töötada, "halvaks", mis kohaneb sõnumitega, mis jõuavad läbi "hea" filtri. Ta ütleb, et see töötab, kuigi protsess on aeganõudev ja keerukas. Me ei arva, et me näeksime suurt osa sellest, vähemalt mitte suuremas ulatuses, ja ei ole kohandatud üksikisikute e-posti omadustele. Rämpsposti saatjad võivad (pigem proovida) selle asemel mõista mõnda organisatsioonisisest märksõna (näiteks "Almaden" mõnele inimestele IBMis).

Tavaliselt on rämpspost alati (oluliselt) tavapärasest e-kirjast erinev või see pole rämpspost.

Bottom Line: Bayesi filtreerimise tugevus võib olla selle nõrkus

Bayesi rämpsposti filtrid on sisupõhised filtrid, mis:

on spetsiaalselt koolitatud üksikute e-posti kasutajate rämpsposti ja hea e-posti tundmaõppimiseks , muutes need rämpsposti saatjate jaoks väga tõhusaks ja raskesti kohanemiseks.
saab pidevalt ja ilma palju jõupingutusi või manuaalanalüüsiga kohaneda rämpsposti saatjate uusimate trikkidega.
võta individuaalse kasutaja hea postitus arvesse ja neil on väga väike valepositiivne määr .
Kahjuks põhjustab see seade Bayesi rämpsposti filtride suhtes pimedat usaldust, mis muudab juhusliku vea veelgi tõsisemaks . Vale negatiivide (rämpspost, mis näeb välja täpselt nagu tavapostiga) vastasmõju võib kasutajaid häirida ja häirida.