Thomas Richter schrieb:
> Hi,
> in denen ca. 800 Byte sinnlose Wortkombinationen stehen.
> Diese stehen immer im Textteil und manchmal auch im Html-Teil.
> Mein Gef=FChl sagt: Angriff auf die Bayes Spamanalyse. Wenn irgendwann
> alle W=F6rter im W=F6rterbuch auftauchen, sagt Bayes dann immer 100% un=
d=20
> Schlu=DF ist. Dann ist alles Spam.
>=20
> wkr Thomas Richter
>=20
Hi Thomas,
falls Dich das interessiert, unten die entsprechende Passage aus
http://www.paulgraham.com/sofar.html
"Wenn irgendwann alle W=F6rter auftauchen" wird so nicht passieren, weil=20
sie erstens "Mindestens x mal" aufgetaucht sein m=FCssen (einmal reicht=20
nicht), zweitens vor einer gewissen Zeit (etwa vor maximal einem halben=20
Jahr), und drittens werden nur die relevantesten Worte f=FCr die=20
Spamanalyse des Bayes-Filters benutzt, etwa die 10 mit der h=F6chsten=20
Spam-, und die 10 mit der h=F6chsten Ham-Wahrscheinlichkeit. Ein Wort wir=
d=20
also die Analyse eines aktuellen Hams nicht beeinflussen, wenn es vor 8=20
Monaten einmal in einem Spam aufgetaucht ist.
Beruhig' Dich wieder ;-)
Wolfram
PS: Die angeh=E4ngten/vorangestellten Zeitungsartikel/sinnlosen=20
Wortsammlungen/Gesetzestexte/Redenausz=FCge dienen m.E. dazu, die=20
Spamfilter auszuschalten, die auf Checksummen basieren, also Razor,=20
Pyzor, DCC.
PSS: Mach ne SA-Regel "40 Worte ohne Satzzeichen", dass erwischt=20
ungef=E4hr ein Viertel meines Spams in dieser Art.
-----
More Good Tokens
There are only two ways to get past a Bayesian filter: add more good=20
tokens, or use fewer bad ones. Spammers are actively trying both.
They try to add good tokens by inserting random dictionary words, or by=20
attaching a big chunk of neutral text, typically from a book or a wire=20
service article. Neither of these tricks works very well.
Choosing words at random yields (as you might expect) words that are=20
just as likely to occur in spams as in legitimate mail. The vocabulary=20
of spams is a little narrower than that of legitimate mail, so spammers=20
may get a slight benefit from adding random words, but it is mostly a=20
wash, statistically.
Most randomly chosen words turn out not to have occurred in either spam=20
or nonspam mail, and therefore have neutral spam probabilities. (I still=20
use .4 as the default for unseen words.) You can counter the noise of=20
random tokens by using an occurrence threshold, as recommended in the=20
Plan for Spam. I still use a threshold of 3.
Appending chunks of articles or books doesn't seem to work any better,=20
at least in the cases I've seen so far. The appended text doesn't look=20
like spam, but it doesn't look much like the email I get either, so it=20
tends not to have any effect, statistically.
Many spammers now use randomly generated names in their From lines, but=20
these turn out to make filtering easier: I get a lot of email from=20
strangers, but none of them so far have been called Krystal or Louella.=20
I think the names of most users' correspondents will fall into a small,=20
consistent subset. So choosing names at random will yield tokens with=20
high, not neutral, spam probabilities.
|