Forget about multiple regression analysis

When starting in epidemiology I had  only high school math skills. Nevertheless, I could usually find major associations by simple tables and plots. Then I learned about multiple regression analysis and used it in numerous research papers. Nevertheless I soon discovered that

The results are often somewhere between meaningless and quite damaging.

Continue reading Forget about multiple regression analysis

 

CC-BY-NC Science Surf , accessed 10.04.2026

Up to 80% of webserver traffic is now by robots

It’s such a pain – my log files show that 80% of all traffic is being generated by robots. This is such a waste of energy
Even worse it slows down my site and makes me loose visitors. Unfortunately most of these bots ignore the robots.txt in the server root, so the only way is to block them by the server. My current .htaccess is taken from stackoverflow but far from being exhaustive

Options +FollowSymlinks  
RewriteEngine On  
RewriteBase /  
SetEnvIfNoCase Referer "^$" bad_user
SetEnvIfNoCase User-Agent "^GbPlugin" bad_user
SetEnvIfNoCase User-Agent "^Wget" bad_user
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_user
SetEnvIfNoCase User-Agent "^EmailWolf" bad_user
SetEnvIfNoCase User-Agent "^libwww-perl" bad_user
Deny from env=bad_user

Unfortunately even that did not prevent unwanted crawler – very much like spam bot lists, IP ranges, etc. But there are some more solutions – bots can be recognized by their behavioral pattern: the try to get prohibited and non existent pages. Let’s dive into the first option

One of my favorite security measures here at Perishable Press is the site’s virtual Blackhole trap for bad bots. The concept is simple: include a hidden link to a robots.txt-forbidden directory somewhere on your pages. Bots that ignore or disobey your robots rules will crawl the link and fall into the trap, which then performs a WHOIS Lookup and records the event in the blackhole data file. Once added to the blacklist data file, bad bots immediately are denied access to your site.

To make things a bit more attractive, I modified the Perishable approach by generating dynamic blackholes with permanently changing rules (in robots.txt) and redirects (in .htaccess).

My second approach is to monitor clicks to non-existent pages and put these IPs on a blacklist as well.

ErrorDocument 400 /404.php
ErrorDocument 401 /404.php
ErrorDocument 403.1 /404.php
ErrorDocument 403.14 /404.php
ErrorDocument 404 /404.php
ErrorDocument 500 /404.php

The 404 page does a quick database lookup and whenever the limit is reached the IP is blacklisted. Only last approaches (blackhole and 404 blacklist) finally reduced my traffic.

Note added in proof: As most spiders come have different IP addresses – I am blocking now everything from top level 172.168.255.xxx

 

CC-BY-NC Science Surf , accessed 10.04.2026

ZEIT Videos lokal speichern

Für einen Vortrag (ohne Internetverbindung) würde ich gerne ein Video von der ZEIT Webseite zeigen. Leider haben sich die ZEIT Macher große Mühe gegeben, das zu unterbinden obwohl der Stream zu 100% aus dem Bundestag kommt.
Es geht geht aber recht einfach auf dem Mac: zuerst die Adresse des Streams im HTML der Webseite suchen, ffmpeg installieren, ein Termin Fenster aufmachen, und dann eingeben

./ffmpeg -i "http://c.brightcove.com/services/mobile/streaming/index/rendition.m3u8?assetId=4599992246001&pubId=18140073001&videoId=4599874750001" -c:v copy -c:a copy -f mpegts bundestag.ts

(für SPIEGEL Videos braucht man rtmpdump).

 

CC-BY-NC Science Surf , accessed 10.04.2026

Die digitalen Grundrechte

Es war überfällig. Nach Schulz nun auch Maas mit einer Charta der digitalen Grundrechte

Heute nutzen wir fasziniert viele der digitalen Möglichkeiten und schaudern doch zugleich angesichts der Kollateralschäden: von der zunehmenden Auflösung unserer Privatsphäre über die Manipulierbarkeit menschliches Verhaltens bis hin zur Machtfülle der fünf Oligarchen des Westens – Amazon, Apple, Facebook, Google und Microsoft.

Dabei hätte es keine der Oligarchen wirklich geben müssen, wenn unsere Forschungs- und Wirtschaftsminister nur etwas Weitsicht bewiesen hätten. Nun muss es also der Justizminister richten

§1 Jeder Mensch hat das Recht auf Zugang zum Internet.
§2 Jeder Mensch hat das Recht, über seine persönlichen Daten selbst zu bestimmen.
§3 Jeder Mensch hat das Recht, über seine digitale Identität selbst zu bestimmen. Jeder Mensch hat ein Recht auf Vergessenen werden.
§4 Kein Mensch darf zum Objekt eines Algorithmus werden.
§5 Jeder Mensch hat das Recht, seine Meinung im Internet frei zu äußern und zu verbreiten und sich aus allgemein zugänglichen Quellen ungehindert zu unterrichten. Eine Zensur findet nicht statt.
§6 Das Recht, seine Meinung im Internet zu äußern, befreit niemanden davon, die allgemeinen Gesetze und das Persönlichkeitsrecht seiner Mitmenschen zu beachten.
§7 Jeder Mensch hat ein Recht darauf, dass seine Arbeit angemessen bezahlt wird, wenn er Dienstleistungen im Internet erbringt oder sie über das Internet vermittelt.
§8 Alle Urheber und ausübenden Künstler haben das Recht auf einen fairen Anteil an den Erträgen der digitalen Nutzung ihrer Werke.
§9 Der Staat gewährleistet die Netzneutralität.
§10 Niemand darf seine wirtschaftliche Macht missbrauchen. Der Staat verhindert Monopole und Kartelle; er fördert Vielfalt und Wettbewerb.
§11 Jeder Mensch hat ein Recht auf Datensicherheit.
§12 Die Staaten schaffen ein Völkerrecht des Netzes, um die Freiheit des Internets weltweit zu sichern.
§13 Jeder Mensch hat das Recht auf eine analoge Welt. Niemand darf ungerechtfertigt benachteiligt werden, weil er digitale Dienstleistungen nicht nutzt.

wird fortgesetzt.

 

CC-BY-NC Science Surf , accessed 10.04.2026

Gründe der Radikalisierung

Die Verengung oder besser das Übermächtigwerden, die “Radikalisierung” einer Idee, ist in der psychiatrischen Praxis, bei diversen Sportarten, in der Religionssoziologie aber auch im alltäglichen Wissenschaftsbetrieb zu sehen.

Leider weiss man aber nur sehr wenig, warum Menschen radikalisieren. Dabei wäre es dringend notwendig, den zugrunde liegenden Mechanismus zu verstehen, jedenfalls unendlich notwendiger, als militärische Kriege zu führen.
Continue reading Gründe der Radikalisierung

 

CC-BY-NC Science Surf , accessed 10.04.2026

Evolution is not by chance alone

Evolution isn’t down to chance alone, the New Scientist has been reviewing last year “Arrival of the fittest” by Andreas Wagner. Just by sheer numbers

The problem is that the library is so vast … that the odds of evolution stumbling across the specific “book” it needs … are practically zero. Something else must guide evolution through the library.

And Wagner tells us that Continue reading Evolution is not by chance alone

 

CC-BY-NC Science Surf , accessed 10.04.2026

Homo hominem lupus

Der BILD Blog hat eine fiese Zusammenstellung von Leserreaktionen auf die Flüchtlingsberichterstattung. Offensichtlich haben wir nur eine sehr dünne Zivilisationsschicht, ein Wolf ist der Mensch dem Menschen, kein Mensch, wenn man sich nicht kennt.

Erschreckend ist jedenfalls auch, was Kilian Kleinschmidt, der ehemalige Leiter des  Flüchtlingslager Zaatari an der syrisch-jordanischen Grenze mit mehr als 100 000 Bewohnern, zu berichten hat. Er beschreibt in einem neuen Buch die Menschen im Lager als hochgradig aggressiv. Continue reading Homo hominem lupus

 

CC-BY-NC Science Surf , accessed 10.04.2026