Category Archives: Software

Forget about multiple regression analysis

When starting in epidemiology I had  only high school math skills. Nevertheless, I could usually find major associations by simple tables and plots. Then I learned about multiple regression analysis and used it in numerous research papers. Nevertheless I soon discovered that

The results are often somewhere between meaningless and quite damaging.

Continue reading Forget about multiple regression analysis


CC-BY-NC

Up to 80% of webserver traffic is now by robots

It’s such a pain – my log files show that 80% of all traffic is being generated by robots. This is such a waste of energy
Even worse it slows down my site and makes me loose visitors. Unfortunately most of these bots ignore the robots.txt in the server root, so the only way is to block them by the server. My current .htaccess is taken from stackoverflow but far from being exhaustive

Options +FollowSymlinks  
RewriteEngine On  
RewriteBase /  
SetEnvIfNoCase Referer "^$" bad_user
SetEnvIfNoCase User-Agent "^GbPlugin" bad_user
SetEnvIfNoCase User-Agent "^Wget" bad_user
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_user
SetEnvIfNoCase User-Agent "^EmailWolf" bad_user
SetEnvIfNoCase User-Agent "^libwww-perl" bad_user
Deny from env=bad_user

Unfortunately even that did not prevent unwanted crawler – very much like spam bot lists, IP ranges, etc. But there are some more solutions – bots can be recognized by their behavioral pattern: the try to get prohibited and non existent pages. Let’s dive into the first option

One of my favorite security measures here at Perishable Press is the site’s virtual Blackhole trap for bad bots. The concept is simple: include a hidden link to a robots.txt-forbidden directory somewhere on your pages. Bots that ignore or disobey your robots rules will crawl the link and fall into the trap, which then performs a WHOIS Lookup and records the event in the blackhole data file. Once added to the blacklist data file, bad bots immediately are denied access to your site.

To make things a bit more attractive, I modified the Perishable approach by generating dynamic blackholes with permanently changing rules (in robots.txt) and redirects (in .htaccess).

My second approach is to monitor clicks to non-existent pages and put these IPs on a blacklist as well.

ErrorDocument 400 /404.php
ErrorDocument 401 /404.php
ErrorDocument 403.1 /404.php
ErrorDocument 403.14 /404.php
ErrorDocument 404 /404.php
ErrorDocument 500 /404.php

The 404 page does a quick database lookup and whenever the limit is reached the IP is blacklisted. Only last approaches (blackhole and 404 blacklist) finally reduced my traffic.

Note added in proof: As most spiders come have different IP addresses – I am blocking now everything from top level 172.168.255.xxx


CC-BY-NC

owncloud 8.2.2 update

Es ist immer mit etwas Bauchweh verbunden, ein neues Release von onwcloud einzuspielen. Diesmal kommt die Fehlermeldung

Update failed.Unable to move owncloud/_oc-upgrade/8.2.2.2/core/resources to owncloud/resources

Lässt sich aber relativ einfach beheben, Continue reading owncloud 8.2.2 update


CC-BY-NC

ZEIT Videos lokal speichern

Für einen Vortrag (ohne Internetverbindung) würde ich gerne ein Video von der ZEIT Webseite zeigen. Leider haben sich die ZEIT Macher große Mühe gegeben, das zu unterbinden obwohl der Stream zu 100% aus dem Bundestag kommt.
Es geht geht aber recht einfach auf dem Mac: zuerst die Adresse des Streams im HTML der Webseite suchen, ffmpeg installieren, ein Termin Fenster aufmachen, und dann eingeben

./ffmpeg -i "http://c.brightcove.com/services/mobile/streaming/index/rendition.m3u8?assetId=4599992246001&pubId=18140073001&videoId=4599874750001" -c:v copy -c:a copy -f mpegts bundestag.ts

(für SPIEGEL Videos braucht man rtmpdump).


CC-BY-NC

Die digitalen Grundrechte

Es war überfällig. Nach Schulz nun auch Maas mit einer Charta der digitalen Grundrechte

Heute nutzen wir fasziniert viele der digitalen Möglichkeiten und schaudern doch zugleich angesichts der Kollateralschäden: von der zunehmenden Auflösung unserer Privatsphäre über die Manipulierbarkeit menschliches Verhaltens bis hin zur Machtfülle der fünf Oligarchen des Westens – Amazon, Apple, Facebook, Google und Microsoft.

Dabei hätte es keine der Oligarchen wirklich geben müssen, wenn unsere Forschungs- und Wirtschaftsminister nur etwas Weitsicht bewiesen hätten. Nun muss es also der Justizminister richten

§1 Jeder Mensch hat das Recht auf Zugang zum Internet.
§2 Jeder Mensch hat das Recht, über seine persönlichen Daten selbst zu bestimmen.
§3 Jeder Mensch hat das Recht, über seine digitale Identität selbst zu bestimmen. Jeder Mensch hat ein Recht auf Vergessenen werden.
§4 Kein Mensch darf zum Objekt eines Algorithmus werden.
§5 Jeder Mensch hat das Recht, seine Meinung im Internet frei zu äußern und zu verbreiten und sich aus allgemein zugänglichen Quellen ungehindert zu unterrichten. Eine Zensur findet nicht statt.
§6 Das Recht, seine Meinung im Internet zu äußern, befreit niemanden davon, die allgemeinen Gesetze und das Persönlichkeitsrecht seiner Mitmenschen zu beachten.
§7 Jeder Mensch hat ein Recht darauf, dass seine Arbeit angemessen bezahlt wird, wenn er Dienstleistungen im Internet erbringt oder sie über das Internet vermittelt.
§8 Alle Urheber und ausübenden Künstler haben das Recht auf einen fairen Anteil an den Erträgen der digitalen Nutzung ihrer Werke.
§9 Der Staat gewährleistet die Netzneutralität.
§10 Niemand darf seine wirtschaftliche Macht missbrauchen. Der Staat verhindert Monopole und Kartelle; er fördert Vielfalt und Wettbewerb.
§11 Jeder Mensch hat ein Recht auf Datensicherheit.
§12 Die Staaten schaffen ein Völkerrecht des Netzes, um die Freiheit des Internets weltweit zu sichern.
§13 Jeder Mensch hat das Recht auf eine analoge Welt. Niemand darf ungerechtfertigt benachteiligt werden, weil er digitale Dienstleistungen nicht nutzt.

wird fortgesetzt.


CC-BY-NC

Gründe der Radikalisierung

Die Verengung oder besser das Übermächtigwerden, die “Radikalisierung” einer Idee, ist in der psychiatrischen Praxis, bei diversen Sportarten, in der Religionssoziologie aber auch im alltäglichen Wissenschaftsbetrieb zu sehen.

Leider weiss man aber nur sehr wenig, warum Menschen radikalisieren. Dabei wäre es dringend notwendig, den zugrunde liegenden Mechanismus zu verstehen, jedenfalls unendlich notwendiger, als militärische Kriege zu führen.
Continue reading Gründe der Radikalisierung


CC-BY-NC

Evolution is not by chance alone

Evolution isn’t down to chance alone, the New Scientist has been reviewing last year “Arrival of the fittest” by Andreas Wagner. Just by sheer numbers

The problem is that the library is so vast … that the odds of evolution stumbling across the specific “book” it needs … are practically zero. Something else must guide evolution through the library.

And Wagner tells us that Continue reading Evolution is not by chance alone


CC-BY-NC

Excel Sheet – vergiss es

Excel ist so etwas wie die eierlegende Wollmilchsau für Nichtprogrammierer, die aber trotzdem ihre Milchmädchenrechnung auf dem Computer machen wollen.

Leider, und das ist immer wieder die Erfahrung, Excelsheets strotzen vor Fehlern. Da werden Zeilen in Bereichen vergessen, per Hand Änderungen eingefügt, da stimmen Formeln und Rundungen nicht. Was alles lange bekannt ist. Continue reading Excel Sheet – vergiss es


CC-BY-NC

Are you scammed too?

Well, I have been supporting startups even before Kickstarter and Indiego. Unfortunately Carbike never came into life, all my money was lost.
But if you think that science + arts are important, you can’t stop funding interesting projects. I even sold devices later for some unexpected problems (CloudFTP,  The Nutter) or could not access the expected video projects (Bikes vs Cars).
But I see crowdfunding more like an altruistic way to support good ideas and do not feel scammed as many Zano backers.
Even right now where again two of my backed projects are in troubled water (Kraftwerk and Itraq) I see this as an experiment where I am not looking for revenues, at least not in the first instance. But maybe I would appreciate deadlines from the grant holders and any reason why they could not be met. And of course a note when the project is being dead.


CC-BY-NC

The world is not germfree, and will never be

Axel Trautmann and Jörg Kleine-Tebbe in their allergy book are citing extensively Eugen Bleuler, Springer 1921 “Das autistisch-undisziplinierte Denken in der Medizin und seine Überwindung“:

Irrtümer, nicht Lücken, hindern die Wissenschaft am Fortschreiten. Zu den folgenschwersten Irrtümern gehört, daß man meint, etwas zu wissen, was man nicht weiß; und wenn man sich auch nur vor andern den Anschein gibt, etwas zu wissen, was in Wirklichkeit unbekannt ist, so hat das auf die andern und schließ lieh auf sich selber die nämliche Wirkung. [Outright errors not just some deficits set back science]

They probably know how allergy research has been driven by wrong assumptions.

Some people now even claim (according to press releases) that an allergy cure by altering the microbiome is being just around the corner. This is a bit like Otto Lilienthal, after some first drawings of a new wing speculating about an Airbus A380 to become the world’s largest passenger airliner. Continue reading The world is not germfree, and will never be


CC-BY-NC

Sprache und Denken

Germanisten, Juristen und Theologen werden wohl zu den letzten Hütern der deutschen Sprache.

… dass es an den Hochschulen immer stärkere Neigungen gibt, Deutsch als Sprache zu verbannen. In nur noch wenigen Fächern publizieren Forscher in nennenswertem Umfang auf Deutsch. In den Naturwissenschaften wird in deutscher Sprache kaum noch etwas von Bedeutung veröffentlicht; die deutsche Fachterminologie verschwindet. Auch das Studium ist von der Übermacht des Englischen durchdrungen: Die Fachhochschulen nennen sich schon länger »Universities of Applied Sciences«; das Zentralinstitut für Lehrerbildung der Humboldt Universität heißt »Professional School of Education«. In manchen Exzellenzclustern wird auf Englisch kommuniziert, sobald auch nur ein Teilnehmer des Deutschen nicht mächtig ist.

Das ist aber nur scheinbar ein Fortschritt. In der Wirklichkeit gehen die Universitäten gerade an ihren verballhornten Pidgin-Englisch zu Grunde. Denn kaum einer der Gastwissenschaftler, denen zuliebe Englisch gesprochen wird, spricht selbst gut Englisch. Und was bleibt ist dann, wie es der Academics Artikel höflich ausdrückt, das Bologna Imponierdeutsch, oder nur noch der pure Klamauk.

Es gibt eben kein sprachunabhängiges Denken. Die völlig falsch verstandenen Internationalisierung wird zum Bumerang , ganz einfach, weil sich keiner mehr die Mühe macht, die richtigen Worte zu finden. Das findet auch Roland Kaehlbrandt

Letztlich verbirgt sich hinter diesen Erscheinungen des Wissenschaftsbetriebes eine Fehleinschätzung der Sprache. Sie wird als beliebig austauschbares Instrumentarium für sprachunabhängiges Denken angesehen. Das ist aber falsch. Unsere alten Hochsprachen sind feinste Werkzeuge des Ausdrucks, des Denkens und des Handelns, die wiederum unser Denken und Handeln stark beeinflussen.


CC-BY-NC