All posts by admin

Anti Diskriminierungs Fake

Die ZEIT berichtet von  einer Präsentation der Bundesbeauftragten für Antidiskriminierung, Ferda Ataman, bei der BPK  in Berlin

Viele Menschen in Deutschland glauben einer Studie zufolge an vermeintlich naturgegebene Unterschiede zwischen verschiedenen Ethnien und Kulturen. So stimmten zwei von drei Befragten der Aussage zu, dass bestimmte Kulturen “fortschrittlicher und besser” seien als andere, wie aus der Erhebung des Deutschen Zentrums für Integrations- und Migrationsforschung (DeZIM) hervorgeht. Knapp die Hälfte vertrat die Ansicht, dass gewisse Gruppen “von Natur aus fleißiger” seien als andere. 36 Prozent der Befragten stimmten der Aussage zu, dass es unterschiedliche “Rassen” gäbe.

Um eine solche Studie machen zu können, muss man:frau minimale Voraussetzungen in Testtheorie mitbringen. Basale Kenntnisse der Kulturwissenschaft, Genetik, Medizin oder Pädagogik schaden auch nicht. Leider fehlt dies aber den Leitern dieser “Studie” (download hier).

Oversampling ohne transparente Gewichtung. Die Studie überrepräsentiert bestimmte Gruppen absichtlich durch eine Vorklassifikation nach Vor- und Nachnamen aus Melderegistern. Das ist legitim – aber die Gewichtung wurde im aktuellen Bericht erstmals an Mikrozensus-Daten angepasst, was die Autoren selbst einräumen führt dazu, dass frühere Berichte “in einzelnen Zahlen leicht abweichen”. Zeitreihenvergleiche sind damit methodisch fragwürdig.

Selbstauskunft als einzige Datenquelle. Alle Kernvariablen – Einstellungen, Diskriminierungserfahrungen, Institutionenvertrauen – beruhen auf subjektiver Selbstauskunft. Es gibt keine Kreuzvalidierung mit administrativen Daten, Experimenten (Audit-Studien) oder objektiven Indikatoren.

Zirkuläre Operationalisierung von “Rassismus”. Das Instrument misst u.a. die Zustimmung zur Aussage, bestimmte Kulturen seien “fortschrittlicher und besser” als andere (66 % Zustimmung), und wertet dies als rassistische Einstellung.  Eine derartig breite Definition schließt faktische Kulturvergleiche, zivilisationstheoretische Positionen und Alltagsurteile pauschal als “Rassismus” ein – das ist eine normative Vorentscheidung, keine empirische.

Konfundierung von Ursache und Wirkung. Der Bericht berichtet Korrelationen zwischen Diskriminierungserfahrungen und Institutionenvertrauen und formuliert daraus kausale Schlüsse (“gehen einher mit”, “führen zu”). Längsschnittdaten wären nötig, um Kausalrichtung zu bestimmen – das Panel ließe das zumindest ansatzweise zu, wird aber hauptsächlich im Querschnitt ausgewertet.

Selektiver Attrition-Bias. Die Gewichtung für Panel-Ausfälle erfolgt anhand von Merkmalen wie Selbstidentifikation und Einstellungen gegenüber verschiedenen Gruppen.  Wer aus dem Panel ausscheidet, weil er das Thema Rassismus als irrelevant empfindet, wird weggewichtet – das strukturiert die Ergebnisse in Richtung der Ausgangshypothese.

Institutionelle Interessenlage. Das NaDiRa ist beim Deutschen Zentrum für Integrations- und Migrationsforschung (DeZIM) angesiedelt und wird vom Bundesministerium gefördert. Die Handlungsempfehlungen am Ende des Berichts sind das erklärte politische Ziel. Das ist kein Fehler per se, aber ein Faktor für die Interpretation.

Zusammenfassung. Die Studie ist kein Beleg für die Verbreitung von Rassismus in Deutschland, sondern eine Messung davon, wie viele Menschen bestimmten, normativ vordefinierten Aussagen zustimmen. Die Gleichsetzung von Zustimmungsraten mit “rassistischen Einstellungen” ist die Kernproblematik – sie folgt aus dem theoretischen Rahmen, nicht aus den Daten selbst.

“Garbabge in, Garbage out” – eine solche sensible Fragestellung in einem “online Tool” ohne vorherige ausführliche Validierung zu bearbeiten? Wo es so sehr auf Nuancen im Sprachgebrauch ankommt?

So ist nicht nur die PK sondern auch die Studie auch die Kernaussagen ein Musterbeispiel für politische Agenda aber nicht für eine validierte Aussage. Verständlicherweise kommt daher  vielfache Kritik-  Auszüge:

https://profile.zeit.de/2784058 … nicht jede Kultur ist gleich gut. Eine Kultur, in der es bspw. als normal gilt, dass junge Mädchen genitalverstümmelt, zwangsverheiratet und systematisch entrechtet werden, ist einer westlich liberalen Kultur moralisch unterlegen. Dasselbe gilt für kulturelle Prägungen, in denen Ehrengewalt, religiöser Fanatismus oder brutale Homosexuellenverfolgung als selbstverständlich gelten. Oder eine Kultur, die Massenmördern Märtyrerrenten zahlt und betont, wie ehrenvoll es sei, “Ungläubige” zu ermorden. Wer so tut, als dürfe man hier keine Wertung vornehmen, verwechselt Toleranz mit moralischer Beliebigkeit. Eine offene, rechtsstaatliche und freiheitliche Gesellschaft ist solchen Gesellschaftsmodellen überlegen, gerade weil sie individuelle Freiheit, körperliche Unversehrtheit und gleiche Rechte schützt, statt Unterdrückung als Tradition zu bemänteln.

https://profile.zeit.de/2965476 Damals gab es keine AfD und alles erschien aus heutiger Sicht gut. Ich werde das Gefühl nicht los, dass heute jeder vermeintliche Gutmensch fieberhaft unter jedem Stein einen Nazi sucht, um sich dann als der Bessere Bürger, sprich, auf der richtigen Seite der Brandmauer einsortieren zu können. Dieses platte und flache schwarz / weiß denken ist der Treibstoff der AfD

https://profile.zeit.de/2462818 Natürlich finde ich manche Kulturen besser als andere. Russland hat eine Kultur, die mehr von Machtdenken, Chauvinismus, und Gewalt geprägt ist, als andere. Ich halte Japan‘s Workoholic-Kultur und die Schönheitschirurgie-Obsession Korea‘s für problematisch. Ebenso Deutschland’s Bürokratie und technische Innovationsfeindlichkeit, Amerikanische Waffen-Kultur und Überheblichkeit, oder eine Kultur, die Genitalverstümmelung gut heißt. Aus diesem Mix an problematischen Aspekten verschiedener Kulturen ergibt sich zwangsläufig, dass manche Kulturen Aggregat dem Wohl der Menschheit zuträglicher (und damit „besser“) sind, als andere. Das anzuerkennen ist erst mal nicht rassistisch.

 

CC-BY-NC Science Surf , accessed 21.03.2026

Bias und Deception in den Bewertungssystemen von Google und Ebay

Google und Ebay Bewertungen steuern Warenflüsse, mehr noch als jede Werbung.

Sie aggregieren verteiltes Wissen, komprimieren es zu Signalen und machen es für Dritte nutzbar – immer unter der Voraussetzung, dass die Eingabedaten die Realität hinreichend abbilden. Diese Voraussetzung ist keine technische Selbstverständlichkeit, sondern eine normative Anforderung, die im Alltag digitaler Plattformen aber immer mehr ignoriert wird.

Nehmen wir eBay. Seit November 2025 hinterlegt die Plattform automatisch eine positive Bewertung, wenn ein Käufer nach abgeschlossenem Kauf sich nicht meldet. Die Begründung ist nachvollziehbar: Schweigen ist häufig tatsächlich Zufriedenheit, und ein dichtes Bewertungsnetz stabilisiert das Vertrauen in den Marktplatz. Aber das System misst nicht mehr damit, was es zu messen vorgibt. Eine positive Bewertung, die nicht auf erlebter Zufriedenheit beruht, sondern auf dem Ausbleiben einer Handlung, ist wie ein Datum ohne Zeitangabe – formal vorhanden, semantisch leer. Wer einen defekten Artikel erhält und es versäumt, fristgerecht zu reagieren, erscheint im System als zufriedener Käufer. Das Protokoll stimmt. Aber mit der Realität hat das nichts mehr zu tun.

Google operiert nach derselben Logik, nur mit umgekehrtem Vorzeichen. Negative Bewertungen, die nachweislich auf realen Erfahrungen beruhen – und deren Authentizität Nutzer sogar per eidesstattlicher Erklärung belegt haben – werden auf Antrag des bewerteten Unternehmens routinemäßig gelöscht, wenn das Unternehmen “Unangemessenheit” oder “Diffamierung” geltend macht. Das Ergebnis ist dasselbe wie bei eBay, nur eine Eskalationsstufe darüber: Nicht Schweigen wird als Zustimmung kodiert, sondern das Missfallen wird zum Verschwinden gebracht. Was bleibt, ist kein Abbild der Realität mehr, sondern ein gefiltertes, plattformkonformes Surrogat, das dem widersprechenden Unternehmen höhere Einnahmen beschert.

Man könnte von struktureller Deception sprechen – einer Täuschung, die nicht aus Absicht, sondern aus Design entsteht1. Das Beunruhigende daran ist gerade die Absichtslosigkeit: Weil kein einzelner Akteur mehr verantwortlich zeichnet, fehlt auch die Motivation zur Korrektur. Bei einer klassischen Lüge gibt es einen Täuschenden, der zur Rechenschaft gezogen werden kann. Bei einem absichtlich auf Täuschung konstruierten Bewertungsalgorithmus gibt es nur ein Produktteam, das auf Conversion-Raten schaut. Ethik oder Moral? Brauchen wir nicht, unvergesslich das Video vom großen Tech-CEO-Vasallen-Dinner im September 2025 auf dem betonierten Rasen vor dem Weißen Haus.

Schlimmer noch: automatisierte Systeme skalieren diesen Effekt hoch. Was im Einzelfall als Ungenauigkeit wirkt, akkumuliert sich über alle AI’s zu einem systematischen Vertrauensproblem. Vertrauenssysteme, die sich selbst korrumpieren, verlieren damit aber  jeden Tag mehr an Nützlichkeit – sie kippen um. Die Sterne leuchten noch, aber bedeuten nichts mehr. Das betrifft auch jede positive Bewertung, die nun als Werbung degradiert wird, aber eigentlich auf einer Erfahrung beruhte, sofern sie nicht auch gekauft war.

Ist das organisierter Betrug?

Juristisch kaum. Bandenmäßiger Betrug setzt nach § 263 StGB Täuschungsabsicht, Irrtumserregung und Vermögensschaden voraus – und bei der Qualifikation “bandenförmig” eine organisierte Mehrtäterstruktur mit Tatplan. Beide Unternehmen handeln aber offen: Das Schweigen-gleich-Zustimmung-Prinzip und Jederzeit-Löschen-Prinzip steht mit Sicherheit irgendwo in den Nutzungsbedingungen. Juristisch greifbar wäre allenfalls irreführende Geschäftspraxis im Sinne des UWG oder der europäischen Omnibus-Richtlinie.

Epistemisch aber – im Kern ist es natürlich Betrug. Wenn man Betrug funktional versteht, als systematische Erzeugung falscher Überzeugungen zum eigenen Vorteil, dann trifft die Beschreibung erstaunlich gut: eBay profitiert von stabilen Verkäuferbewertungen, Google von einem bereinigten Reputationssystem, das Unternehmenskunden nicht vergraullt. Dass dies ohne strafrechtlich relevante Absicht geschieht, macht es gesellschaftlich nicht weniger problematisch – es macht es nur schwerer angreifbar.

Die Omnibus-Richtlinie – EU-Richtlinie 2019/2161, in Deutschland seit Mai 2022 in Kraft, hat das UWG geändert. Der für unseren Kontext entscheidende Punkt: Plattformen sind seither verpflichtet offenzulegen, ob und wie sie Bewertungen auf Echtheit prüfen. Wer suggeriert, Bewertungen seien authentisch, ohne ein Prüfverfahren zu betreiben, handelt nun unlauter. Außerdem sind gekaufte oder anderweitig gefälschte Bewertungen ausdrücklich als unlautere Geschäftspraxis eingestuft.  Warum greift das bei eBay und Google trotzdem nicht?  Weil beide Unternehmen formal prüfen – nur eben nicht auf Wahrheit, sondern auf Regelkonformität. eBay prüft, ob eine Transaktion stattgefunden hat. Google prüft, ob eine Beschwerde vorliegt. Das genügt juristisch als “Prüfverfahren”, auch wenn das Ergebnis völlig wertlos ist. Die Richtlinie hat eine Lücke dort, wo es darauf ankäme: Sie reguliert das Verfahren, nicht die Qualität des Ergebnisses.

Die folgenden drei Fallbeispiele im Anhang illustrieren, wie Konstruktionsbias und strukturelle Täuschung in unterschiedlichen Kontexten auftreten, wobei sich der Leser gerne selbst die Konsequenzen  ableiten kann..

 

Anhang Fallbeispiel

Albert’s Auto Service Gröbenzell

Im September 2024 beauftragte ein Kunde die Werkstatt von Burim Qeriqi in Gröbenzell mit der Reparatur eines Kurzschlusses. Die Rechnung belief sich auf 255,17 Euro. Die anschließend aufgesuchte Fachwerkstatt stellte schriftlich in ihrer Rechnung fest, dass die Lampen in beiden Fassungen fehlten oder falsch angeschlossen waren, die Verkabelung der dritten Bremslampe nicht funktionierte und korrodierte Kabelverbindungen am Unterboden unangetastet geblieben waren. Die Nachbesserung kostete 720,00 Euro. Qeriqi ist, wie sich später herausstellte, kein Mitglied der KFZ-Innung – ein Umstand, der auf seiner Google-Seite naturgemäß nicht vermerkt ist. Die sachliche und belegbare Rezension des Kunden auf Google verschwand jedenfalls bald darauf. Ein Tracing der Bewertungen über achtzehn Monate ergab: Die Werkstatt löscht negative Bewertungen systematisch und umgehend. Google stellt dafür das Werkzeug bereit – ohne Prüfung der inhaltlichen Berechtigung, ohne Berücksichtigung von Belegen. Eine einzelne negative Bewertung, die zum Zeitpunkt der Recherche noch sichtbar war, illustriert eher die Geschwindigkeit des Löschvorgangs als dessen Ausnahmen. Was auf der Profilseite verbleibt, ist kein Abbild der Kundenerfahrungen, sondern das Ergebnis aktiven Reputationsmanagements – ermöglicht und abgesichert durch die Plattform.

Screenshot 16.3.2026. Die negativen Bewertungen fehlen – ist die positive Bewertungen von Claude Menu aus Nizza echt?

 

Fallbeispiel 2

Gutachter Büro Christian Sailer Aichach.

Der Gutachter wird wegen eines Wasserschadens von einem Kunden auf Rat seines Anwalts kontaktiert. Der Gutachter erscheint spät, unvorbereitet, liefert statt einer strukturierten Bestandsaufnahme einen langatmigen Vortrag. Der Kunde bricht das Gutachten ab. Die anschließende Honorarforderung landet vor Gericht und endet mit einem Vergleich – einem rechtsförmigen Abschluss, der den Sachverhalt aktenkundig macht. Der Kunde verfasst daraufhin eine präzise, tatsachenbasierte Rezension auf Google: keine Polemik, keine Vermutungen, nur der dokumentierte Hergang mit der Empfehlung keinen Blanko Werkauftrag zu unterschreiben. Das Ergebnis ist vorhersehbar. Google teilt mit, eine Beschwerde wegen Diffamierung erhalten zu haben, und löscht den Zugriff auf den Beitrag 2. Die Begründung lautet lapidar: der Inhalt “verstößt anscheinend gegen” die entsprechende Kategorie. Kein Nachweis, keine Abwägung, kein Einblick in die Prüfung, keine Reaktion auch auf die Reklamation, die Bewertung stehen zu lassen. Das Wort “anscheinend” ist dabei bezeichnend – es signalisiert, dass keine eigentliche Prüfung stattgefunden hat, sondern eine Kategorisierung. Was hier verschwindet, ist keine Meinung, sondern ein gerichtlich bestätigter Sachverhalt. Die Plattform fungiert als Zensurinstanz ohne Erkenntnisinteresse: Sie prüft nicht, ob eine Aussage wahr ist, sondern ob jemand Einspruch erhoben hat..

Screenshot 16.3.2026
Screenshot 16.3.26 mit Selbstdarstellung der Qualifikationen

 

Fallbeispiel 3

Strikeforge GbR Ebay Händler

Ein Kunde kauft auf eBay einen AirTag-Halter aus dem 3D-Drucker – billiges Filament, zu geringe Wandstärke. Das Teil bricht kurz darauf unterwegs ab, der AirTag geht verloren – 5,99 € für den Halter, 32,99€ Verlust für den AirTag summieren sich zu 39€.  Ohne Garantie, ohne Schadenersatz, dafür aber mit Belehrung durch den Verkäufer Philipp Huguenin, daß die Widerrufsfrist “bereits seit längerer Zeit abgelaufen ist. Schäden, die nach dieser Nutzungsdauer durch Belastung im Gebrauch entstehen, können wir leider nicht als Reklamation übernehmen. Vielen Dank für dein Verständnis.” Der Verkäufer dreht die Beweislast auch noch um – er definiert den Produktfehler (zu geringe Wandstärke) als Gebrauchsverschleiß und entzieht sich damit jeder Gewährleistungspflicht. Die gesetzliche Gewährleistungsfrist beträgt 2 Jahre ab Kauf – die Widerrufsfrist (14 Tage) ist etwas völlig anderes. Die  Verwechslung von Widerrufsrecht und gesetzlicher Gewährleistung zeigt entweder Unkenntnis oder Kalkül.  Der Kunde gab jedenfalls keine Bewertung ab. Nach dem Kauf erscheint auf eBay aber eine positive Bewertung für den Kauf – automatisch generiert, plattformkonform, sachlich falsch.

Screenshot 16.3.206

Das ist der Mechanismus in Reinform. Kein Verkäufer hat gelogen. Kein Algorithmus hat eine Entscheidung getroffen, die sich jemand bewusst überlegt hätte. Das System hat schlicht Schweigen als Zufriedenheit interpretiert und daraus eine Aussage gemacht. Der Verkäufer der mangelhaftenWare sammelt weiter positive Bewertungen. Der nächste Käufer verlässt sich darauf. Der AirTag des Übernächsten geht ebenfalls verloren – informiert durch ein Bewertungssystem, das funktioniert, solange man nicht fragt, was es eigentlich misst.

 

Literatur

1 Der Begriff schließt an Miranda Frickers Konzept der hermeneutical injustice an: Strukturelle Lücken im kollektiven Deutungsrepertoire führen dazu, dass bestimmte Erfahrungen nicht adäquat artikuliert – oder in diesem Fall: nicht dauerhaft dokumentiert – werden können. Fricker, M.: Epistemic Injustice. Power and the Ethics of Knowing. Oxford 2007

2 siehe auch SWR vom 7.7.2025 “Google-Bewertungen: Warum ehrliche Kritik oft gelöscht wird”

Googles Antwort: Allgemein und ausweichend
In einem offiziellen Erklärvideo beschreibt Google, wie Rezensionen geprüft werden: mithilfe von künstlicher Intelligenz und einem Moderationsteam. 2024 seien über 240 Millionen Beiträge entfernt worden.
„Unsere Richtlinien besagen eindeutig, dass Rezensionen auf echten Erfahrungen beruhen müssen – weshalb wir umgehend gegen böswillige Akteure vorgehen (…)“, schreibt Google.Sackgasse für ehrliche Meinung
Kunden, deren ehrliche Meinung immer wieder gelöscht wird, sind frustriert. Was sie erleben, nimmt ihnen das Vertrauen in das Bewertungs-System.

 

CC-BY-NC Science Surf , accessed 21.03.2026

Academics need to rescue Wikipedia

Wikipedia represents something unprecedented: the only major platform on which truth emerges through transparent debate, rather than algorithmic opacity or corporate interests. Every edit is logged, every discussion archived. In an era of AI hallucinations, black-box algorithms and widespread disinformation, Wikipedia’s radical transparency has become even more essential.

AI models have extensively grabbed all information without giving back anything as Jemielniak now writes. But why does academia still treat Wikipedia with unwarranted scepticism? Why do many students trust it but not most scholars?

It’s not mere snobbery as Jemielniak thinks, it is structural. First, there’s no academic reward for writing on Wikipedia. Unlike journal articles or books, contributions don’t count toward tenure, promotion, or funding. Second, edits by experts are often reverted or overwritten by anonymous users, sometimes less informed, leading to frustration and wasted effort. Third, while citations exist, the sourcing standards and editorial oversight fall short of academic norms in many fields.

Despite evidence that Wikipedia’s accuracy rivals traditional encyclopedias – especially in science and medicine – academics remain hesitant. Some fear losing control over knowledge dissemination. Others dismiss it due to its open, non-peer-reviewed model. Yet Wikipedia reaches millions daily, far more than any academic paper. The irony is clear: scholars use it privately but won’t engage publicly.

If academia wants real societal impact, contributing to Wikipedia may be the most effective way to share knowledge. But without institutional recognition, that shift won’t happen – and the platform risks decline as AI extracts its value without replenishing it.

Academia could rescue Wikipedia now.

Jan 28, 2026

It seems that Nature is reading my blog.

 

CC-BY-NC Science Surf , accessed 21.03.2026

Die DFG torpediert sich selbst

https://www.dfg.de/de/aktuelles/neuigkeiten-themen/info-wissenschaft/2025/ifw-25-102

AI‑Systeme, jedenfalls wie sie heute existieren, beruhen ausschließlich auf historischen Daten und statistischen Mustern aus bereits vorhandenem Wissen. Sie können nicht wirklich verstehen oder originell urteilen, sondern nur bekannte Konzepte extrapolieren. Dadurch fehlt ihnen die Fähigkeit, bahnbrechende, noch nicht dokumentierte Ideen oder originelle wissenschaftliche Innovationen zu erkennen oder korrekt zu bewerten — was für die Beurteilung von Forschungsanträgen oft zentral ist.

Fachlich versierte Gutachter*innen bringen Erfahrung, kontextuelles Verständnis und Intuition in die Bewertung ein — Qualitäten, die KI‑Modelle noch nicht besitzen. KI kann bei Routine‑Checks oder formalen Aspekten helfen, aber sie kann nicht subtile wissenschaftliche Originalität, methodische Raffinesse oder neuartige Denkansätze zuverlässig bewerten. Definitiv nicht.

KI‑Modelle lernen aus Datensätzen, die bereits menschliche Vorurteile und strukturelle Verzerrungen enthalten. Wenn solche Systeme zur Begutachtung eingesetzt werden, riskieren sie, historische Ungerechtigkeiten und systematische Biases zu reproduzieren – etwa gegenüber bestimmten Fachrichtungen, Regionen oder Methoden – selbst wenn „Verantwortung bei den Gutachter*innen“ verbleibt. Angeblich.

Bei der Eingabe von Anträgen oder vertraulichen wissenschaftlichen Daten in KI‑Systeme besteht das Risiko, dass diese Informationen nicht vollständig kontrolliert oder gespeichert werden. Obwohl DFG‑Richtlinien Vertraulichkeit fordern, bleibt die technische Umsetzung anspruchsvoll und juristisch heikel. Oder haben wir unbegrenzt Zeit für das Review.

Auch wenn die DFG betont, dass die Verantwortung bei den gutachtenden Personen bleibt, besteht die Gefahr, dass Bewertende kognitiv auf KI‑Ausgaben „verlassen“ (sog. cognitive offloading). Das kann dazu führen, dass Gutachter*innen ihr eigenes kritisches Denken weniger anwenden, wodurch die Qualität der Begutachtung insgesamt leidet.

Es gibt dokumentierte Fälle, in denen Forschende versuchen, KI‑gestützte Reviewprozesse durch versteckte Prompt‑Techniken gezielt zu beeinflussen – ein Risiko, das bei Einsatz von KI‑Tools in Begutachtungen weiter zunehmen kann, wenn entsprechende Schutzmechanismen fehlen.

Sagt chatGPT selbst…

 

CC-BY-NC Science Surf , accessed 21.03.2026

The lifecycle of the academic journal is coming to an end now

There is a realistic and only slightly ironic new paper at arXiv  by Russel Beale, a world-renowned academic, author of one of the leading textbooks on human-computer interaction.

In this piece we reflect on the life and influence of AJ, the academic journal, charting their history and contributions to science, discussing how their influence changed society and how, in death, they will be mourned for what they once stood for but for which, in the end, they had moved so far from that they will less missed than they might have been.

Born at the ”Philosophical Transactions of the Royal Society” the academic journal matured until 1989 when the companies highjacked, then strangulated the system. The distribution of papers over the internet and open access made dissemination easier but introduced many other problems that are all coming now to an end by the introduction of AI based authoring.

And thus [the academic journal] entered the end-stage of life. No longer could people rely on the content, because the cost of creating fake material was so low, and the benefits so high. Now an academic could possibly publish half a dozen articles in a year, mostly because they could submit a hundred and hope a few got through … The conference made a comeback. With travel restrictions lifted, not only could the academic holidaying continue, but they could actually meet with fellow academics and quiz them on their findings to see if they were real: content had become checkable, and was king once again. The actual exchange of information, findings and insights because important once again.
[The academic journal] died on 1st January 2026. No flowers are expected…

“Science” still has some hopes https://www.science.org/doi/10.1126/science.adw3000 – what else should even publish?

 

CC-BY-NC Science Surf , accessed 21.03.2026

Von der Bildmanipulation zur Millionen Entschädigung

Was der Fall des Dana-Farber Cancer Institute über die Grenzen wissenschaftlicher Selbstkontrolle zeigt – und warum ein solcher Präzedenzfall in Deutschland bislang undenkbar ist

Es begann unspektakulär, mit auffälligen Bildern, entdeckt in den Tiefen einer Online-Plattform. Auf PubPeer, einem digitalen Schwarzen Brett für Wissenschaft, überprüften externe Wissenschaftler über Jahre hinweg alte Publikationen des renommierten Dana-Farber Cancer Institute (DFCI) in Boston. Was sie dort fanden, wirkte auf den ersten Blick banal – Bildausschnitte, die gespiegelt oder gedreht waren, kontrastverändert oder mehrfach recycelt für unterschiedliche Experimente. Doch was in der Welt der biomedizinischen Forschung zunächst aussieht wie handwerkliche Nachlässigkeit, entwickelte sich zu einem Fall mit juristischem Nachspiel.

Denn Dana-Farber ist nicht irgendein Institut. Die Einrichtung gilt als eine der weltweit führenden Krebsforschungszentren, eng verbunden mit der Harvard Medical School und seit Jahrzehnten großzügig unterstützt durch das National Institutes of Health (NIH). Und wo so viel Geld fließt, hat wissenschaftliche Korrektheit auch eine wirtschaftliche Dimension.

Zunächst folgte das übliche Verfahren: Zeitschriften prüften die Vorwürfe, veröffentlichten Korrekturen oder zogen einzelne Arbeiten ganz zurück. Mehrere der betroffenen Artikel stammten von führenden Mitgliedern des Instituts, einige reichten Jahrzehnte zurück. In manchen Fällen waren die Originaldaten nicht mehr auffindbar, archiviert auf alten Festplatten, in Laborbüchern oder schlicht verloren. Der wissenschaftliche Schaden ließ sich eingrenzen, der wissenschaftliche Record teilweise bereinigen. In der Regel endet die Geschichte hier.

Doch in den USA nahm sie eine unerwartete Wendung. Ein Blick auf die Anträge, mit denen Dana-Farber Fördergelder eingeworben hatte, zeigte: Viele dieser beanstandeten Publikationen hatten als Vorarbeiten gedient – als Beleg für die Machbarkeit und Exzellenz kommender Projekte. Und genau an dieser Schnittstelle, dort, wo Forschung auf Verwaltung trifft, griff plötzlich das Rechtssystem.

Der englische Postdoc Sholto David, der die Unregelmäßigkeiten öffentlich gemacht hatte, argumentierte: Wenn eine Institution öffentliche Gelder auf Grundlage fragwürdiger oder manipulierter Daten erhält, dann hat sie dem Staat faktisch falsche Tatsachen vorgelegt. Juristisch ist das kein Verstoß gegen wissenschaftliche Ethik, sondern potenziell ein Fall von Betrug – und damit ein Fall für den False Claims Act (FCA). Dieses amerikanische Gesetz existiert seit dem 19. Jahrhundert, ursprünglich geschaffen, um Betrug bei Rüstungsaufträgen während des Bürgerkriegs zu bekämpfen (und wäre damit auch bei Maskendeals anzuwenden). Heute deckt es jeden Fall ab, in dem öffentliche Mittel durch Täuschung erlangt werden. Besonders bemerkenswert: Auch Privatpersonen können im Namen des Staates klagen, wenn sie glaubhaft machen, dass Steuergelder missbräuchlich verwendet wurden. Im Erfolgsfall steht ihnen ein Anteil der Rückzahlung zu.

Diese juristische Hebelwirkung führte schließlich zu einem Vergleich zwischen Dana-Farber und dem US-Justizministerium. Das Institut zahlte 15 Millionen US-Dollar, ohne ein offizielles Schuldeingeständnis, aber mit der Anerkennung, dass „problematische Daten“ Teil von Förderanträgen gewesen waren. Ein Teil des Vergleichsbetrags ging an den Hinweisgeber. Die Summe war bemerkenswert – nicht wegen ihrer Höhe, sondern wegen des Prinzips dahinter. Der Staat erhob keinen wissenschaftlichen Anspruch, sondern einen schlichten rechtlichen: Wer Forschungsmittel beantragt, schuldet dem Staat Wahrheit.

Dieser Gedanke hat in Deutschland bislang keinen Platz. Ein vergleichbarer Fall würde hier voraussichtlich im System der wissenschaftlichen Selbstkontrolle versanden – in Ombudsverfahren, internen Untersuchungen und gelegentlichen Korrekturen, irgendwann, irgendwo, meist folgenlos. Bei einem Fall an der Universität Gießen ebenfalls mit zahlreicher Manipulationsbefunde auf PubPeer, folgten nach Jahren nur einige wenige Korrekturen. Aber selbst wenn Bundes- oder Landesmittel betroffen wären, fehlt eine systematische Prüfung, ob sie auf falschen Tatsachen beruhten.

Die Deutsche Forschungsgemeinschaft (DFG), die zentrale Förderinstitution für Grundlagenforschung, versteht sich nicht als Ermittlungsbehörde. Ihre Verfahren sind auf wissenschaftliche Selbstkontrolle ausgelegt, nicht auf rechtliche Durchsetzung. Rückforderungen erfolgen nur bei formalen Verstößen – etwa, wenn Mittel zweckwidrig verwendet wurden. Ob eine Forschungsidee auf geschönten Daten beruhte, spielt keine Rolle. Der Staat als Geldgeber tritt dabei selten oder praktisch nie als geschädigte Partei in Erscheinung.

Auch Hinweisgeber, die Missstände entdecken, stehen in Deutschland weitgehend allein. Das 2023 verabschiedete Hinweisgeberschutzgesetz bietet ihnen gegenüber Arbeitgebern einen gewissen Schutz, schafft aber weder Anreize noch rechtliche Möglichkeiten, unrechtmäßig erlangte Fördermittel einzuklagen. Ein Pendant zum amerikanischen qui tam-Recht, das Whistleblowern eine aktive und belohnte Rolle einräumt, existiert nicht.

Der Kontrast könnte deutlicher kaum sein. In den USA machte ein einzelner Forscher publik, dass die Grenze zwischen wissenschaftlicher Unachtsamkeit und Täuschung dort endet, wo Steuergelder betroffen sind. In Deutschland hingegen bleibt wissenschaftliches Fehlverhalten meist eine interne Angelegenheit – geregelt durch Ethik, nicht durch Recht.

Der Fall Dana-Farber ist mehr als eine amerikanische Episode. Er ist ein Lehrstück für die Durchsetzung wissenschaftlicher Redlichkeit mit Haushaltsrecht. Wo Milliarden an Fördermitteln vergeben werden, genügt Selbstkontrolle allein nicht mehr. Ohne ein rechtliches Instrument, das die Wahrheitspflicht gegenüber der Öffentlichkeit durchsetzbar macht, bleibt wissenschaftliche Integrität allenfalls ein freundlicher Appell.

Quelle:

https://retractionwatch.com/2025/12/16/dana-farber-settlement-false-claims-act-image-manipulation

David Sholto zu Sci Rep und dem Honorar

 

CC-BY-NC Science Surf , accessed 21.03.2026

Wie uns KI längst manipuliert

Ich habe bisher nur selten Podcasts empfohlen, weil ich selbst nur wenige höre. Und wenn schon Kopfhörer aufsetzen, dann doch lieber Musik hören. Aber hier kommt ein unbedingt hörenswerter Podcast.

https://podcasts.apple.com/de/podcast/hotel-matze/id1168045239?i=1000728246108

 

CC-BY-NC Science Surf , accessed 21.03.2026

Why the “immunity debt” narrative ultimately collapsed

There was an interesting Bluesky post.

https://bsky.app/profile/nicktsergas.ca/post/3m7h36uha4k2e

I agree. Drosten said in 2022 that someone who believes that they can train their immune system through an infection should, also believe that “by eating a steak they can train their digestion”. The immunity depth hypothesis was as nonsense as the hygiene hypothesis that immunity is depraved by modern hygiene.

In reality, post-pandemic seasons returned to historical volatility rather than showing any sustained amplification. RSV and influenza displayed timing shifts and one-off rebounds, but no long-term increase in total burden.

Nations with long and strict NPIs (like New Zealand, Taiwan) should have shown the largest rebound. By 2025 this clearly did not occur. Conversely, countries with minimal restrictions (Sweden, GB) still experienced unusual RSV and influenza patterns, demonstrating the hypothesis being wrong, but taking a huge death toll from their believers.

Memory B & T cells persist; mucosal training is complex but not any “use-it-or-lose-it“. The role of routine pathogen turnover was over- and homeostatic immune regulation underestimated.

 

CC-BY-NC Science Surf , accessed 21.03.2026

Tacrolimus shares the allergy inducing pathway with vitamin D

Tacrolimus and vitamin D both suppress IL-2 production.

The mechanisms of IL-2 suppression is different however. Tacrolimus binds FKBP12 to inhibit calcineurin, blocking NFAT dephosphorylation and IL-2 gene transcription in activated T cells. Vitamin D (1,25(OH)₂D₃) activates VDR to directly inhibit IL-2 promoter. High vitamin D levels correlate with reduced IL-2  and Th1 suppression.

Oral vitamin D are pro-allergic in newborns as I have described in a dozen papers. So if the prohormone vitamin D and  the calcineurin inhibitor tacrolimus share the same immunological endpoint IL2, I would anticipate that tacrolimus can make you allergic. And well  – only today I discovered that is is true while working on an unrelated review of tacrolimus. So let‘s search the literature https://doi.org/10.1111/j.1365-2222.2011.03761.x says

Results The prevalence of sensitization was significantly higher in the tacrolimus- than in the cyclosporin A-treated group (34%, n = 34, vs. 20%, n = 20; P = 0.026). The rate of clinically relevant allergy in patients receiving tacrolimus was twice that in patients receiving  cyclosporin A (15%, n = 15, vs. 8%, n = 8; P = 0.12).

So this study  seems to confirm my hypothesis. Let’s look at another study https://doi.org/10.1016/j.aller.2017.09.030

Transplant acquired food allery was found in 7/12 (58%) children with liver transplantations and in none of the 10 children with kidney transplantations.

This study has another interesting observation. Conceptually, the “portal–hepatic immune filter + tacrolimus‑induced Th2 shift + high early antigen load in a young gut” model is consistent with this paper. The kidney, lacking this gut–portal interface and typically being transplanted in older children, sits in a different immunologic context, which likely explains why tacrolimus appears “allergy‑inducing” only in the liver setting rather than via renal blood flow .

 

CC-BY-NC Science Surf , accessed 21.03.2026

Lügen erscheinen dem Verstand einleuchtender

aus Hannah Arendt, Die Lüge in der Politik

Lügen erscheinen dem Verstand häufig viel einleuchtender und anziehender als die Wirklichkeit, weil der Lügner den großen Vorteil hat, im voraus zu wissen, was das Publikum zu hören wünscht. Er hat seine Schilderung für die Aufnahme durch die Öffentlichkeit präpariert und sorgfältig darauf geachtet, sie glaubwürdig zu machen, während die Wirklichkeit die unangenehme Angewohnheit hat, uns mit dem Unerwarteten zu konfrontieren, auf das wir nicht vorbereitet waren.

 

CC-BY-NC Science Surf , accessed 21.03.2026

The biggest turning point in medical science that I have probably ever encountered

Vitamin D insufficiency? Gone!

I can’t even remember how many vitamin D studies I did, explaining how the prohormone has been discovered, how stupid guidelines came on to the scene.

https://academic.oup.com/jcem/article/109/8/1948/7685309

And it didn’t happen quietly. It wasn’t a minor tweak, a footnote, or an incremental update. It was a full reversal of a doctrine that has dominated labs, clinics, public-health brochures, and countless biomarker panels for decades. A classical paper even claimed that 50% of the world population is vitamin D insufficient. For years, we had to  live with the tidy triplet:

<20 ng/mL = deficiency
20–30 ng/mL = insufficiency
≥30 ng/mL = sufficiency

That middle category “insufficiency” became a diagnosis in itself. It justified mass screening. It justified supplementation campaigns. It justified entire clinical cultures built around chasing numbers.  And then 2024 arrived.

Because after reviewing all high-quality randomized trials, the Endocrine Society concluded something truly astonishing:

there is no reliable evidence that people with 25(OH)D levels between 20 and 30 ng/mL derive any clinically meaningful benefit from raising those levels

In fact, the guideline panel found that even below 20–24 ng/mL, evidence for clear benefit is surprisingly weak or uncertain — except perhaps in the very elderly, and even there the benefit didn’t map neatly to a threshold. Vitamin D physiology makes the whole “insufficiency” concept biologically dubious, because serum 25(OH)D is only an external storage marker of an intracellular prohormone system — a tank that appears “empty” only in true deficiency like rickets. Let me put that differently: The category of “vitamin D insufficiency,” introduced in 2011 and used worldwide, is now considered *scientifically unsupported*. The Society explicitly withdraws it.

That is not merely unusual. In the world of clinical guidelines, this is as close as you get to a scientific earthquake. Why did they withdraw it? Because the evidence never really showed what everyone assumed.

The new communication explains the problem with striking clarity:

1. Observational associations misled us.
Many early threshold claims came from correlations — low vitamin D and higher PTH, low vitamin D and lower bone density, etc. But none of this proved causality, and much of it turned out to be non-informative once RCTs were performed.

2. Surrogate markers were overinterpreted.
Calcium absorption, PTH suppression, even bone mineral density — these are *indirect* signals. They don’t automatically translate into fewer fractures, fewer falls, fewer infections, or longer life. And when RCTs finally tested real outcomes, the expected clinical benefits simply weren’t there.

3. Large RCTs showed no special benefit in “low–normal” ranges.
VITAL — one of the biggest vitamin D trials ever — found no difference in fractures even in participants below 24 ng/mL, and even those below 12 ng/mL did not exhibit the dramatic benefit everyone predicted (though the subgroup was very small).

4. Across thousands of participants aged 50–74, supplementation beyond the RDA made essentially no difference — including in those below the supposed thresholds.
The forest plots in the guideline communication make this visually obvious: the <20–24 ng/mL subgroups almost never differ from the overall population in any meaningful direction. (See page 5 of the document: identical risk-change estimates for falls, fractures, cancer, CVD, etc.)

We rarely see a major medical society openly dismantle one of its own most influential guidelines — not because of scandal, not because of politics, but because the evidence finally matured and said: we were wrong. And they didn’t hedge. They didn’t massage the language. They called the new stance what it is: epistemic humility.

Still not convinced? For key readings google for the approx 10 vitamin D “umbrella reviews” and the 20 studies that “vitamin D is a marker of inflammation” and not vice versa.

 

 

CC-BY-NC Science Surf , accessed 21.03.2026

Correct me if I am wrong

https://www.reddit.com/r/slatestarcodex/comments/7qguze/the_puzzle_why_do_scientists_typically_respond_to

For most researchers it takes a long time to develop ideas, run experiments, do the analysis and write up the results to the standard that journals expect. By the time that you get the reviews back for a piece of work it is likely that you are coming towards the end of your funding, or even that your funding has long since run out. If a reviewer points out a likely problem and the author recognises it as such, they are often left with the thought that they don’t have the time to go back to the drawing board. Developing a better idea can happen the next day, but it could also require several months of intense work and those months may not be available.
As a researcher you are not only emotionally invested in your hypothesis (with all the inadvertent biases you may then apply to your study) but you are literally invested with a lot of your time and money.
I wonder if the state of science publishing could be vastly improved if we started with something similar to what physicists do and expand further.
‘Physics’ has theoretical physicists who develop hypotheses, and experimental physicists then design experiments to test those hypotheses.
This could be taken a step further, in all scientific fields, for example with a further division in responsibility.

https://www.science.org/doi/epdf/10.1126/science.adk1852

Honest mistakes happen, and journals need to be accessible and on the record about their behaviors. Issuing carefully worded statements and “no comment” has no place in a generative culture. Mean-while, although there have been good recent discussions about universities and journals working together to accelerate corrections and retractions, the universities need to realize thatt hreats of litigation may not be the major consideration when so many within and outside the scientific community are losing trust in science.

https://www.science.org/doi/epdf/10.1126/science.adw5838

Media and public interest in research integrity cases – spurred by online platforms likeX, Bluesky, and PubPeer that give a front row seat to potential disputes in real time – is increasing …A university is likely to opt for silence because of fear of litigation and damage to the institution’s reputation. However ,authors should ask themselves whether silence could be interpreted by the media and public as an admission of guilt. So, in addition to consulting with institutional professionals, authors should think about talking to the media directly. This can be an opportunity to provide the unvarnished truth in response to tough questions.

 

CC-BY-NC Science Surf , accessed 21.03.2026