Why Maxwell's statement proved too much

Having been working on the infamous Giuffre/Mountbatten/Maxwell photo, I came across now an email draft of a defense attributed to Maxwell that seems to confirm the authenticity of the photo "In 2001 I was in London when met a number of friends of mine including Prince Andrew. A photograph was taken as I imagine she wanted to show it to friends and family."

The media coverage was extensive and remarkably uniform. Continue reading Why Maxwell's statement proved too much

 

CC-BY-NC Science Surf , accessed 30.06.2026

Why you can't change the rules after the game has started

It was a long wait – 10 years – for the Vitality vitamin D study in newborns to come to an end. It is super disappointing to see now their first study abstract at the 2026 AAAAI Annual Meeting with a null result. Besides the fact that they got it wrong – Vitamin D3 supplementation was never protective but allergy risk in newborn – the following three screenshots show something that should make any methodologist uncomfortable.

The VITALITY trial filed its first ClinicalTrials.gov record in April 2014. By November 2022 with the data at hand, version 12 shows sweeping rewrites to both the primary outcome and the inclusion criteria. Pink = deleted, green = added.

What changed, concretely:

– The original primary outcome was "prevalence and severity of challenge-proven food allergy in participants with positive skin prick tests at age 12 months." Version 12 splits this into two primaries, adds a second time point (6 years of age), and quietly drops "severity" and the SPT-positive filter. That filter was doing real work: restricting the analysis to sensitised children would have given a much smaller, higher-risk denominator.
– The inclusion criteria went from "healthy, term, breastfeeding infants" to a detailed specification with an age window (6-12 weeks), formula tolerance up to 120 mL/day, and a new informed-consent bullet. Each addition narrows or shifts the enrolled population.

Reporting two significant p-values from what are effectively subgroup analyses in an abstract whose primary result failed (p=0.537) is textbook outcome fishing. With 10 allergens tested, finding two below 0.05 by chance alone is entirely expected. In short: a failed trial has been dressed as a promising one through a combination of dual estimands, allergen subgroup mining, heavy imputation, and conclusion spin. Each element is individually defensible in isolation; together they constitute a coordinated rhetorical strategy to salvage a null result.

Why this is a fundamental problem?

Clinical trials are hypothesis tests, not explorations. The logic is identical to a one-sample t-test: you fix the null hypothesis, the test statistic, and the decision threshold before you look at the data, because the Type I error rate (your false-positive probability) is only valid under those pre-specified conditions. The moment you select or redefine your outcome after seeing interim results - even partially, even innocently - you are performing an implicit multiple comparison. You have, in effect, tested several hypotheses and reported only the one that worked.

Changing inclusion criteria mid-study is equally damaging. It redefines the population to which your result generalises. If the original enrolment targeted a broader group and the amended criteria select a more compliant or biologically distinct subgroup, the treatment effect you ultimately report belongs to a population that was never pre-specified. Reviewers and readers have no way to know whether the amendment was scientifically motivated or outcome-motivated.

The specific mischief of outcome switching

Dropping "severity" from the primary outcome is not cosmetic. A trial that fails on prevalence-plus-severity can be reframed as a success on prevalence alone. Dropping the SPT-positive filter expands the denominator, which typically dilutes an effect - unless the intervention actually works better in unselected infants, a hypothesis that was apparently not the original one. Adding a six-year follow-up endpoint transforms a 12-month study into something else entirely, with a different sample-size justification and a different regulatory profile.

What preregistration is supposed to prevent

The entire point of a trial registry is to create a timestamped public contract. Investigators declare in advance: this is our question, this is our population, this is how we will measure success. Journals and regulators can then verify that the published analysis matches the contract. When version 12 diverges this substantially from version 2, the contract has been renegotiated - and the renegotiation happened after years of data collection, when results were at least partially visible to the investigators.

This does not automatically mean misconduct. Trials genuinely need protocol amendments - safety signals emerge, recruitment proves impossible under original criteria, regulatory agencies request changes. But every such amendment requires a documented, dated rationale filed before the analysis is run, and the published paper must report both the original and amended specifications with transparent explanation. Silently absorbing eight versions of changes into a final paper, with no mention of what the original primary endpoint was, converts a confirmatory trial into a disguised exploratory one - while retaining the inferential authority of a pre-registered RCT.

The VITALITY screenshots are a clean teaching example of exactly this problem.

 

CC-BY-NC Science Surf , accessed 30.06.2026

Genetic discrimination

Unfortunately with the decline of genomic research, there are some “hobbyist” researchers coming up with their own agenda. Three recent investigations lay out just how bad things have gotten – and how difficult it is to stop the damage once it starts.

The New York Times revealed that fringe researchers systematically deceived the NIH to gain access to genetic and brain-scan data from over 20,000 American children enrolled in the Adolescent Brain Cognitive Development Study. Using deliberately misleading applications, they extracted the data, shared it with unauthorized collaborators, and produced at least 16 papers purporting to rank racial groups by IQ. The papers have since been amplified millions of times on social media, cited by AI chatbots, and used as ammunition by white nationalists. The NIH eventually suspended the lead researcher and he was fired – yet his collaborators apparently retained copies of the data and kept publishing.

The Guardian then showed the problem is not limited to bad-faith actors inside the system. UK Biobank, which holds health records on 500,000 British volunteers, found that well-meaning researchers had accidentally posted sensitive datasets to GitHub dozens of times. One exposed file contained hospital diagnoses and birth details for 413,000 participants – enough to re-identify individuals with just a date of birth and one known medical procedure.

Harvard geneticist Sasha Gusev ties both stories together in a sharp Substack essay. His core point is simple: these systems were designed assuming everyone plays by the rules. They were not built for people who lie on their access applications, quietly pass data to friends, or treat a children’s health study as raw material for race propaganda. When something goes wrong, the response tends to be more paperwork, more committees, more strongly worded statements — none of which does much against someone who was never going to read them anyway. Gusev’s actual prescription: stick to what participants consented to, ban anyone who leaks data permanently, and when bad science appears, criticize it loudly in plain language where people can actually read it – not in a journal response that ten specialists will see.

The people who donated their data, often hoping to help find cures for cancer or diabetes, deserve at least that much.

 

 

CC-BY-NC Science Surf , accessed 30.06.2026

High-Frequency Science: When Author AI Meets Publisher AI (Long Version)

I have always avoided forward-looking statements. The future of science communication is complicated enough without adding prophecy to the mix. But the accelerating integration of AI into every corner of the research enterprise makes at least one scenario hard to dismiss: automated agents negotiating, submitting, and “publishing” scientific claims with no human hand on the wheel between preprint and record.

In banking and finance, High-Frequency Trading (HFT) is the Formula 1 of capital markets – algorithms executing thousands of transactions per second, reacting to signals no human could parse in time, optimizing for outcomes defined entirely upstream by whoever wrote the strategy. The races are real; the drivers are not.

The parallel to science is uncomfortable but structurally in line. An author AI monitors the literature, let's say on arXiv, identifies a gap, synthesizes a manuscript from existing results, checks it against a house style, and submits. A Publisher AI receives it, runs peer-review surrogates, scores novelty and methodological plausibility, and issues a DOI.

Both sides are optimizing for metrics – citation potential, impact proxies, throughput – that were defined by humans long ago and are now running unattended.

30 years ago

The analogy breaks down in one important place, and that is where it gets interesting. HFT operates in a closed, well-defined reward landscape: price, volume, spread. Science nominally operates in an open one: truth and trust. But truth is not what most of the current incentive architecture actually rewards. It rewards publication counts, journal prestige, and grant renewal. If those proxies can be satisfied algorithmically, there is no obvious mechanical barrier preventing it. The barrier, if it exists, is epistemic – and epistemic barriers have historically never slowed down industries that found a way around them.

What would High-Frequency Science (HFS) look like in practice? Probably not dramatic. Probably incremental aggregation papers – meta-analyses of meta-analyses, restatements of known findings dressed in new domain vocabulary, combinatorial hypothesis generation from structured databases. Nothing a careful reader could immediately falsify. Volume would rise; signal / noise ratio would fall. The journal impact factor, already a dubious instrument, would measure something even further removed from scientific value.

The question worth asking is not whether this will happen – parts of it already are – but who benefits from the arrangement. HFS benefits liquidity providers, AI firms running the algorithms, preprint servers with traffic, publishers with processing fees, and institutions with productivity dashboards full of green. Whether it benefits the cumulative knowledge record is a different question entirely, and one unlikely to appear in any AI’s objective function unless someone puts it there deliberately.

 

CC-BY-NC Science Surf , accessed 30.06.2026

Das Deutsche Ärzteblatt und die Münchner Medizinische Wochenschrift: Vitamin D Märchenstunde

Sowohl das Deutsche Ärzteblatt als auch die Münchner Medizinische Wochenschrift veröffentlichten nun in kurzer Folge methodisch fragwürdige Beiträge zur Vitamin-D-Forschung. Und da sie eine enorme Reichweite in der ärztlichen Fortbildung haben, landet der Vitamin-D-Hype direkt in der Praxis mit den bekannten Folgen: Überdiagnostik, unnötige Supplementierung, wir kennen die Probleme viele Jahre zB hier. Von einer Erwiderung habe ich dennoch abgesehen, da dem Erstautor der Schlusskommentar vorbehalten bleiben sollte.

Fall 1

Die MMW druckt eine “Fortbildung”, genauer einen CME-Beitrag "Wer braucht wann wie viel Vitamin D?" eines lange pensionierten fachfremden Arztes (MMW Fortschr Med. 2025; 167 (S3): 76-82). Leider übernimmt die KI den Unsinn nun als Expertenmeinung…

Screenshot Google 26.3.2026

Mein Kommentar zu dem Artikel war

1. Interessenkonflikt
Der Autor gibt "keine Interessenkonflikte" an, betreibt jedoch die Akademie für menschliche Medizin GmbH, die kommerziell Vitamin-D-bezogene Präventionsangebote vertreibt. Diese Verbindung ist gemäß DFG- und ICMJE-Regeln deklarationspflichtig. Medwatch schreibt von 225.000€ Umsatz im Jahr 2019.
2. Epidemiologische Angaben
Die Behauptung, "90 % der Bevölkerung" hätten < 30 ng/ml Vitamin D, stützt sich auf veraltete RKI-Daten (2007-2011). Neuere Erhebungen (DEGS II, 2019) zeigen nur 30-40 % unter 50 nmol/l. → Übertriebene Darstellung eines Mangels.
3. Dosierungsempfehlung
Empfohlene 4 000-6 000 IE/Tag überschreiten den international anerkannten Upper Level von 4 000 IE/Tag (EFSA 2023). Für gesunde Erwachsene fehlt jede Evidenz.
4. Toxizität und "Coimbra-Protokoll"
Die Aussage, Werte bis 150 ng/ml seien unbedenklich, widerspricht Daten zu Hyperkalzämie und Nephrokalzinose. Das "Coimbra-Protokoll" (≥ 100 000 IE/Tag) ist nicht evidenzbasiert und medizinisch riskant.
5. Extra-skelettale Effekte
Im Artikel werden präventive Wirkungen (Demenz, KHK, Krebs, Blutdruck, Diabetes u. a.) behauptet, obwohl große RCTs (VITAL, D2d, ViDA) keinen Nutzen zeigten. Die Darstellung ist selektiv und irreführend.
6. Schwangerschaft
Die genannte 60 %ige Reduktion von Frühgeburten entstammt keiner belastbaren Quelle; die zitierte Pilotstudie (Wagner et al. 2006) weist diese Endpunkte nicht auf.
7. COVID-19-Bezug
Die angeblich 16-fache Mortalitätssteigerung bei Vitamin-D-Mangel beruht auf einem Meinungsartikel, nicht auf einer Originalstudie. Die Darstellung ist faktisch falsch.
8. Fehlende Neutralität im CME-Kontext
Der Beitrag enthält werblich anmutende Aussagen, selektive Quellenwahl (u. a. Masterarbeit Göthel 2020) und unkritische Übernahme von Hypothesen. Damit ist die formale Neutralitätsanforderung der CME-Zertifizierung (§ 4 CME-Richtlinie BÄK) nicht erfüllt.

Der Chefredakteur Cornelius Heyer nimmt auf meine Reklamation zwar die CME Akkreditierung heraus, aber statt einer Korrektur oder Löschung des Beitrages, druckt die MMW einen Leserbrief nach dem Spitz das letzte Wort in der Diskussion hat. Spitz in Bhakdi Manier “Die von mir dargestellten Fakten entsprechen der aktuellen internationalen Forschung – wenn die Leitlinien das nicht tun bitte ich, dies mir nicht anzulasten”.

Screenshot 26.3.2026 Nota bene – Spitz hat nie wissenschaftlich zu dem Thema gearbeitet
Passiva der Akademie für menschliche Medizin 2021

Ein beliebiger Leser der Tageszeitung ist damit nun also besser informiert als ein/e Arzt/Ärztin der die MMW abonniert hat.

 

Fall 2

Das Deutsche Ärzteblatt druckt die Besprechung eines Kongressabstracts “Personalisierte Vitamin D Supplementierung kann das Re-Infarktrisiko halbieren”. Wer nec ist weiss ich nicht, allerdings weiss ich genau, dass es wieder ein Märchen ist das nec hier erzählt. Der Leiter der Medizinisch-Wissenschaftlichen Redaktion des DÄ Christopher Baethge verweist mich an die journalistische Redaktion in Berlin Michael Schmedt, der allerdings auch nach Wochen immer noch nicht geantwortet hat.

New Orleans - Eine Supplementierung mit Vitamin D in individuell titrierter Dosierung kann das Risiko für einen erneuten Herzinfarkt bei vorerkrankten Personen um mehr als die Hälfte reduzieren. Das berichteten Forschende bei den Scientific Sessions 2025 der American Heart Association in New Orleans (Abstract Nr. 4382525).
[...]

Warum ist das so?

Die TARGET-D-Studie wird als Korrektur früherer negativer Vitamin-D-Studien präsentiert, mit der Behauptung, diese seien gescheitert, weil sie Vitamin D nicht "zielgerichtet" titriert hätten. Bei genauer Betrachtung reproduziert TARGET-D jedoch genau jene strukturellen Schwächen, die die Vitamin-D-Outcome-Literatur seit Jahren geplagt haben.

Der entscheidende Befund ist eindeutig: Der vordefinierte primäre Endpunkt, schwere kardiovaskuläre Ereignisse (MACE), wurde in der Intention-to-treat-Analyse nicht signifikant reduziert. Nach elementaren CONSORT-Prinzipien müsste dieses Ergebnis die Interpretation bestimmen. Stattdessen verlagert die Studie den Fokus sofort auf ein einzelnes positives Signal in einer Unterkomponente des kombinierten Endpunkts, den Folge-Myokardinfarkt. Diese Verschiebung rettet die Studie nicht, sondern verschleiert ihr negatives Hauptergebnis. Wenn ein kombinierter Endpunkt scheitert, stellt die selektive Hervorhebung einer einzelnen Komponente keine Evidenz dar, sondern narrative Verzerrung.

Die anschließende Betonung von Per-Protocol-Analysen untergräbt die Aussagekraft weiter. Diese Analysen vergleichen nicht mehr randomisierte Gruppen, sondern Untergruppen, die nachträglich anhand des Erreichens eines willkürlich gewählten Vitamin-D-Schwellenwertes definiert werden. Damit wird nicht mehr die Wirkung einer Intervention geprüft, sondern der Gesundheitszustand einer selektierten, therapietreuen, Responder Population dem einer Restgruppe gegenübergestellt, die überproportional Nicht-Responder, Gebrechliche und Patienten mit höherer Krankheitslast enthält. Der Vitamin-D-Spiegel fungiert hier als Marker guter Gesundheit und Compliance, nicht als kausaler Faktor. Genau dieser Denkfehler hat frühere Beobachtungsstudien diskreditiert, was auch in allen Umbrella Reviews klar herauskam, aber hier innerhalb eines randomisierten Designs erneut eingeführt wird.

Das Ausmaß der postrandomisierenden Selektion macht dieses Problem unübersehbar. Ein erheblicher Teil der dem Vitamin-D-Arm zugewiesenen Patienten wird aus der Per-Protocol-Analyse ausgeschlossen, weil der Zielwert nie erreicht wurde oder nur unvollständige Nachbeobachtung vorlag. Die Konditionierung auf einen postrandomisierten Biomarker zerstört die durch Randomisierung erreichte Vergleichbarkeit der Gruppen. Die daraus resultierenden Effekte sind selektionsgetrieben und nicht kausal interpretierbar.

Auch die biologische Grundannahme der Studie ist schwach fundiert. Der gewählte Zielwert von über 40 ng/ml für 25-Hydroxyvitamin D ist nicht leitlinienbasiert, entspricht nicht der neuesten Literaturund impliziert einen Schwellen- oder Dosis-Wirkungs-Effekt, der in großen randomisierten Studien und genetischen Analysen nicht bestätigt wurde. Indem der Studienerfolg über das Erreichen dieses Zielwerts definiert wird, wird der behauptete Nutzen nicht getestet, sondern implizit vorausgesetzt.

Die Darstellung der Ergebnisse verstärkt diesen Eindruck. Formulierungen wie "klinisch relevante Risikoreduktionen" oder "Reduktion des Myokardinfarktrisikos um mehr als die Hälfte" suggerieren einen kausalen Effekt, den das Studiendesign und die Resultate nicht tragen. Andere Komponenten des kombinierten Endpunkts zeigen keine konsistente Verbesserung, werden jedoch deutlich weniger betont. Der Gesamteindruck ist nicht der einer neutralen Prüfung einer Hypothese, sondern der Versuch, aus einer im Kern negativen Studie ein positives Narrativ zu extrahieren.

Insgesamt liefert TARGET-D keinen belastbaren Beleg dafür, dass eine Vitamin-D-Normalisierung das kardiovaskuläre Risiko nach akutem Koronarsyndrom senkt. Der primäre Endpunkt ist negativ, die sekundären Aussagen beruhen auf selektiver Gewichtung, und die Per-Protocol-Analysen ersetzen Randomisierung durch Adhärenz- und Selektionsmechanismen. Die Studie bestätigt letztlich nur, was die Literatur seit Langem zeigt: Niedrige Vitamin-D-Spiegel korrelieren mit schlechter Gesundheit, ihre Korrektur verändert jedoch harte kardiovaskuläre Endpunkte nicht zuverlässig. Neu an TARGET-D ist nicht die Überwindung dieser Limitationen, sondern ihre methodisch aufwendigere und potenziell irreführende Verpackung.

Die Assistentin der Chefredaktion Monia Jacobs entgegnet sinngemäß dann am 15.4. per Email, die Studie sei auf dem renommierten AHA-Kongress vorgestellt und von der AHA selbst per Pressemitteilung kommuniziert worden – ergo sei das nicht Problem des Ärzteblattes sondern der Kongressveranstalter. Der eigene Beitrag würde die Ergebnisse transparent darstellen, einschließlich des verfehlten primären Endpunkts – klassische narrative Verzerrung. Journalistische Sorgfaltspflicht verlangt, auch die gegenteilige Meinung zu benennen – sofern man denn überhaupt verstanden hat worum es hier geht.

 

CC-BY-NC Science Surf , accessed 30.06.2026

My last visit to Stack Overflow

Coding with AI has a nice chart, that I am redrawing here

 

data source https://data.stackexchange.com/stackoverflow/query/1882532/questions-per-month

 

so it is time to say Good-Bye now after 14 years

Screenshot 23/3/26 Last Visit to SO

and sticking to the new 10 commandments by Russell Poldrack

Gather Domain Knowledge Before Implementation
Distinguish Problem Framing from Coding
Choose Appropriate AI Interaction Models
Start by Thinking Through a Potential Solution
Manage Context Strategically
Implement Test-Driven Development with AI
Leverage AI for Test Planning and Refinement
Monitor Progress and Know When to Restart
Critically Review Generated Code
Refine Code Incrementally with Focused Objectives

 

CC-BY-NC Science Surf , accessed 30.06.2026

Compliance Regeln

Was die Regeln ursprünglich sollten? Nach 9/11 und der Finanzkrise 2008 wurden die Compliance Regeln für Banküberweisungen massiv verschärft. Das Ziel war natürlich legitim: Terrorfinanzierung, Drogenhandel, Menschenhandel und Steuerflucht eindämmen. Die FATF (Financial Action Task Force) setzte globale Standards und die setzten die Banken unter enormen Compliance-Druck stellten.

Aber es wurde übertrieben und das Problem ist mittlerweile gut dokumentiert. Ich habe es selbst in Ostafrika nun erlebt. De-Risking trifft die Falschen. Nicht Kriminelle, sondern Entwicklungsländer, Diaspora-Überweisungen, NGOs und kleine Importeure werden abgeschnitten. Die Weltbank und der IWF haben das mehrfach kritisiert – gerade Überweisungen von Migranten in die Heimat (sog. “Remittances”) sind für viele Länder wirtschaftlich wichtiger als Entwicklungshilfe. Die Weltbank warnte explizit: Wenn der Trend anhält, könnten Menschen und Organisationen in volatileren Regionen vollständig vom regulierten Finanzsystem abgeschnitten werden – was paradoxerweise die Transparenz senkt, weil Transaktionen in unregulierte Kanäle abwandern.

Dazu sind die Compliance-Kosten sind explodiert. Banken geben laut Schätzungen weltweit über 200 Milliarden Dollar jährlich für Compliance aus – und trotzdem werden laut UNODC nur 1-2% krimineller Geldflüsse tatsächlich gestoppt. Der Aufwand ist also enorm, der Effekt gering. “Greylist”-Stigma trifft ganze Volkswirtschaften. Wird ein Land auf eine Grau- oder Schwarzliste gesetzt, ziehen sich Banken kollektiv zurück – nicht weil einzelne Transaktionen gefährlich sind, sondern aus Angst vor Haftung. False Positives sind derNormalzustand. >90% der Alerts sind Fehlalarme, es ist kein Randphänomen, sondern ein systemisches Problem.

Korruption und illegale Kapitalflucht aus Entwicklungsländern sind real – und schaden oft genau den Empfängerländern. Die EU-Geldwäscherichtlinien haben nachweislich einige große Skandale aufgedeckt. Das Kernproblem ist nicht die Intention, sondern die Architektur: Banken werden für Verstöße mit Milliardenstrafen belegt, aber nie dafür, dass sie legitime Transaktionen blockieren. Der Anreiz ist also systematisch verzerrt – lieber zu viel ablehnen als zu wenig. Solange diese asymmetrische Haftung nicht geändert wird, werden Überweisungen nach Afrika kompliziert bleiben. Oder wir laufen weiter mit Geldbündel durch die Gegend, tricksen mit gemeinsamen Kreditkarten, benützen Remitly oder Hawala – alles das, was Compliance Regeln eigentlich verhindern wollten.

 

CC-BY-NC Science Surf , accessed 30.06.2026

Anti Diskriminierungs Fake

Die ZEIT berichtet von einer Präsentation der Bundesbeauftragten für Antidiskriminierung, Ferda Ataman, bei der BPK in Berlin

Viele Menschen in Deutschland glauben einer Studie zufolge an vermeintlich naturgegebene Unterschiede zwischen verschiedenen Ethnien und Kulturen. So stimmten zwei von drei Befragten der Aussage zu, dass bestimmte Kulturen “fortschrittlicher und besser” seien als andere, wie aus der Erhebung des Deutschen Zentrums für Integrations- und Migrationsforschung (DeZIM) hervorgeht. Knapp die Hälfte vertrat die Ansicht, dass gewisse Gruppen “von Natur aus fleißiger” seien als andere. 36 Prozent der Befragten stimmten der Aussage zu, dass es unterschiedliche “Rassen” gäbe.

Um eine solche Studie machen zu können, muss man:frau minimale Voraussetzungen in Testtheorie mitbringen. Basale Kenntnisse der Kulturwissenschaft, Genetik, Medizin oder Pädagogik schaden auch nicht. Leider fehlt dies aber den Leitern dieser “Studie” (download hier).

Oversampling ohne transparente Gewichtung. Die Studie überrepräsentiert bestimmte Gruppen absichtlich durch eine Vorklassifikation nach Vor- und Nachnamen aus Melderegistern. Das ist legitim – aber die Gewichtung wurde im aktuellen Bericht erstmals an Mikrozensus-Daten angepasst, was die Autoren selbst einräumen führt dazu, dass frühere Berichte “in einzelnen Zahlen leicht abweichen”. Zeitreihenvergleiche sind damit methodisch fragwürdig.

Selbstauskunft als einzige Datenquelle. Alle Kernvariablen – Einstellungen, Diskriminierungserfahrungen, Institutionenvertrauen – beruhen auf subjektiver Selbstauskunft. Es gibt keine Kreuzvalidierung mit administrativen Daten, Experimenten (Audit-Studien) oder objektiven Indikatoren.

Zirkuläre Operationalisierung von “Rassismus”. Das Instrument misst u.a. die Zustimmung zur Aussage, bestimmte Kulturen seien “fortschrittlicher und besser” als andere (66 % Zustimmung), und wertet dies als rassistische Einstellung. Eine derartig breite Definition schließt faktische Kulturvergleiche, zivilisationstheoretische Positionen und Alltagsurteile pauschal als “Rassismus” ein – das ist eine normative Vorentscheidung, keine empirische.

Konfundierung von Ursache und Wirkung. Der Bericht berichtet Korrelationen zwischen Diskriminierungserfahrungen und Institutionenvertrauen und formuliert daraus kausale Schlüsse (“gehen einher mit”, “führen zu”). Längsschnittdaten wären nötig, um Kausalrichtung zu bestimmen – das Panel ließe das zumindest ansatzweise zu, wird aber hauptsächlich im Querschnitt ausgewertet.

Selektiver Attrition-Bias. Die Gewichtung für Panel-Ausfälle erfolgt anhand von Merkmalen wie Selbstidentifikation und Einstellungen gegenüber verschiedenen Gruppen. Wer aus dem Panel ausscheidet, weil er das Thema Rassismus als irrelevant empfindet, wird weggewichtet – das strukturiert die Ergebnisse in Richtung der Ausgangshypothese.

Institutionelle Interessenlage. Das NaDiRa ist beim Deutschen Zentrum für Integrations- und Migrationsforschung (DeZIM) angesiedelt und wird vom Bundesministerium gefördert. Die Handlungsempfehlungen am Ende des Berichts sind das erklärte politische Ziel. Das ist kein Fehler per se, aber ein Faktor für die Interpretation.

Zusammenfassung. Die Studie ist kein Beleg für die Verbreitung von Rassismus in Deutschland, sondern eine Messung davon, wie viele Menschen bestimmten, normativ vordefinierten Aussagen zustimmen. Die Gleichsetzung von Zustimmungsraten mit “rassistischen Einstellungen” ist die Kernproblematik – sie folgt aus dem theoretischen Rahmen, nicht aus den Daten selbst.

“Garbabge in, Garbage out” – eine solche sensible Fragestellung in einem “online Tool” ohne vorherige ausführliche Validierung zu bearbeiten? Wo es so sehr auf Nuancen im Sprachgebrauch ankommt?

So ist nicht nur die PK sondern auch die Studie auch die Kernaussagen ein Musterbeispiel für politische Agenda aber nicht für eine validierte Aussage. Verständlicherweise kommt daher vielfache Kritik- Auszüge:

https://profile.zeit.de/2784058 … nicht jede Kultur ist gleich gut. Eine Kultur, in der es bspw. als normal gilt, dass junge Mädchen genitalverstümmelt, zwangsverheiratet und systematisch entrechtet werden, ist einer westlich liberalen Kultur moralisch unterlegen. Dasselbe gilt für kulturelle Prägungen, in denen Ehrengewalt, religiöser Fanatismus oder brutale Homosexuellenverfolgung als selbstverständlich gelten. Oder eine Kultur, die Massenmördern Märtyrerrenten zahlt und betont, wie ehrenvoll es sei, “Ungläubige” zu ermorden. Wer so tut, als dürfe man hier keine Wertung vornehmen, verwechselt Toleranz mit moralischer Beliebigkeit. Eine offene, rechtsstaatliche und freiheitliche Gesellschaft ist solchen Gesellschaftsmodellen überlegen, gerade weil sie individuelle Freiheit, körperliche Unversehrtheit und gleiche Rechte schützt, statt Unterdrückung als Tradition zu bemänteln.

https://profile.zeit.de/2965476 Damals gab es keine AfD und alles erschien aus heutiger Sicht gut. Ich werde das Gefühl nicht los, dass heute jeder vermeintliche Gutmensch fieberhaft unter jedem Stein einen Nazi sucht, um sich dann als der Bessere Bürger, sprich, auf der richtigen Seite der Brandmauer einsortieren zu können. Dieses platte und flache schwarz / weiß denken ist der Treibstoff der AfD

https://profile.zeit.de/2462818 Natürlich finde ich manche Kulturen besser als andere. Russland hat eine Kultur, die mehr von Machtdenken, Chauvinismus, und Gewalt geprägt ist, als andere. Ich halte Japan's Workoholic-Kultur und die Schönheitschirurgie-Obsession Korea's für problematisch. Ebenso Deutschland's Bürokratie und technische Innovationsfeindlichkeit, Amerikanische Waffen-Kultur und Überheblichkeit, oder eine Kultur, die Genitalverstümmelung gut heißt. Aus diesem Mix an problematischen Aspekten verschiedener Kulturen ergibt sich zwangsläufig, dass manche Kulturen Aggregat dem Wohl der Menschheit zuträglicher (und damit "besser") sind, als andere. Das anzuerkennen ist erst mal nicht rassistisch.

 

CC-BY-NC Science Surf , accessed 30.06.2026

Datenschutz in Bayern

“Wir haben nahezu einen Totalausfall der Datenschutzbehörden” sagt Max Schrembs.

netzpolitik.org: Du sieht auch bei Rechtsdurchsetzung des Datenschutzes Reformbedarf. Wo liegt hier das Problem?

Max Schrems: Eines der Probleme ist der nahezu Totalausfall der Datenschutzbehörden. Es gibt natürlich Ausnahmen, aber den meisten fehlt der politische Wille, es fehlen die budgetären Mittel oder das kompetente Personal. Die Leitungsposten der Behörden werden immer öfter nicht unabhängig, sondern politisch besetzt. Eine zweite Amtszeit gibt es nur bei einem wirtschaftsfreundlichen Kurs. Das führt dazu, dass es in Europa nicht mal bei 1,3 Prozent der DSGVO-Beschwerden überhaupt zu einem Bußgeld kommt. Inzwischen herrscht eine Logik des Rechtsbruches vor. In der juristischen Bubble interessiert die DSGVO keine Sau mehr, weil der Anwalt, der dich berät, mehr kostet als die potenzielle Strafe.

Ist das nicht reichlich übertrieben?

Zur Antwort hier meine Korrespondenz mit dem “Bayrischen Landesbeauftragten für den Datenschutz”.

Es geht um die Weitergabe der Namen/ Adressen aller 90.000 Ärztinnen und Ärzte an eine private Firma, die damit Emails mit Tracking Pixel für einen Fragebogen verschickt hat, ohne daß sie dafür je ein Einverständnis der Betroffenen hatte.

Die Antwort des Datenschutz Beauftragten vorab: “Ihre Vermutungen kann ich nicht nachvollziehen”.

Continue reading Datenschutz in Bayern

 

CC-BY-NC Science Surf , accessed 30.06.2026

Bias und Deception in den Bewertungssystemen von Google und Ebay

Google und Ebay Bewertungen steuern Warenflüsse, mehr noch als jede Werbung.

Sie aggregieren verteiltes Wissen, komprimieren es zu Signalen und machen es für Dritte nutzbar – immer unter der Voraussetzung, dass die Eingabedaten die Realität hinreichend abbilden. Diese Voraussetzung ist keine technische Selbstverständlichkeit, sondern eine normative Anforderung, die im Alltag digitaler Plattformen aber immer mehr ignoriert wird.

Nehmen wir eBay. Seit November 2025 hinterlegt die Plattform automatisch eine positive Bewertung, wenn ein Käufer nach abgeschlossenem Kauf sich nicht meldet. Die Begründung ist nachvollziehbar: Schweigen ist häufig tatsächlich Zufriedenheit, und ein dichtes Bewertungsnetz stabilisiert das Vertrauen in den Marktplatz. Aber das System misst nicht mehr damit, was es zu messen vorgibt. Eine positive Bewertung, die nicht auf erlebter Zufriedenheit beruht, sondern auf dem Ausbleiben einer Handlung, ist wie ein Datum ohne Zeitangabe – formal vorhanden, semantisch leer. Wer einen defekten Artikel erhält und es versäumt, fristgerecht zu reagieren, erscheint im System als zufriedener Käufer. Das Protokoll stimmt. Aber mit der Realität hat das nichts mehr zu tun.

Google operiert nach derselben Logik, nur mit umgekehrtem Vorzeichen. Negative Bewertungen, die nachweislich auf realen Erfahrungen beruhen – und deren Authentizität Nutzer sogar per eidesstattlicher Erklärung belegt haben – werden auf Antrag des bewerteten Unternehmens routinemäßig gelöscht, wenn das Unternehmen "Unangemessenheit" oder "Diffamierung" geltend macht. Das Ergebnis ist dasselbe wie bei eBay, nur eine Eskalationsstufe darüber: Nicht Schweigen wird als Zustimmung kodiert, sondern das Missfallen wird zum Verschwinden gebracht. Was bleibt, ist kein Abbild der Realität mehr, sondern ein gefiltertes, plattformkonformes Surrogat, das dem widersprechenden Unternehmen höhere Einnahmen beschert.

Man könnte von struktureller Deception sprechen – einer Täuschung, die nicht aus Absicht, sondern aus Design entsteht1. Das Beunruhigende daran ist gerade die Absichtslosigkeit: Weil kein einzelner Akteur mehr verantwortlich zeichnet, fehlt auch die Motivation zur Korrektur. Bei einer klassischen Lüge gibt es einen Täuschenden, der zur Rechenschaft gezogen werden kann. Bei einem absichtlich auf Täuschung konstruierten Bewertungsalgorithmus gibt es nur ein Produktteam, das auf Conversion-Raten schaut. Ethik oder Moral? Brauchen wir nicht, unvergesslich das Video vom großen Tech-CEO-Vasallen-Dinner im September 2025 auf dem betonierten Rasen vor dem Weißen Haus.

Schlimmer noch: automatisierte Systeme skalieren diesen Effekt hoch. Was im Einzelfall als Ungenauigkeit wirkt, akkumuliert sich über alle AI's zu einem systematischen Vertrauensproblem. Vertrauenssysteme, die sich selbst korrumpieren, verlieren damit aber jeden Tag mehr an Nützlichkeit – sie kippen um. Die Sterne leuchten noch, aber bedeuten nichts mehr. Das betrifft auch jede positive Bewertung, die nun als Werbung degradiert wird, aber eigentlich auf einer Erfahrung beruhte, sofern sie nicht auch gekauft war.

Ist das organisierter Betrug?

Juristisch kaum. Bandenmäßiger Betrug setzt nach § 263 StGB Täuschungsabsicht, Irrtumserregung und Vermögensschaden voraus – und bei der Qualifikation "bandenförmig" eine organisierte Mehrtäterstruktur mit Tatplan. Beide Unternehmen handeln aber offen: Das Schweigen-gleich-Zustimmung-Prinzip und Jederzeit-Löschen-Prinzip steht mit Sicherheit irgendwo in den Nutzungsbedingungen. Juristisch greifbar wäre allenfalls irreführende Geschäftspraxis im Sinne des UWG oder der europäischen Omnibus-Richtlinie.

Epistemisch aber – im Kern ist es natürlich Betrug. Wenn man Betrug funktional versteht, als systematische Erzeugung falscher Überzeugungen zum eigenen Vorteil, dann trifft die Beschreibung erstaunlich gut: eBay profitiert von stabilen Verkäuferbewertungen, Google von einem bereinigten Reputationssystem, das Unternehmenskunden nicht vergraullt. Dass dies ohne strafrechtlich relevante Absicht geschieht, macht es gesellschaftlich nicht weniger problematisch – es macht es nur schwerer angreifbar.

Die Omnibus-Richtlinie – EU-Richtlinie 2019/2161, in Deutschland seit Mai 2022 in Kraft, hat das UWG geändert. Der für unseren Kontext entscheidende Punkt: Plattformen sind seither verpflichtet offenzulegen, ob und wie sie Bewertungen auf Echtheit prüfen. Wer suggeriert, Bewertungen seien authentisch, ohne ein Prüfverfahren zu betreiben, handelt nun unlauter. Außerdem sind gekaufte oder anderweitig gefälschte Bewertungen ausdrücklich als unlautere Geschäftspraxis eingestuft. Warum greift das bei eBay und Google trotzdem nicht? Weil beide Unternehmen formal prüfen – nur eben nicht auf Wahrheit, sondern auf Regelkonformität. eBay prüft, ob eine Transaktion stattgefunden hat. Google prüft, ob eine Beschwerde vorliegt. Das genügt juristisch als “Prüfverfahren”, auch wenn das Ergebnis völlig wertlos ist. Die Richtlinie hat eine Lücke dort, wo es darauf ankäme: Sie reguliert das Verfahren, nicht die Qualität des Ergebnisses.

Die folgenden drei Fallbeispiele im Anhang illustrieren, wie Konstruktionsbias und strukturelle Täuschung in unterschiedlichen Kontexten auftreten, wobei sich der Leser gerne selbst die Konsequenzen ableiten kann..

 

Anhang Fallbeispiel

Albert’s Auto Service Gröbenzell

Im September 2024 beauftragte ein Kunde die Werkstatt von Burim Qeriqi in Gröbenzell mit der Reparatur eines Kurzschlusses. Die Rechnung belief sich auf 255,17 Euro. Die anschließend aufgesuchte Fachwerkstatt stellte schriftlich in ihrer Rechnung fest, dass die Lampen in beiden Fassungen fehlten oder falsch angeschlossen waren, die Verkabelung der dritten Bremslampe nicht funktionierte und korrodierte Kabelverbindungen am Unterboden unangetastet geblieben waren. Die Nachbesserung kostete 720,00 Euro. Qeriqi ist, wie sich später herausstellte, kein Mitglied der KFZ-Innung – ein Umstand, der auf seiner Google-Seite naturgemäß nicht vermerkt ist. Die sachliche und belegbare Rezension des Kunden auf Google verschwand jedenfalls bald darauf. Ein Tracing der Bewertungen über achtzehn Monate ergab: Die Werkstatt löscht negative Bewertungen systematisch und umgehend. Google stellt dafür das Werkzeug bereit – ohne Prüfung der inhaltlichen Berechtigung, ohne Berücksichtigung von Belegen. Eine einzelne negative Bewertung, die zum Zeitpunkt der Recherche noch sichtbar war, illustriert eher die Geschwindigkeit des Löschvorgangs als dessen Ausnahmen. Was auf der Profilseite verbleibt, ist kein Abbild der Kundenerfahrungen, sondern das Ergebnis aktiven Reputationsmanagements – ermöglicht und abgesichert durch die Plattform.

Screenshot 16.3.2026. Die negativen Bewertungen fehlen – ist die positive Bewertungen von Claude Menu aus Nizza echt?

 

Fallbeispiel 2

Gutachter Büro Christian Sailer Aichach.

Der Gutachter wird wegen eines Wasserschadens von einem Kunden auf Rat seines Anwalts kontaktiert. Der Gutachter erscheint spät, unvorbereitet, liefert statt einer strukturierten Bestandsaufnahme einen langatmigen Vortrag. Der Kunde bricht das Gutachten ab. Die anschließende Honorarforderung landet vor Gericht und endet mit einem Vergleich – einem rechtsförmigen Abschluss, der den Sachverhalt aktenkundig macht. Der Kunde verfasst daraufhin eine präzise, tatsachenbasierte Rezension auf Google: keine Polemik, keine Vermutungen, nur der dokumentierte Hergang mit der Empfehlung keinen Blanko Werkauftrag zu unterschreiben. Das Ergebnis ist vorhersehbar. Google teilt mit, eine Beschwerde wegen Diffamierung erhalten zu haben, und löscht den Zugriff auf den Beitrag 2. Die Begründung lautet lapidar: der Inhalt “verstößt anscheinend gegen” die entsprechende Kategorie. Kein Nachweis, keine Abwägung, kein Einblick in die Prüfung, keine Reaktion auch auf die Reklamation, die Bewertung stehen zu lassen. Das Wort “anscheinend” ist dabei bezeichnend – es signalisiert, dass keine eigentliche Prüfung stattgefunden hat, sondern eine Kategorisierung. Was hier verschwindet, ist keine Meinung, sondern ein gerichtlich bestätigter Sachverhalt. Die Plattform fungiert als Zensurinstanz ohne Erkenntnisinteresse: Sie prüft nicht, ob eine Aussage wahr ist, sondern ob jemand Einspruch erhoben hat..

Screenshot 16.3.2026
Screenshot 16.3.26 mit Selbstdarstellung der Qualifikationen

 

Fallbeispiel 3

Strikeforge GbR Ebay Händler

Ein Kunde kauft auf eBay einen AirTag-Halter aus dem 3D-Drucker – billiges Filament, zu geringe Wandstärke. Das Teil bricht kurz darauf unterwegs ab, der AirTag geht verloren – 5,99 € für den Halter, 32,99€ Verlust für den AirTag summieren sich zu 39€. Ohne Garantie, ohne Schadenersatz, dafür aber mit Belehrung durch den Verkäufer Philipp Huguenin, daß die Widerrufsfrist “bereits seit längerer Zeit abgelaufen ist. Schäden, die nach dieser Nutzungsdauer durch Belastung im Gebrauch entstehen, können wir leider nicht als Reklamation übernehmen. Vielen Dank für dein Verständnis.” Der Verkäufer dreht die Beweislast auch noch um – er definiert den Produktfehler (zu geringe Wandstärke) als Gebrauchsverschleiß und entzieht sich damit jeder Gewährleistungspflicht. Die gesetzliche Gewährleistungsfrist beträgt 2 Jahre ab Kauf – die Widerrufsfrist (14 Tage) ist etwas völlig anderes. Die Verwechslung von Widerrufsrecht und gesetzlicher Gewährleistung zeigt entweder Unkenntnis oder Kalkül. Der Kunde gab jedenfalls keine Bewertung ab. Nach dem Kauf erscheint auf eBay aber eine positive Bewertung für den Kauf – automatisch generiert, plattformkonform, sachlich falsch.

Screenshot 16.3.206

Das ist der Mechanismus in Reinform. Kein Verkäufer hat gelogen. Kein Algorithmus hat eine Entscheidung getroffen, die sich jemand bewusst überlegt hätte. Das System hat schlicht Schweigen als Zufriedenheit interpretiert und daraus eine Aussage gemacht. Der Verkäufer der mangelhaftenWare sammelt weiter positive Bewertungen. Der nächste Käufer verlässt sich darauf. Der AirTag des Übernächsten geht ebenfalls verloren – informiert durch ein Bewertungssystem, das funktioniert, solange man nicht fragt, was es eigentlich misst.

 

Literatur

1 Der Begriff schließt an Miranda Frickers Konzept der hermeneutical injustice an: Strukturelle Lücken im kollektiven Deutungsrepertoire führen dazu, dass bestimmte Erfahrungen nicht adäquat artikuliert – oder in diesem Fall: nicht dauerhaft dokumentiert – werden können. Fricker, M.: Epistemic Injustice. Power and the Ethics of Knowing. Oxford 2007

2 siehe auch SWR vom 7.7.2025 “Google-Bewertungen: Warum ehrliche Kritik oft gelöscht wird”

Googles Antwort: Allgemein und ausweichend
In einem offiziellen Erklärvideo beschreibt Google, wie Rezensionen geprüft werden: mithilfe von künstlicher Intelligenz und einem Moderationsteam. 2024 seien über 240 Millionen Beiträge entfernt worden.
"Unsere Richtlinien besagen eindeutig, dass Rezensionen auf echten Erfahrungen beruhen müssen - weshalb wir umgehend gegen böswillige Akteure vorgehen (...)", schreibt Google.Sackgasse für ehrliche Meinung
Kunden, deren ehrliche Meinung immer wieder gelöscht wird, sind frustriert. Was sie erleben, nimmt ihnen das Vertrauen in das Bewertungs-System.

 

Nachtrag 5.6.2026

Google hat ein Einsehen und zeigt nun auch die Zahl der entfernten Bewertungen.

Tatsächlich ist gerade in Deutschland eine wahre “Lösch-Industrie” entstanden. Scharen von Agenturen und Anwaltskanzleien haben sich auf das Entfernen von Beiträgen spezialisiert. Das Ergebnis: 99,97 Prozent aller Löschungen in der Europäischen Union wurden laut einer EU-Transparenzdatenbank im Jahr 2025 in Deutschland vorgenommen.

Auf der Google Seite steht auch der Grund warum Bewertungen entfernt werden – es sind angeblich die deutschen Gerichte.

Neben dem Schutz des Rufs von Einzelpersonen schützt das deutsche Recht das geschäftliche Ansehen von Unternehmen. Es ermöglicht Unternehmen, die Entfernung unwahrer Tatsachenbehauptungen oder sachlich nicht gerechtfertigter Meinungsäußerungen zu verlangen, die dem geschäftlichen Ansehen schaden könnten ("Diffamierung"). Deutsche Gerichte haben die Hürden für Unternehmen, Bewertungen als diffamierend anzufechten, niedrig angesetzt. Neben dem Nachweis, dass eine Bewertung eine diffamierende Aussage enthält, können Unternehmen auch anführen, dass die Person, die eine Bewertung verfasst hat, kein Kunde war (z. B. weil sie keinen Beleg über einen Geschäftsvorgang haben).

Aber nun wird es tricky: Eine ungeprüfte, bloß behauptete Verleumdungsbehauptung, die von einer Plattform ohne eigene Prüfung weiterverbreitet wird, stellt selbst eine Diffamierung dar, nicht?

 

CC-BY-NC Science Surf , accessed 30.06.2026

Academics need to rescue Wikipedia

Wikipedia represents something unprecedented: the only major platform on which truth emerges through transparent debate, rather than algorithmic opacity or corporate interests. Every edit is logged, every discussion archived. In an era of AI hallucinations, black-box algorithms and widespread disinformation, Wikipedia's radical transparency has become even more essential.

AI models have extensively grabbed all information without giving back anything as Jemielniak now writes. But why does academia still treat Wikipedia with unwarranted scepticism? Why do many students trust it but not most scholars?

It's not mere snobbery as Jemielniak thinks, it is structural. First, there's no academic reward for writing on Wikipedia. Unlike journal articles or books, contributions don't count toward tenure, promotion, or funding. Second, edits by experts are often reverted or overwritten by anonymous users, sometimes less informed, leading to frustration and wasted effort. Third, while citations exist, the sourcing standards and editorial oversight fall short of academic norms in many fields.

Despite evidence that Wikipedia's accuracy rivals traditional encyclopedias – especially in science and medicine – academics remain hesitant. Some fear losing control over knowledge dissemination. Others dismiss it due to its open, non-peer-reviewed model. Yet Wikipedia reaches millions daily, far more than any academic paper. The irony is clear: scholars use it privately but won't engage publicly.

If academia wants real societal impact, contributing to Wikipedia may be the most effective way to share knowledge. But without institutional recognition, that shift won't happen – and the platform risks decline as AI extracts its value without replenishing it.

Academia could rescue Wikipedia now.

Jan 28, 2026 update

It seems that Nature is reading my blog.

 

CC-BY-NC Science Surf , accessed 30.06.2026

Die DFG torpediert sich selbst

https://www.dfg.de/de/aktuelles/neuigkeiten-themen/info-wissenschaft/2025/ifw-25-102

AI-Systeme, jedenfalls wie sie heute existieren, beruhen ausschließlich auf historischen Daten und statistischen Mustern aus bereits vorhandenem Wissen. Sie können nicht wirklich verstehen oder originell urteilen, sondern nur bekannte Konzepte extrapolieren. Dadurch fehlt ihnen die Fähigkeit, bahnbrechende, noch nicht dokumentierte Ideen oder originelle wissenschaftliche Innovationen zu erkennen oder korrekt zu bewerten - was für die Beurteilung von Forschungsanträgen oft zentral ist.

Fachlich versierte Gutachter*innen bringen Erfahrung, kontextuelles Verständnis und Intuition in die Bewertung ein - Qualitäten, die KI-Modelle noch nicht besitzen. KI kann bei Routine-Checks oder formalen Aspekten helfen, aber sie kann nicht subtile wissenschaftliche Originalität, methodische Raffinesse oder neuartige Denkansätze zuverlässig bewerten. Definitiv nicht.

KI-Modelle lernen aus Datensätzen, die bereits menschliche Vorurteile und strukturelle Verzerrungen enthalten. Wenn solche Systeme zur Begutachtung eingesetzt werden, riskieren sie, historische Ungerechtigkeiten und systematische Biases zu reproduzieren - etwa gegenüber bestimmten Fachrichtungen, Regionen oder Methoden - selbst wenn "Verantwortung bei den Gutachter*innen" verbleibt. Angeblich.

Bei der Eingabe von Anträgen oder vertraulichen wissenschaftlichen Daten in KI-Systeme besteht das Risiko, dass diese Informationen nicht vollständig kontrolliert oder gespeichert werden. Obwohl DFG-Richtlinien Vertraulichkeit fordern, bleibt die technische Umsetzung anspruchsvoll und juristisch heikel. Oder haben wir unbegrenzt Zeit für das Review.

Auch wenn die DFG betont, dass die Verantwortung bei den gutachtenden Personen bleibt, besteht die Gefahr, dass Bewertende kognitiv auf KI-Ausgaben "verlassen" (sog. cognitive offloading). Das kann dazu führen, dass Gutachter*innen ihr eigenes kritisches Denken weniger anwenden, wodurch die Qualität der Begutachtung insgesamt leidet.

Und nicht zuletzt – es gibt dokumentierte Fälle, in denen Forschende versuchen, KI-gestützte Reviewprozesse durch versteckte Prompt-Techniken gezielt zu beeinflussen - ein Risiko, das bei Einsatz von KI-Tools in Begutachtungen weiter zunehmen kann, wenn entsprechende Schutzmechanismen fehlen.

Zum Glück ganz anders das European Research Counsil mit den Richtlinien zu ihren ERC Grants.

Screenshot 27.3.2026

Die Richtlinien basieren auf zwei Grundprinzipien: der Nicht-Übertragung der Bewertungsaufgabe und dem strengen Schutz der Vertraulichkeit. Die Gutachter tragen die volle Verantwortung für die Beurteilung von Anträgen und das Verfassen von Gutachten. KI-Tools dürfen nicht verwendet werden, um Anträge zusammenzufassen, ihren wissenschaftlichen Wert zu beurteilen oder Gutachtenentwürfe zu erstellen. Das Hochladen von Anträgen oder Teilen davon in externe KI-Systeme ist untersagt, da dies vertrauliche Informationen an Dritte weitergeben würde.
Bestimmte Nutzungsformen sind erlaubt. Gutachter dürfen KI-Tools verwenden, um die sprachliche Qualität ihrer Berichte zu verbessern oder allgemeine Informationen zu recherchieren, sofern dabei keine Antragsunterlagen oder personenbezogenen Daten geteilt werden und keine Beurteilung delegiert wird.

 

CC-BY-NC Science Surf , accessed 30.06.2026