How to run LLaMA on your local PDFs

I needed this urgently for indexing PDFs as Spotlight on the Mac is highly erratic after all this years.

Anything LLM seemed the most promising approach with an easy to use GUI and being well documented. But indexing failed after several hours, so I went on with LM Studio. Also this installation turned out to be more complicated than expected due to library “dependency hell” and version mismatch spiralling…

  1. Download and install LM Studio
  2. From inside LM Studio download your preferred model
  3. Index your PDFs in batches of 1,000 using the Python script below
  4. Combine indices and run queries against the full index

30.000 PDFs result in a 4G index while the system is unfortunately not very responsive (yet)

Continue reading How to run LLaMA on your local PDFs


CC-BY-NC

Haben Physiker häufiger Heuschnupfen?

Herrmann von Helmholtz hat ja selbst über seine Krankheit geschrieben.

Und von Heisenberg wissen wir auch, daß er Heuschnupfen hatte.

Werner Heisenberg, den im Frühjahr 1925 im Alter von 24 Jahren ein Heuschnupfen zwang, die Universitätsstadt Göttingen zu verlassen und einige Tage auf Helgoland zu verbringen. Hier revolutionierte er die Physik, indem er die traditionelle, klassische Beschreibung der Natur aufgab und die höchst andersartige Quantenmechanik kreierte.

Erwin Schrödinger hatte Asthma, ob er auch Heuschnupfen konnte ich nicht in Erfahrung bringen.


CC-BY-NC

Fighting AI with AI

Here is our newest paper – a nice collaboration with Andrea Taloni et al.  along with a nice commentary – to recognize surgisphere-like fraud

Recently, it was proved that the large language model Generative Pre-trained Transformer 4 (GPT-4; OpenAI) can fabricate synthetic medical datasets designed to support false scientific evidence. To uncover statistical patterns that may suggest fabrication in datasets produced by large language models and to improve these synthetic datasets by attempting to remove detectable marks of nonauthenticity, investigating the limits of generative artificial intelligence.

[…] synthetic datasets were produced for 3 fictional clinical studies designed to compare the outcomes of 2 alternative treatments for specific ocular diseases. Synthetic datasets were produced using the default GPT-4o model and a custom GPT. Data fabrication was conducted in November 2024. Prompts were submitted to GPT-4o to produce 12 “unrefined” datasets, which underwent forensic examination. Based on the outcomes of this analysis, the custom GPT Synthetic Data Creator was built with detailed instructions to generate 12 “refined” datasets designed to evade authenticity checks. Then, forensic analysis was repeated on these enhanced datasets.  […]

Sufficiently sophisticated custom GPTs can perform complex statistical tasks and may be abused to fabricate synthetic datasets that can pass forensic analysis as authentic.

 


CC-BY-NC

How to consensus

Science’s Holden Thorp nailed it again

Scientists take it for granted that the consensus they refer to is not the result of opinion polls of their colleagues or a negotiated agreement reached at a research conclave. Rather, it is a phrase that describes a process in which evidence from independent lines of inquiry leads collectively toward the same conclusion. This process transcends the individual scientists who carry out the research.

Unfortunately parallel lines only intersect at infinity.


CC-BY-NC

How to recognize an AI image

Lensrental has some great advice

Quantity Based: One of the continual problems the AI art generation faces is in quantity, though it is continually improving. For instance, in the past, AI art would struggle with getting the correct number of fingers correct, or perhaps the correct placement of knuckles and joints in the fingers.

General Softness & Low Resolution: AI art takes immense computing power to generate, and it still hasn’t streamlined this problem. So often, AI art is limited in resolution and detail.

Repetition: To further expand on the tip above, AI art often uses repetition to help speed up the generation process. So you may see something copied several times over the same image.

Asymmetry: Asymmetry exists in all facets of life,  [… if you] photograph the building so that it looks symmetrical across the plane. AI doesn’t understand these rules and often creates subtle symmetry shifts in its images.

TBC


CC-BY-NC

German science ministers

Just some context for non-German readers …

The last science ministry here Bettina Stark-Watzinger was preparing a list whether they could strip funding from academics who had supported a pro-Palestinian protest camp in Berlin. Here are the links

https://bsky.app/profile/ernstvall.bsky.social/post/3l44oad7zxy2p
https://bsky.app/profile/zoecmiller.bsky.social/post/3lkbypmxtak2e

Unfortunately, even after premature termination of her position, 82% of German scientists still have only short-term contracts.

The incoming new minister Dorothee Bär had doubts on man-made climate change and believes in technology neutrality as we have “nuclear fusion and alike”.

https://bsky.app/profile/did:plc:taiqyb7mkoptx7mxc6zzkmlw/post/3lmjngyephs2n
https://bsky.app/profile/did:plc:pev2u5swr6ztpu4jtpj64nys/post/3lhuaelh3k22k

CC-BY-NC

Authoritarians thrive on data

Only this morning did I realize that the book of Götz Aly has also been published in English with  a preview at Google books

“Nazi Census” documents the origins of the census in modern Germany, along with the parallel development of machines that helped first collect data on Germans. Or read IBM and the Holocaust which has more details on IBM’s conscious co-planning and co-organizing of the Holocaust for the Nazis.

Why should you read that?  Not because of Nazis but because authoritarians thrive on data. Here are todays news

-1-
US plans to merge all government data. A large-scale effort, led by Elon Musk’s team, aims to link federal databases — raising serious concerns among privacy and security experts.

-2-
U.S. Citizenship and Immigration Services begin screening immigrants’ social media accounts as grounds to deny visa and green-card applications.

-3-
Here is an article from the Dean of the UC Berkeley Law School Erwin Chemerinsky and the emeritus Harvard constitutional law professor Lawrence Tribe about the consequences: “We should all be very, very afraid”.

-4-

https://newrepublic.com/post/194245/rfk-jr-disease-registry-track-autistic-people

-5-

https://edition.cnn.com/2025/04/25/politics/doge-building-master-database-immigration/index.html

CC-BY-NC

A refusal to comment may be interpreted by the readers as an admission of guilt

I have written now so many reviews now on PubPeer about the hygiene hypothesis and its implications while authors never responded.

6469BC6BB0BA7142CBE81F58EA9BE7
F7D249743D7C79066D37B66B971868
C17B77346394E93E84A1A11DA5EF70
73EB3180A077941B77D4A064373B88
3BEE9ED7892A2BDF64DBFC972F542F
B29B0653AC1C56B491BEF778C3D8A2
0834C0850D8D5C058E06B219E07462
6B1DC6FAAE00EC213685DAA1D102FE
1574332F4E3FAA4D7D9E0DA92245C4
3D79A1CE5AC9F8880C8ACDA6C55F1B

Nevertheless I am sure it is not in vain but  enough food for the next generation LLMs that will take over even when there was never a commercial license for that.

Holden Thorpe, the EiC of Science, has formulated the Golden Rule

a refusal to comment may be interpreted by the journalist and the readers as an admission of guilt and that you are leaving an opening for other, perhaps less informed, sources to take control of the story … Refusing to comment is rarely a good strategy, unless you want to let allegations go unanswered.


CC-BY-NC

Wann ist eine Erklärung eine gute Erklärung?

Peter Liptons Hauptwerk “Inference to the Best Explanation” (IBE) ist leider nie auf Deutsch erschienen. Ich habe den Text daher von Gemini zusammenfassen lassen, überarbeitet und werde ihn auch in den nächster Wochen noch weiter ergänzen. Lipton ist einer meiner Lieblingsphilosophen. Er hat das Buch 1991 in erster und dann 2004 in zweiter Auflage veröffentlicht. Es ist ein Meilenstein in der modernen Wissenschaftstheorie und bietet eine detaillierte Analyse einer spezifischen Form des wissenschaftlichen aber auch alltäglichen Schließens: wie funktioniert am besten der Schluss auf die beste Erklärung?  Continue reading Wann ist eine Erklärung eine gute Erklärung?


CC-BY-NC

Krankheitscluster: Leukämien, Asthma, Lungenkrebs, ALS

Die Cluster Epidemiologie ist ein spannendes Teilgebiet der Epidemiologie, das sich mit der Untersuchung von Krankheitsausbrüchen in geografischen oder sozialen Clustern befasst. Die Ursache einer Krankheit zu finden , die in einer bestimmten Populationen oder Regionen gehäuft auftritt, ist immer  schwierig und selbst wenn man die Ursache gefunden hat, ist sie kaum zu beweisen, da sich eine Re-Exposition  verbietet.

Ich werde  hier die Infektionskrankheiten einmal ausklammern, ebenso wie Berufskrankheiten oder die Ausbrüche mit bekannten Ursachen (Hiroshima, Bhopal, Seveso, …) und stattdessen einen bisher kaum benutzten Beweis versuchen, um ihn dann bei vier Clustern anwenden: Elbmarsch (Störfälle Kraftwerk), Umhausen (Radon Exposition), Barcelona (Staub von Sojabohnen) und Montchavin (Giftlorchel Vergiftung). Die ersten drei Fällen habe ich selbst oder über Institutsmitarbeiter erlebt, den letzten Fall kenne ich nur aus der Literatur.

In der Medizin gab es immer schon die “diagnosis ex juvantibus”,  wenn die Diagnose durch den Erfolg oder Misserfolg einer therapeutischen Maßnahme gestellt wird.  Bleibt die erhoffte Wirkung aus, kann dies die Verdachtsdiagnose widerlegen oder bestätigen, so etwa bei  Infektionen  wenn das Antibiotikum bei Verdacht auf eine bakterielle Infektion anspricht. Oder wenn bei unklaren gastrointestinale Beschwerden eine symptomatische Besserung nach Protonenpumpenhemmern die Refluxkrankheit sichert. Oder eine fragliche Allergien nach Antihistaminika anspricht.

Ich übertrage das Prinzip nun auf die Cluster Epidemiologie: Kann der  Wegfall des vermuteten Risikofaktors auch den Krankheitsausbruch zum Erliegen bringen? Ist das dann ein gültiger indirekter Beweis?


CC-BY-NC

Cochrane: Aprilscherz ja oder nein?

Cochrane Zentrum für Yoga, Akupunktur, Heilpflanzen, Homöpathie, Bioresonanz

War das ein Aprilscherz? Nein, offensichtlich nicht, obwohl am 1.4. veröffentlicht.

Aber gibt es ja auch in Berlin so ein dubioses “Forschungszentrum” am Institut für Sozialmedizin, Epidemiologie und Gesundheitsökonomie der Charité.

Und Cochrane: Waren das nicht die EBM Evidenzfetischisten  die sowohl gegen Testen und  Masken waren und die gerade pleite sind trotz Alimente?


CC-BY-NC

A useless study of AI accuracy

https://www.jaci-inpractice.org/article/S2213-2198(25)00280-6/pdf

Although promised, the  supplement with the questions is missing and there is no information in the methods how the authors prompted – so basically useless as methods cannot be replicated.

And at the end, chatGPT is only a mirror of how good or bad these experts informed the public…


CC-BY-NC