Spamfilter für die Forschung: Identifikation von Schrottstudien – Wissen

Gäbe es im System Wissenschaft eine offizielle Währung, wären das die Publikationen. Wer in der Forschung und der akademischen Welt etwas werden und gelten möchte, dessen Name sollte auf möglichst vielen veröffentlichten Studien stehen. Idealerweise sollten diese Arbeiten in angesehenen Journalen publiziert werden, sodass deren Ruf auf die Autoren abstrahlt und ihnen Prestige, Fördergeld, Titel und Posten verschafft.

Doch dieser Weg ist steinig, er ist steil, mühsam zu gehen, und Erfolg ist keinesfalls garantiert. An dieser Stelle setzen Akteure an, deren Produkt sozusagen wissenschaftliches Falschgeld ist, mit dem sich die Publikationsliste ehrgeiziger Forscher oder ganzer Institutionen zwar nicht mit Qualität, dafür aber mit Masse frisieren lässt: Sogenannte Paper Mills verkaufen ihren Kunden gefälschte Scheinstudien und versprechen, dass diese publiziert werden. Weil diese Anbieter sehr erfolgreich sind, wälzt sich eine wachsende Lawine aus Schrottstudien durch das System Wissenschaft.

Gerade haben Forscher um Adrian Barnett von der Queensland University of Technology, Australien, im British Medical Journal eine Technik vorgestellt, mit der sich Paper-Mill-Schrottstudien eventuell rasch identifizieren lassen. Das Team hat ein großes Sprachmodell mit aufgeflogenen Publikationen trainiert, die gesichert aus Paper Mills stammen. Die KI erkenne solche Arbeiten mit sehr hoher Wahrscheinlichkeit an den sprachlichen Besonderheiten dieser Publikationen, so die Forscher. Der jeweilige Inhalt der Veröffentlichungen müsse dafür nicht analysiert werden. „Man könnte sagen, dass wir einen wissenschaftlichen Spamfilter gebaut haben“, sagt Barnett laut einer Pressemitteilung.

Mehr als 400 000 Studien aus Paper Mills seien in den vergangenen 20 Jahren in wissenschaftlichen Fachjournalen publiziert worden, schreiben die Forscher um Barnett im British Medical Journal. Etwa drei Prozent aller Publikationen aus der Biomedizin stammten aus solchen Quellen. Anbieter solcher Schrottstudien sitzen zum Beispiel in China, Indien, Iran oder Russland. Für etwa 5000 US-Dollar, so berichtete das Fachblatt Science im Jahr 2022, bot zum Beispiel ein russisches Unternehmen Autorenschaften auf Studien an.

Laut Schätzungen, die in einem weiteren Science-Beitrag 2024 veröffentlicht wurden, nehmen Paper Mills jedes Jahr zig Millionen Dollar ein. Wie umfangreich das Problem ist, musste auch der Fachverlag Wiley feststellen, der 2021 den ägyptischen Wettbewerber Hindawi übernahm, der damals rund 250 Journale herausgab. 11 300 Studien musste Wiley schließlich zurückziehen und 19 Fachblätter ganz schließen. Die problematischen Publikationen stammten alle aus dem Hindawi-Dunstkreis, wie das Wall Street Journal berichtete.

Die meisten verdächtigen Arbeiten stammen aus der molekularen Krebsforschung

Das Team um Barnett konzentrierte sich für ihren Paper-Mill-Spamfilter auf Publikationen aus der Krebsforschung. Trainiert wurde das Modell mithilfe von 2201 zurückgezogenen Studien, die in der Datenbank der Plattform Retraction Watch verzeichnet sind, die über zurückgezogene Studien berichtet. Damit lernte das System sprachliche Auffälligkeiten sowie den typischen Aufbau von Textbausteinen solcher Schrottstudien zu erkennen, die in Paper Mills in der Regel automatisch generiert werden.  Schließlich wendeten die Forscher ihr Modell auf mehr als 2,6 Millionen Studien aus der Krebsforschung an, die zwischen 1999 und 2024 veröffentlicht worden sind. Mehr als 260 000 dieser Aufsätze, knapp zehn Prozent, sind laut dem Analyseinstrument mit hoher Wahrscheinlichkeit in einer Paper Mill entstanden.

Ungefähr 170 000 dieser Studien stehen mit chinesischen Institutionen beziehungsweise Wissenschaftlern in Zusammenhang. Das entspreche 36 Prozent aller in diesem Zeitraum aus China veröffentlichten Studien aus der Krebsforschung. Die Zahl solcher Arbeiten habe im Untersuchungszeitraum stetig zugenommen, so die Forscher um Barnett. Zu Beginn der 2000er-Jahre waren rund ein Prozent der analysierten Arbeiten vermutlich Paper-Mill-Studien, im Jahr 2022 waren es bereits 16 Prozent.

Die Mehrzahl der verdächtigen Arbeiten stammt aus der Grundlagen- und molekularen Krebsforschung. Vermutlich, weil solche präklinischen Pseudoarbeiten an Zellen statt an Patienten leichter zu fälschen seien, vermutet Malte Elson. „Paper-Mill-Arbeiten werden mit minimalem Aufwand erstellt“, sagt der Psychologe von der Universität Bern und Mitinitiator der Initiative „Error“, für die systematisch Fehler in publizierten Studien gesucht werden. „Paper-Mill-Studien sollen ja nicht gelesen, sondern nur publiziert werden“, sagt Elson.

Das Modell der Forscher um Barnett bewertet Elson als „gute Idee“. Paper-Mill-Studien seien durch ihre schiere Masse ein Problem, zum Beispiel, wenn Forscher für eine Überblicksarbeit den Stand der Literatur zu einem Thema recherchieren. „Wenn man ein zuverlässiges System hat, das einem sagt, welche Arbeiten man nicht lesen muss, wäre das ein Vorteil“, sagt Elson. Die KI der Forscher um Barnett identifizierte zuverlässig Paper-Mill-Studien: Verdächtige Paper wurden in 91 Prozent korrekt identifiziert. Das galt allerdings nur für den Trainingsdatensatz, der zu 50 Prozent aus Paper-Mill-Studien und zu 50 Prozent aus ungefälschten Publikationen bestand.

Jenseits eines solchen kontrollierten Validierungsdatensatzes ist jedoch unklar, wie hoch die Basisrate an Paper-Mills-Studien in der Literatur zu einem Thema ist. Deswegen lasse sich kaum sagen, wie hoch die Rate an falsch positiven Ergebnissen liegt. Darüber ließen sich allenfalls plausible Schätzungen abgeben, so Elson. Diese könnte bei 30 Prozent, aber auch deutlich niedriger liegen – unklar. Dabei handelt es sich um eine wesentliche Frage. „Denn würde man einen Spamfilter verwenden, der zu viele erwünschte E-Mails aussiebt?“, fragt Elson. Ganz ausgereift sei das Modell offenbar bisher nicht – aber ein guter Ansatz. Drei wissenschaftliche Fachjournale, so berichten die Forscher um Barnett, erprobten das Modell jedenfalls schon einmal in der redaktionellen Begutachtung eingereichter Arbeiten.