Hintergrund
Der Erfolg evidenzbasierter Praxis hängt von der klaren und effektiven Kommunikation statistischer Informationen ab (1). Ziel ist, dass die Informationen verstanden, Nutzen und Risiken von Interventionen korrekt eingeschätzt und letztlich informierte Entscheidungen ermöglicht werden. Für die Erstellung einer Information muss sowohl eine inhaltliche Auswahl der zu kommunizierenden Häufigkeiten stattfinden, als auch eine Überprüfung, ob Zahlen belastbar genug sind, dass sie kommuniziert werden können. Wurden Zahlen ausgewählt, ist es für das Gelingen der Kommunikation wichtig, die vorhandene Evidenz zu verschiedenen Darstellungen im Hinblick auf Wirksamkeit und auch auf mögliche adverse Effekte hin zu überprüfen.
Für die Darstellung von statistischen Informationen (Wahrscheinlichkeiten, die Güte diagnostischer Tests sowie Nutzen, Schaden und Nebenwirkungen medizinischer Maßnahmen) werden verbale Deskriptoren eingesetzt. Verbale Deskriptoren sind mehr oder weniger konkrete sprachliche Umschreibungen von Häufigkeiten, z.B. selten, gelegentlich, häufig, sicher oder wahrscheinlich. Untersuchungen haben allerdings gezeigt, dass sich die Interpretationen sprachlicher Beschreibungen und die resultierende Wahrnehmung von Risiken sowohl interindividuell als auch zwischen medizinischen Laien und Professionellen stark unterscheiden (2). Verbale Angaben zu Nebenwirkungen führen zu Überschätzungen der Wahrscheinlichkeit ihres Auftretens (2).
Ein erster Ansatz, die verbale Beschreibung von Risiken zu standardisieren, erfolgte durch die Europäische Kommission im Jahr 1998 (3). In der Leitlinie zur Lesbarkeit von Informationen zu Medizinprodukten wurde fünf verbalen Deskriptoren jeweils eine definierte numerische Häufigkeit oder Häufigkeitsspanne zugeordnet (3). Auch das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) fordert für Angaben zu Häufigkeiten von Nebenwirkungen in Produktinformationen die Verwendung der festgelegten sprachlichen Beschreibung zusammen mit der numerischen Angabe (4). In einer in Deutschland durchgeführten Befragung von Ärztinnen, Ärzten, Apothekerinnen, Apothekern, Juristinnen und Juristen konnten diese den verbalen Wahrscheinlichkeitsangaben für Nebenwirkungen nicht korrekt die entsprechenden Prozentwerte zuordnen (5).
Für die numerische Darstellung stehen verschiedene Formate zur Verfügung: natürliche Häufigkeiten, Prozentangaben, absolute Risikoreduktion (ARR), relative Risikoreduktion (RRR), Number Needed to Treat / Screen / Harm (NNT, NNS, NNH). Bei Angabe natürlicher Häufigkeiten werden unterschiedliche Bezugsgrößen (Denominatoren) gewählt: 1 von 100, 1 von 1000, 1 von 10000. Die Frage nach den Effekten der genannten Formate wurde bereits in mehreren systematischen Übersichtsarbeiten untersucht (1, 6-8). Akl et al. beziehen dabei erstmalig explizit den Endpunkt persuasiveness (Überredung) mit ein, der anhand von hypothetischen Entscheidungen gemessen wird (1).
Die Verwendung natürlicher Häufigkeiten galt sehr lange den Prozentangaben überlegen und wurde auch im Kontext der evidenzbasierten Medizin stark befürwortet (9). Studien haben untersucht, wie häufig der positiv prädiktive Wert eines Tests korrekt geschätzt wird, wenn Angaben zur Prävalenz der gesuchten Erkrankung sowie zu Sensitivität und Falsch-positiv-Rate gemacht werden (10-13). Sie haben ergeben, dass der Anteil korrekter Antworten, selbst bei Darstellung der genannten Größen als natürliche Häufigkeiten, sehr niedrig war. Deshalb sollten positiv prädiktive Werte und andere Testgüteparameter direkt angegeben werden, ohne dass die Adressaten der Information die entsprechenden Berechnungen selbst durchführen müssen (11).
Ein möglicher adverser Effekt der Darstellung von Risiken als natürliche Häufigkeiten kann durch den denominator neglect, die Vernachlässigung des Nenners, entstehen: In der Wahrnehmung liegt der Fokus auf der Zahl von beobachteten Ereignissen (Zähler), sei sie noch so klein, nicht auf der Bezugsgröße (Nenner) (14). Beim Vergleich von Risiken – etwa mit und ohne eine Therapie – wird die Wahrnehmung weiter verzerrt, wenn die Bezugsgrößen unterschiedlich gewählt sind (z.B. 80 von 800 vs. 20 von 100). Die Nachteile dieser Darstellung werden schon lange diskutiert. Bei der Verwendung unterschiedlicher Bezugsgrößen gilt es als schwierig, verschiedene Angaben zu vergleichen und die Höhe von Risiken korrekt einzuschätzen (15), wobei es zu einer Überschätzung der Risiken kommt (16).