Det vil være mye vanskeligere å kalle nye funn 'betydelige' hvis dette teamet får sin vei

Joanna Poe / Flickr (CC BY-SA 2.0)

Det vil være mye vanskeligere å kalle nye funn 'betydelige' hvis dette teamet får sin vei

Av Kelly ServickJul. 25, 2017, 14:30

Et megateam av reproduserbarhetsinnstilte forskere fornyer et kontroversielt forslag om å heve standarden for statistisk betydning i forskningsstudier. De vil at forskere skal dumpe den langvarige bruken av en sannsynlighetsverdi (p-verdi) på mindre enn 0, 05 som gullstandard for betydelige resultater, og erstatte den med den mye stivere p-verdi terskel på 0, 005.

Støttere av endringen, som har blitt flyttet før, sier at den dramatisk kan redusere rapporteringen av falsk-positive resultater - studier som hevder å finne en effekt når det ikke er noen - og dermed gjøre flere studier reproduserbare. Og de bemerker at forskere på noen felt, inkludert genomanalyse, allerede har gjort en lignende bytte med gunstige resultater.

“Hvis vi kommer til å være i en verden der forskningsmiljøet forventer en viss streng avskjæring ... er det bedre at denne terskelen er 0, 005 enn 0, 05. Det er en forbedring i forhold til status quo, sier adferdsøkonom Daniel Benjamin fra University of South California i Los Angeles, førsteforfatter på det nye papiret, som ble lagt ut 22. juli som en forhåndstrykkartikkel på PsyArXiv og er planlagt for en kommende utgave av Naturens menneskelige oppførsel. "Det virket som om dette var noe som var gjennomførbart og enkelt, og som hadde jobbet på andre felt."

Men andre forskere avviser ideen om enhver absolutt terskel for betydning. Og noen biomedisinske forskere bekymrer seg for at tilnærmingen unødvendigvis kunne øke kostnadene for medisinforsøk. "Jeg kan ikke være veldig begeistret for det, " sier biostatistiker Stephen Senn fra Luxembourg Institute of Health i Strassen. "Jeg tror ikke de virkelig har utarbeidet de praktiske implikasjonene av det de snakker om."

En fyldig verdi

P-verdien er et notorisk unnvikende konsept for nonstatisticians. Altfor ofte blir det feiltolket for å være sannsynligheten for at hypotesen som testes er sann, sier Valen Johnson, statistiker Texas A&M University i College Station og forfatter til den nye artikkelen. Virkeligheten er mer komplisert. For en test av et nytt medikament i en klinisk studie, for eksempel, betyr en p-verdi på 0, 05 virkelig resultatene observert - eller enda mer ekstreme resultater - ville forekomme i en av 20 studier hvis stoffet virkelig ikke hadde noen fordel i forhold til dagens velferdstandard. Men det er ofte feil beskrevet som 95% sjanse for at stoffet faktisk fungerer.

For å forklare et bredere publikum hvor svak den000 statistiske terskelen egentlig er, sluttet Johnson seg til 71 samarbeidspartnere i den nye avisen (noe som til dels gjenspeiler et argument Johnson fremsatte for strengere p-verdier i en 2013-artikkel). Blant forfatterne er noen store navn i studien av vitenskapelig reproduserbarhet, inkludert psykolog Brian Nosek ved University of Virginia i Charlottesville, som ledet en replikasjonsinnsats av høyprofilerte psykologistudier gjennom nonprofit Center for Open Science, og epidemiolog John Ioannidis fra Stanford University i Palo Alto, California, kjent for å påpeke systemiske feil i biomedisinsk forskning.

Forfatterne satte opp et scenario der oddsen er 1 til 10 for at enhver gitt hypotese forskere tester er iboende sant at et medikament virkelig har en viss fordel, for eksempel, eller et psykologisk inngrep virkelig endrer atferd. (Johnson sier at noen nyere studier innen samfunnsvitenskap støtter den ideen.) Hvis et eksperiment avslører en effekt med en tilhørende p-verdi på 0, 05, ville det faktisk bety at nullhypotesen ingen reell effekt is omtrent tre ganger mer sannsynlig enn hypotesen som testes. Bevisene på en sann effekt er med andre ord relativt svake.

Men under de samme forhold (og forutsatt at studier har 100% makt til å oppdage en sann effekt) krev en p-verdi til eller under 0, 005 i stedet for 0, 05 ville gi mye sterkere bevis: Det ville redusere frekvensen av usann -positive resultater fra 33% til 5%, forklarer papiret.

Hele valget av .05 som standard er virkelig en slags numerologi te der ingen vitenskapelig begrunnelse for det, sier Victor De Gruttola ved Harvard School of Public Health i Boston. Avisen utsetter at det kan være en falsk trygghet med .05-misligholdet. Han tviler på at resultatene vil være nyheter for statistikere, men jeg tror mange etterforskere som ikke har hovedfokus på denne typen problemer kan bli overrasket.

Betydelig, eller bare suggererende?

Forfatterne er nøye med å ikke slutte seg til bruken av p-verdier som det endelige mål på betydning; mange forskere har hevdet at de burde avskaffes helt. Men på de mange feltene der en p-verdi under 0, 05 har blitt en gullstandard, foreslår forfatterne en tommelfingerregel for nye funn: Vesentlige resultater bør kreve en p-verdi under 0, 005; resultater med p-verdier under 0, 05, men over 0, 005 bør bare kalles suggestive.

Til og med tilhengere av studien og noen av dens forfattere er på vakt for enhver absolutt terskel.

De Gruttola påpeker at riktig avskjæring for betydning avhenger av hvilke bevis som allerede eksisterer for hypotesen som testes, og de relative konsekvensene av å handle på et falsk-positivt eller et falsk-negativt resultat. Vil du bruke feil tannkrem hvis du opptrer på et falskt resultat, spør han, eller ville du fått feil medisin for en alvorlig sykdom? Likevel, he s trygg på at en 0, 005 signifikansgrense er å foretrekke fremfor 0, 05.

Men ikke alle er om bord. Psykolog Timothy Bates fra University of Edinburgh kalte i et svar på publiseringsplattformen Medium forslaget a en risikabel distraksjon fra grunnårsakene til uopprettelige resultater. Å nedgradere et funn fra signifikant til suggestive ville ikke endre hvilke resultater som blir publisert, eller hvordan de generelt tolkes, hevdet han. Og det ville ikke adressert mange andre fremgangsmåter knyttet til uopprettelige resultater: dårlig studieutforming, en skjevhet mot publisering av positive resultater, og praksisen med p-verdi hacking fiske etter betydningsfulle resultater fra et stort antall hypoteser. (Forfatterne erkjenner at løsningen deres bare er ett skritt blant mange som er nødvendige for å gjøre publiserte studier mer reproduserbare.)

Forskere som er fokusert på medikamentutvikling har nok en stor misgiving: Den nye standarden kan tvinge opp den nødvendige størrelsen på en prøve med hele 70%, ifølge forfatterne estimater. Hvis du er et farmasøytisk selskap dere kommer til å savne ganske mange fornuftige medisiner, kanskje, ganske enkelt fordi dere ikke har ressurser til å se på så mange narkotika, sier Senn. Alt annet du ikke studerer har en prøvestørrelse på null.

Forfatterne ser imidlertid sølvforet i det scenariet: Færre ressurser vil bli kastet bort på studier som fulgte opp med falske positive resultater. Og de er forsiktig med å argumentere for at en p-verdi over .005 skal være en dødsknopp for publisering eller oppfølging av en hypotese. Hovedbudskapet deres, sier Benjamin, er at en p-verdi på 0, 05 er mye svakere bevis enn de fleste forskere er klar over. Hvis denne artikkelen er med på å spre det budskapet, er det en stor gevinst for folk forståelse av empiriske bevis.