Hvem er Michael Jordan i informatikk? Nytt verktøy rangerer forskernes innflytelse

I fjor høst lanserte Allen Institute for Artificial Intelligence i Seattle, Washington, en utfordring for Google Scholar, PubMed og andre online søkemotorer ved å avduke en tjeneste som heter Semantic Scholar. Programmet, opprinnelig trent på 2 millioner papirer fra informatikkfeltet, var ment å gi en søkemotor, drevet av kunstig intelligens (AI), for å faktisk forstå til en begrenset grad innholdet i publisert litteratur . Korpuset har vokst til 4 millioner papirer. Og i dag tilfører instituttet Semantic Scholar en ny evne med et like ambisiøst mål: å måle innflytelsen en forsker eller organisasjon har hatt på påfølgende forskning.

Verktøyet, som kun fokuserer på informatikk for nå, men vil utvide til nevrovitenskap med høsten og deretter til andre fag, kan rangere artikler, forfattere og institusjoner etter en spesifikk påvirkningsscore. For eksempel finner verktøyet at den mest innflytelsesrike datavitenskapen skjer ved Massachusetts Institute of Technology i Cambridge. Ingen overraskelse der. Men den mest innflytelsesrike dataforskeren? Det er Michael I. Jordan fra University of California, Berkeley, en pioner av AI som få utenfor hans felt kjenner seg igjen i. "Han er kjent som Michael Jordan for maskinlæring, " sier Oren Etzioni, direktør for det Seattle-baserte Allen Institute som skapte Semantic Scholar. (Klikk her for en liste over de 50 beste forfatterne, og her for en liste over de 50 beste domenene.)

Hvis utenforstående synes Semantic Scholar rs rangeringer er pålitelige, kan antallene bli brukt av ansettelseskomiteer. Det er fordi påvirkning er en vanskelig ting å måle. Den gamle måten er å telle sitater. Slike tellinger har blitt en hjørnestein i den akademiske publiseringsbransjens beregninger, med Thomson Reuters, Elsevier og andre som selger tilgang til bibliografiske databaser som gjør det mulig for brukere å kjøre tallene.

Men ikke alle siteringer er skapt like for eksempel, og det å bli sitert som inspirasjon for en hel artikkel er veldig annerledes enn en kort omtale i metodedelen. Så rå telleren kan male et misvisende portrett av en forskerens innvirkning. Og forskere klager over at tradisjonelle siteringsbaserte beregninger har bidratt til å skape en "publisere eller fortapt" -mentalitet, ved å presse dem til å spytte ut papirer så raskt som mulig, uavhengig av funnens betydning, i håp om å sette sammen sitater.

Det som trengs, er det noen som sier, er en mer direkte måling av papirets faktiske innflytelse på fremtidig forskning. Så Etzionis team bygde et nytt verktøy i Semantic Scholar som gjør det mulig å lage en influensjonsgraf. De fleste av papirene i databasen er i PDF-format, som er lett for et menneske å lese, men bare ser ut som en klatt med ustrukturert tekst til en datamaskin. Å lese mer som et menneske krever maskinlæring, en teknikk som hjelper en datamaskin med å lage nøyaktige gjetninger. For eksempel må det ikke bare oppdage de forskjellige seksjonene i papiret introduksjon, metoder, resultater but skjelne tonen for hvordan papirer siteres. Så Allen Institute-teamet brukte maskinlæring for å trene en statistisk modell som oppdager alle disse funksjonene. Da forbedret datamaskinen sin modell jevnlig ved å sammenligne gjetningene sine med de fra menneskelige eksperter som samlet en prøve av papirene.

For nå måler systemet bare "direkte innflytelse" mellom papirer som siterer hverandre, sier Etzioni, men fremtidige versjoner vil redegjøre for den indirekte innflytelsen fra papirer som siterer papirer som på sin side siterer andre papirer, og så videre.

Prøvekjøring

Verktøyet debuterte i dag på www.semanticscholar.org. Science ba Jeff Clune, en datamaskinforsker ved University of Wyoming i Laramie, om å ta den med på en prøvekjøring.

Det første Clune gjorde var å se på sitt eget nabolag i påvirkningsgrafen. "Det er ekstremt gøy, " sier han. "Jeg kan se hvilke forskere som har mest påvirket min egen karriere, hvilke forskere jeg har inspirert mest, og det samme for enhver annen vitenskapsmann." De fleste resultatene var akkurat som Clune forventet - mentorene hans påvirket ham og han påvirket doktorgradsstudentene og postdokumentene - men det var noen overraskelser. Han var ikke kjent med navnet på noen, for eksempel som har forsket på omfattende oppfølging inspirert av Clunes artikler.

Men foruten underholdningsverdien, mener Clune at verktøyet kan ha verdi i den akademiske ansettelses- og promoteringsprosessen. Komiteene som tar disse beslutningene blir presset til ikke bare å rangere kandidater etter suksessen med tidligere arbeid, men å forutsi hver kandidats fremtidige innvirkning. Semantic Scholar prøver å avsløre hva som er "varmt" i feltet ved å måle "hastigheten" og "akselerasjonen" av kroppsarbeider, målinger av hvor raskt andre siterer noe arbeid, og om det er en tendens. Avdelingsutvalg beregner allerede det på flukt, sier Clune, så disse tallene vil bli brukt, spår han.

Men det aspektet bekymrer ham også. I noen grad er Semantic Scholar "en svart boks, " sier Clune. "Vil folk forstå hvor tallene kommer fra?"

Etzioni erkjenner den uklarhet i hvordan algoritmene gir resultatene. "Det er alltid en avveining i maskinlæring, " sier han. "En ting som hjelper er at du kan se eksempler på hvor tallene kommer fra når du svever over tallene."

I mellomtiden tar Michael Jordan for maskinlæring sin topprangering i skritt, men avleder kreditt. "Til tross for mytologiene som historisk sett er bygget opp rundt bestemte individer innen naturvitenskap og matematikk, tror jeg personlig at det er nettverkene forskere tilhører som er mest forutsigbare for deres suksess, " sier han. "Mitt eget personlige nettverk er fullt av flotte mennesker som har hatt gode ideer."

Etzionis team setter nå Semantic Scholar løs på et massivt korpus av forskningsartikler med fokus på hjernen. Dette verktøyet og påvirkningsrankingen for hjerneforskere vil debutere på Society for Neuroscience-møtet i San Diego, California, 12. november.