Bekymringer om personvern kan avspore enestående plan for å bruke Facebook-data til å studere valg

Ansatte på Facebook jobber for å redusere spredningen av feilinformasjon som kan påvirke valget.

NOAH BERGER / AFP / Getty Images

Bekymringer om personvern kan avspore enestående plan for å bruke Facebook-data til å studere valg

Av Jeffrey MervisSep. 24, 2019, 16:50

Gary King hadde godt av den perfekte timingen ved å selge Facebook på ideen om å dele en skattekule av dataene sine med akademikere. Men nå jobber klokken mot innsats fra King og andre for å hindre at det innovative prosjektet - som har som mål å bedre forstå hvordan informasjon spredt på Facebook påvirker valg og politiske institusjoner over hele verden - faller fra hverandre. Det viktige festepunktet: å beskytte personvern til Facebook-brukere.

I mars 2018 besøkte King, en kvantitativ samfunnsforsker ved Harvard University, Facebooks hovedkvarter i Menlo Park, California. Media hadde nettopp brutt nyheten om at et britisk firma, Cambridge Analytica, hadde solgt velgerprofiler til kandidater basert på personlig informasjon ubevisst levert av millioner av Facebook-brukere. Den resulterende skandalen var en nøktern leksjon for Facebook om hvordan man ikke skulle dele dataene sine med utenforstående.

King var en bedre måte for Facebook å dele data på. Planen hans ble designet for å oppfylle høye etiske og intellektuelle standarder, samtidig som han oppnådde tre viktige mål: å bevare personvernet til Facebook-brukere, beskytte selskapets forretningshemmeligheter for hvordan dets data ble forvaltet, og ikke lagt noen begrensninger for hva forskere kunne publisere fra dataene.

Romanarrangementet, mener King, kunne transformere kvantitativ samfunnsvitenskap ved å gi forskere tilgang til virkelig store data i stedet for undersøkelsene og små prøvene som tradisjonelt hadde vært deres grunnleggende diett. Det vil også møte en stor utfordring som feltet står overfor: Private selskaper har nå langt mer informasjon om hvordan mennesker oppfører seg enn myndigheter. Og forskere trengte bedre tilgang til disse dataene.

Facebook-tjenestemenn lyttet høflig til King's tonehøyde, men ga ingen løfter. Han regnet med at han hadde slått ut.

Deretter husket han nylig: "Jeg var på hotellrommet mitt og pakket for å dra hjem, da jeg fikk en e-post fra folkene jeg nettopp hadde møtt med." Det stilte spørsmålet: "Hva kan vi gjøre med dette?" Med henvisning til til Cambridge Analytica-skandalen. Bedriftens tjenestemenn, som hadde sett i forferdelse da prisen på Facebook-aksjer falt i kjølvannet av avsløringene, var tydelig bekymret for hvordan skandalen kan skade selskapets omdømme.

Noen dager senere fikk King en oppfølgende telefonsamtale. “Hei, kan du gjøre en studie av valget i 2016 og fortelle alle at vi ikke endret utfallet?” Spurte en tjenestemann på Facebook ham. "Og hvis vi gjorde noe galt, så fortell oss hva vi skal gjøre, og vi vil gjøre det, liksom med en gang." King sier at hans første reaksjon var, "Jeg antar at det å miste $ 100 milliarder dollar i markedskapital fokuserer tankene.

“En viktig ny modell”

Samtalen sendte King og Nate Persily, jusprofessor ved Stanford University i Palo Alto, California, i overdrive på planen deres om å stille opp Social Science One, en ideell enhet som ville være den elektroniske siden for forskere å få tilgang til alle data som Facebook ga ut . Det første prosjektet ville gi forskere en titt på hvordan Facebooks 2 milliarder brukere hadde delt nettsteder som diskuterte det amerikanske presidentvalget i 2016, samt demokratiske institusjoner over hele verden.

Datasettene vil inneholde nettadresser, eller nettadresser, som Facebook-brukere hadde delt offentlig, noen kjennetegn på disse URL-ene, og samlet informasjon om deltakerne, inkludert alder, kjønn, beliggenhet og politisk tilbøyelighet. Det lovet å være en gullgruve for forskere som studerer under hvilke forhold, og av hvem, falske nyheter spres over internett.

9. april 2018 kunngjorde Elliot Schrage, en topp leder i Facebook, det nye initiativet, som han skrev ville "bidra til å gi uavhengig, troverdig forskning om rollen som sosiale medier ved valg." I en blogg kalte Schrage det "en viktig ny modell for partnerskap mellom industri og akademia. ”Og selv om han ikke nevnte Cambridge Analytica, var skandalen tydelig på tankene. "De samme Facebook-verktøyene som hjelper politikere til å få kontakt med deres bestanddeler ... kan også misbrukes for å manipulere og lure, " skrev han.

Stiftelser klatrer ombord

Kunngjøringen fra april 2018 listet også syv veldedighetsorganisasjoner som ville finansiere initiativet. Konsortiet hadde blitt samlet av Larry Kramer, president for William and Flora Hewlett Foundation, som ligger bare noen miles fra Facebooks hovedkvarter i Menlo Park. Stiftelsen hadde nylig utvidet et stort demokratiinitiativ, kalt Madison Initiative, som fokuserte på å studere kongressen for å være mer oppmerksom på digital feilinformasjon.

"Jeg husker programlederen vår skalv av begeistring" da hun hørte om det nye partnerskapet, minnes Kramer. "Vi hadde nettopp identifisert mangel på tilgang til data som vårt kjerneproblem for Madison Initiative, og så, boom, her kommer denne skatten som vil la oss gjøre det vi tror må gjøres."

Kramer kunne få Alfred P. Sloan-stiftelsen, Laura og John Arnold-stiftelsen, Charles Koch-stiftelsen, John S. og James L. Knight-stiftelsen, Democracy Fund og Omidyar Network til å logge på. Alle deler en interesse for hvordan demokratier fungerer, sier han. Deres ideologiske mangfold - Koch støtter flere konservative årsaker, mens Omidyar-nettverket er avovydig liberalt - var også viktig.

"Vi ble enige om at vi trengte finansiering utenfra for å få dette til å fungere, " husker Kramer. “For hvis det ble finansiert av Facebook, ville folk mistro resultatene. Det er akkurat slik ting er i dag. ”Organisasjonene ble enige om å gi totalt 11 millioner dollar til et 1-årig pilotprosjekt, som skal administreres av Social Science Research Council (SSRC), en ideell non-profit organisasjon i New York City som også ville drive tilskuddsprosessen.

"Denne strukturen var fornuftig, og menneskene som kjørte den var helt topp, " sier Kramer. "Og det startet veldig bra."

I juli 2018 la SSRC ut en innkalling til forslag, og tildelte i april $ 50 000 tilskudd til hvert av et dusin team av forskere. (Et annet årskull på 13 lag er valgt, men ennå ikke kunngjort.) Den første runden med prosjekter inkluderer studier av hvordan aktivitet på Facebook kan ha påvirket samfunnsengasjement og de siste valgene i Taiwan, Chile, Brasil og Tyskland, samt hvordan brukere reagerer ulikt på mainstream og villedende online kilder til nyheter.

Skynd deg og vent

Men så mye som Kramer håpet det unike samarbeidet mellom Facebook, Social Science One, og finansiererne ville blomstre, tror han det kan ha vært en feil å bevege seg så raskt i begynnelsen. "Dette utspilte seg veldig raskt, " sier han. Det er nå klart, sier han, at alle involverte undervurderte tiden det vil ta å komme på en akseptabel måte å beskytte personvernet til Facebook-brukere. "Nesten alle problemene [rundt personvern] som har oppstått, oppstod fordi vi virkelig ikke hadde tid til å krysse alle ts og prikke Isen slik vi normalt ville gjort, " sier Kramer.

Tilskudd som Joshua Tucker, professor i statsvitenskap og datavitenskap ved New York University i New York City, har betalt en pris for det hastverket. I januar rapporterte teamet om en studie som fant at eldre mennesker delte syv ganger så mye feilinformasjon enn millennials. Resultatene antyder at digital leseferdighet kan være en viktig faktor i hvor godt folk kan bestemme sannheten av det de leser på nettet.

Men dette prosjektet var avhengig av tradisjonell undersøkelsesundersøkelse med mennesker som hadde samtykket til å dele sin online atferd. Og Tucker ønsket å gå lenger, ved å koble offentlig tilgjengelig data han hadde innhentet fra Reddit og Twitter til den upubliske brukerdata levert av Facebook. Facebook-dataene, sier han, vil tillate teamet å "teste noen av hypotesene våre" om hvordan nyheter, inkludert feilinformasjon, er spredt over forskjellige sosiale medier-plattformer.

De delte koblingsdataene ble sett på som lite hengende frukt når det gjelder personvern, legger han til, fordi de bare inneholdt samlet informasjon.

"Det kan fortelle deg at menn i alderen 25 til 35 som bor i staten New York delte en bestemt lenke 1000 ganger, mens kvinner i Nord-Dakota over 65 år delte dataene seks ganger, " forklarer han om det lovede datasettet. "Men den vil ikke inneholde din Facebook-ID, eller hashtaggen din, etterfulgt av en haug med ting om deg."

For øyeblikket kan imidlertid Tucker - som også leder en av fire rådgivende utvalg som har bidratt til å spre ordet om Social Science One - ikke få tilgang til disse dataene. Det er fordi Facebook ennå ikke har funnet ut hvordan de skal sikre personvern før de gir ut dataene.

Personvernutfordringen ble tydelig nesten umiddelbart, sier King og Facebook-tjenestemenn. Spesielt innså de tradisjonelle teknikker for å sikre personvern, basert på anonymisering, ikke lenger var tilstrekkelig. Dataforskere har vist at de kan identifisere enkeltpersoner som er inkludert i anonyme datasett ved å bruke massiv datakraft for å maskere maskede data med annen personlig informasjon som allerede er offentlig tilgjengelig online.

Gitt slike muligheter, fortalte personverneksperter Facebook at de "hadde skivet dataene for tynne med tanke på de demografiske gruppene og hvor mange ganger [nettadressene ble delt], " forklarer en tjenestemann på Facebook. For å sikre personvern, ville selskapet måtte legge til så mye statistisk "støy" til dataene at resultatene ville vært for forvrengt til å være nyttige for forskere, sier tjenestemannen.

Svaret, bestemte Facebook, var å bruke forskjellig personvern. Det er en matematisk tilnærming for å legge til støy som gjør det umulig for en utenforstående å vite om den enkeltes personlige informasjon er inneholdt i et bestemt datasett og dermed sikre personvernet. På et operativt nivå, forklarte Facebook-tjenestemannen, betydde det at "vi trengte et nytt sett med dataserver, med nye typer sikkerhet og med forskjellig personvern som brukes på datasettene."

Men å oppnå det målet tar tid. "Differensielt personvern er en teknologi med en blødning, " sier King. “Det er en veldig viktig utvikling, men det er ikke som det er tilgjengelig programvare som absolutt fungerer, og som er tilpasset alle statistiske metoder. Så vi innså at vi hadde et år eller mer arbeid som vi ikke hadde planlagt. ”

"Husk at dette er forskning, " legger King til. "Hvis det var enkelt, ville det bare blitt kalt søk."

Tucker sier at samarbeidspartnerne visste at de kom inn i "ganske ukjent farvann" da Facebook-avtalen ble inngått. "Den opprinnelige planen var å la forskere jobbe med de samlede dataene og deretter takle det tynnere spørsmålet om forskjellig personvern senere, " sier han. "Men det ble uholdbart."

Jakten på forskjellig personvern har kommet "med en kostnad for å bremse tilgjengeligheten til dataene, " sier han. Men å gjøre det "i bytte mot en matematisk forsikring om personvern, " legger han til, er en pris han er villig til å betale.

En "revolusjon" på vent

Sent i forrige måned bestemte finansieringskonsortiet og SSRC at klokken var tom. I et åpent brev til SSRC skrev finansiererne at de “anbefaler å ta pause i tilskuddsprosessen med mindre og til flere data blir tilgjengelig. ... Noen av oss eller alle kan være villige til å vurdere å utvide eller gjenopprette støtte hvis nye data med tilstrekkelig import og verdi blir tilgjengelige. "

Samtidig ga SSRC en uttalelse som stemte overens med den anbefalingen og beskrev hvordan det ville “avvikle prosjektet innen utgangen av 2019.” Forskere som allerede er finansiert, ville få beholde sine tilskudd, og de i andre runde ville bli finansiert hvis de kunne fullføre prosjektet "med de tilgjengelige dataene."

Noen medieoppslag om disse kunngjøringene viser forsinkelsen som et annet eksempel på at Facebook går igjen med et løfte. Facebook-tjenestemenn avviser den vurderingen og sa at selskapet gjorde det klart fra begynnelsen at personvernet var dets høyeste vurdering.

Tucker, Kramer og King sier at de mener Facebook gjør alt for å bane vei for forskere å få tilgang. "Jeg tror ikke de holder fast, " sier Tucker. ”Alle ønsker at denne forskningen skal gjøres. Men det er bare veldig komplisert. ”

Kramer sier at han ikke forsvarer Facebooks handlinger. "Jeg bryr meg ikke om [forsinkelsen] hjelper eller gjør vondt" selskapet, sier han. Men han mener Facebook fortjener litt kreditt for å prøve.

Hvordan det hele viser seg, kan påvirke om andre digitale giganter, som Google, også blir med på slik datadeling. "Da vi startet, " sa Kramer, "vi håpet å få det til med Facebook og deretter invitere andre sosiale medieselskaper som sitter på lignende data til å bli med og hjelpe oss med å få et omfattende syn. Men ingen av dem var interessert. ”

En Google-tjenestemann bekrefter at selskapet nektet å delta da det ble kontaktet av Social Science One. "Vi bestemte oss for å vente og se hva som skjer med Facebook, " sier Clement Wolf, global offentlig politisk leder i San Francisco, California, for den sosiale medie-giganten. "Og vi er veldig interessert i hvordan det spiller ut."

"Hvis Facebook lykkes, " sier Tucker, "kan det revolusjonere typene online data som forskere kan få tilgang til, og spørsmålene som folk som ikke er ansatte på den plattformen kan stille. Det kan Facebook-ansatte gjøre nå, men det kan vi ikke. ”

Om lag to dusin Facebook-medarbeidere har brukt det siste året på å chippe bort problemet og har gjort betydelige fremskritt. Forrige uke, for eksempel, gjorde Facebook tilgjengelige differensialbeskyttede data på rundt 32 millioner nettadresser som Facebook-brukere delte offentlig mer enn 100 ganger de siste 2 årene. Dataene inneholder informasjon om adressen ble rapportert å inneholde falske nyheter, spam eller hatefulle ytringer, og hvor mange ganger den ble delt uten å ha blitt klikket på den.

Den utgivelsen gir godt uttrykk for prosjektet, sier King, som ser finansieringsopphenget som bare et hump i veien mot mer samarbeid mellom store internettbedrifter og akademikere. Data supercharges et felt, sier han. Og samfunnsvitenskap har mye mer data enn noen gang før. Men det meste av dataene er i selskaper, og de bruker det til sine egne formål. Så vi som forskere har ikke noe annet valg enn å gjøre en slags avtale med privat industri.

* Rettelse, 25. september, 10:25: Denne historien er oppdatert for å rette navnet på Samfunnsvitenskapelig forskningsråd.