Hvordan en bevisst tilnærming til AI reduserer partiske datasett

Partiske datasett og etisk AI

AI-drevne løsninger trenger datasett for å være effektive. Og opprettelsen av disse datasettene er full av et implisitt skjevhetsproblem på et systematisk nivå. Alle mennesker lider av skjevheter (både bevisst og ubevisst). Skjevhetene kan ha en rekke former: geografiske, språklige, sosioøkonomiske, sexistiske og rasistiske. Og disse systematiske skjevhetene er bakt inn i data, noe som kan resultere i AI-produkter som opprettholder og forstørrer skjevhet. Organisasjoner trenger en bevisst tilnærming for å redusere skjevhet som kryper inn i datasett.

Eksempler som illustrerer skjevhetsproblemet

Et bemerkelsesverdig eksempel på denne skjevheten i datasettet som fikk mye negativ presse på den tiden var en løsning for CV-lesing som favoriserte mannlige kandidater fremfor kvinner. Dette er fordi rekrutteringsverktøyets datasett var utviklet ved å bruke CV fra det siste tiåret da et flertall av søkerne hadde vært menn. Dataene var partiske og resultatene reflekterte denne skjevheten. 

Et annet mye rapportert eksempel: På den årlige Google I/O-utviklerkonferansen delte Google en forhåndsvisning av et AI-drevet dermatologihjelpsverktøy som hjelper folk å forstå hva som skjer med problemer knyttet til hud, hår og negler. Dermatologeassistenten understreker hvordan AI utvikler seg for å hjelpe til med helsevesenet - men det fremhevet også potensialet for at skjevhet kan krype inn i AI i kjølvannet av kritikk om at verktøyet ikke er tilstrekkelig for farger.

Da Google annonserte verktøyet, bemerket selskapet:

For å sikre at vi bygger for alle, tar modellen vår hensyn til faktorer som alder, kjønn, rase og hudtyper – fra blek hud som ikke blir brun til brun hud som sjelden brenner seg.

Google, bruker AI for å finne svar på vanlige hudsykdommer

Men en artikkel i Vice sa at Google ikke klarte å bruke et inkluderende datasett:

For å utføre oppgaven brukte forskerne et treningsdatasett med 64,837 12,399 bilder av 3.5 90 pasienter lokalisert i to stater. Men av de tusenvis av hudsykdommer som er avbildet, kom bare XNUMX prosent fra pasienter med Fitzpatrick-hudtype V og VI - de som representerer henholdsvis brun hud og mørkebrun eller svart hud. XNUMX prosent av databasen var sammensatt av personer med lys hud, mørkere hvit hud eller lysebrun hud, ifølge studien. Som et resultat av den partiske prøvetakingen, sier hudleger at appen kan ende opp med å over- eller underdiagnostisere personer som ikke er hvite.

Vice, Googles nye dermatologi-app var ikke designet for personer med mørkere hud

Google svarte med å si at det ville avgrense verktøyet før det ble gitt ut formelt:

Vårt AI-drevne hjelpeverktøy for dermatologi er kulminasjonen av mer enn tre års forskning. Siden arbeidet vårt ble omtalt i Nature Medicine, har vi fortsatt å utvikle og avgrense teknologien vår ved å inkludere flere datasett som inkluderer data donert av tusenvis av mennesker, og millioner av flere kuraterte hudproblemer.

Google, bruker AI for å finne svar på vanlige hudsykdommer

Så mye som vi kanskje håper AI og maskinlæringsprogrammer kan korrigere for disse skjevhetene, er virkeligheten fortsatt: de er bare som Smart da datasettene deres er rene. I en oppdatering til det gamle programmeringsordtaket søppel inn søppel ut, AI-løsninger er bare like sterke som kvaliteten på datasettene deres fra starten. Uten en korreksjon fra programmerere, har disse datasettene ikke bakgrunnserfaring for å fikse seg selv - ettersom de ganske enkelt ikke har noen annen referanseramme.

Å bygge datasett på en ansvarlig måte er kjernen i alt etisk kunstig intelligens. Og folk er kjernen i løsningen. 

Mindful AI er etisk AI

Bias skjer ikke i et vakuum. Uetiske eller partiske datasett kommer fra å ta feil tilnærming under utviklingsstadiet. Måten å bekjempe skjevhetsfeil er å ta i bruk en ansvarlig, menneskesentrert tilnærming som mange i bransjen kaller Mindful AI. Mindful AI har tre kritiske komponenter:

1. Mindful AI er menneskesentrert

Fra starten av AI-prosjektet, i planleggingsstadiene, må folks behov stå i sentrum for enhver beslutning. Og det betyr alle mennesker - ikke bare et delsett. Det er derfor utviklere må stole på et mangfoldig team av globalt baserte mennesker for å lære AI-applikasjoner å være inkluderende og forutinntatte.

Crowdsourcing av datasettene fra et globalt, mangfoldig team sikrer at skjevheter blir identifisert og filtrert ut tidlig. De med varierende etnisitet, aldersgrupper, kjønn, utdanningsnivåer, sosioøkonomisk bakgrunn og steder kan lettere oppdage datasett som favoriserer ett sett med verdier fremfor et annet, og dermed luke ut utilsiktet skjevhet.

Ta en titt på taleprogrammer. Når de bruker en oppmerksom AI-tilnærming og utnytter kraften til en global talentpool, kan utviklere redegjøre for språklige elementer som forskjellige dialekter og aksenter i datasettene.

Å etablere et menneskesentrert designramme fra begynnelsen er kritisk. Det går langt mot å sikre at dataene som genereres, kurateres og merkes oppfyller forventningene til sluttbrukerne. Men det er også viktig å holde mennesker oppdatert gjennom hele produktutviklingens livssyklus. 

Mennesker i løkken kan også hjelpe maskiner med å skape en bedre AI-opplevelse for hvert enkelt publikum. Hos Pactera EDGE forstår våre AI-dataprosjektteam, lokalisert globalt, hvordan ulike kulturer og kontekster kan påvirke innsamlingen og kurasjonen av pålitelige AI-treningsdata. De har de nødvendige verktøyene de trenger for å flagge problemer, overvåke dem og fikse dem før en AI-basert løsning går live.

Human-in-the-loop AI er et prosjekt "sikkerhetsnett" som kombinerer styrken til mennesker-og deres mangfoldige bakgrunn med maskinens raske datakraft. Dette menneskelige og AI-samarbeidet må etableres fra begynnelsen av programmene, slik at partiske data ikke danner et fundament i prosjektet. 

2. Mindful AI er ansvarlig

Å være ansvarlig er å sikre at AI-systemer er fri for skjevheter og at de er forankret i etikk. Det handler om å være oppmerksom på hvordan, hvorfor og hvor data lages, hvordan de syntetiseres av AI-systemer, og hvordan de brukes til å ta en beslutning, beslutninger som kan ha etiske implikasjoner. En måte for en bedrift å gjøre det på er å jobbe med underrepresenterte lokalsamfunn for å være mer inkluderende og mindre partisk. Når det gjelder datakommentarer, fremhever ny forskning hvordan en multi-annotator-multioppgavemodell som behandler hver annotators etiketter som separate underoppgaver kan bidra til å redusere potensielle problemer som ligger i typiske grunnsannhetsmetoder der annotator-uenigheter kan skyldes underrepresentasjoner og kan bli ignorert i aggregeringen av merknader til en enkelt grunnsannhet. 

3. Pålitelig

Pålitelighet kommer av at en virksomhet er transparent og kan forklare hvordan AI-modellen trenes, hvordan den fungerer og hvorfor de anbefaler resultatene. En virksomhet trenger ekspertise med AI-lokalisering for å gjøre det mulig for kundene sine å gjøre AI-applikasjonene sine mer inkluderende og personlig tilpasset, og respektere kritiske nyanser i lokalt språk og brukeropplevelser som kan gjøre eller bryte troverdigheten til en AI-løsning fra ett land til det neste . For eksempel bør en bedrift utforme applikasjonene sine for personlige og lokaliserte kontekster, inkludert språk, dialekter og aksenter i stemmebaserte applikasjoner. På den måten bringer en app samme nivå av sofistikert stemmeopplevelse til alle språk, fra engelsk til underrepresenterte språk.

Rettferdighet og mangfold

Til syvende og sist sikrer bevisst AI at løsninger er bygget på rettferdige og varierte datasett der konsekvensene og virkningen av bestemte utfall overvåkes og evalueres før løsningen kommer ut på markedet. Ved å være oppmerksomme og inkludere mennesker i alle deler av løsningens utvikling, bidrar vi til å sikre at AI-modeller forblir rene, minimalt partiske og så etiske som mulig.

Hva tror du?

Dette nettstedet bruker Akismet for å redusere spam. Lær hvordan kommentaren din behandles.