Tumblr's Porn-Detecting AI May Isang Job-at Ito ay Masama sa Ito


Ano ang a pagguhit ng application ng patent para sa troll medyas, a cartoon scorpion suot ng isang mahirap na sumbrero, at isang comic tungkol sa cat parkour mayroon sa mga karaniwang? Ang lahat ng mga ito ay iniulat na flag sa pamamagitan ng Tumblr sa linggong ito pagkatapos ng microblog platform inihayag na ito ay hindi na payagan ang "adult na nilalaman." Ngunit sa ngayon, Tumblr's paraan para sa paghanap ng mga post na lumalabag sa bagong patakaran, na napapatupad sa Disyembre 17, ay hindi mahusay na gumagana, hindi bababa sa hindi ayon sa maraming tao sa Twitter na nagbahagi ng mga screenshot ng mga inosenteng Tumblr post na nagkamali na minarkahan bilang NSFW.

Ang pag-anunsyo ay tinanggap na may pagkasira sa komunidad ng Tumblr, na matagal nang naging balwarte para sa DIY at di-mainstream porn. Ngunit lumilitaw ang pagbabago ng patakaran na nagkakaroon ng mas malawak na epekto kaysa sa inaasahang. Ang mga post ay na-flag na tila bumagsak na mabuti sa labas ng kahulugan ng nilalamang pang-adulto ng Tumblr, na "lalo na ang mga larawan, video, o GIF na nagpapakita ng tunay na buhay na mga ari ng lalaki o babaeng nagpapakita ng nipples, at anumang nilalaman-kabilang ang mga larawan, video, GIF at mga guhit-na naglalarawan ng mga gawa ng sekso. "(Ang mga gumagamit ay maaaring mag-apela sa isang tao na tagapamagitan kung naniniwala sila na ang kanilang mga post ay hindi tama na may label na pang-adultong nilalaman, at walang sinisensyang hanggang ang bagong patakaran ay magkakabisa mamaya sa buwang ito.)

"Sasabihin ko na ako ay walang muwang-nang nakita ko ang anunsyo tungkol sa pagbabawal ng bagong 'pang-adultong nilalaman' na hindi ko naisip na magamit ito sa aking mga blog," sabi ni Sarah Burstein, isang propesor sa University of Oklahoma College of Law na napansin ang maraming Na-flag ang kanyang mga post. "Nag-post lang ako tungkol sa mga patent sa disenyo, hindi 'erotica.'"

Kinilala ni Tumblr sa isang post sa blog na nagpapahayag ng mga bagong panuntunan nito na "magkakaroon ng mga pagkakamali" habang nagsisimulang ipatupad ang mga ito. "Ang pag-filter sa ganitong uri ng nilalaman kumpara sa sinasabi, isang pampulitika na protesta na may kahubaran o rebulto ni David, ay hindi simple sa sukat," ang bagong CEO ng Tumblr na si Jeff D'Onofrio ay nagsulat. Hindi rin ito ang unang pagkakataon na ang isang plataporma ng social media ay may kamalian na naka-flag na PG-rated na mga imahe bilang sekswal. Noong nakaraang taon, halimbawa, ang Facebook ay nagkakamali sa isang babae mula sa pagpapatakbo ng isang ad na nagtatampok ng halos 30,000 taong gulang na rebulto dahil naglalaman ito ng kahubaran.

Ngunit hindi katulad ng error sa Facebook, marami sa mga pagkakamali ni Tumblr ang nag-aalala sa mga post na hindi nagtatampok ng anumang bagay na naghahanap malayuan tulad ng isang hubad na tao. Sa isang pagkakataon, ang site ay inulat na naka-flag a post ng blog tungkol sa suporta ng pulso para sa mga taong may isang uri ng nag-uugnay na karamdaman sa tissue. Ang mga computer ay pangkalahatan ngayon ay napakahusay sa pagtukoy kung ano ang nasa isang litrato. Kaya ano ang nagbibigay?

Habang totoo na ang mga kakayahan sa pag-aaral ng machine ay bumuti nang malaki sa mga nakaraang taon, ang mga computer ay hindi pa rin "nakikita" ang mga larawan sa paraan ng mga tao. Natuklasan nila kung ang mga grupo ng pixel ay katulad ng mga bagay na nakita nila sa nakaraan. Ang sistema ng pag-moderate ng awtomatikong nilalaman ng Tumblr ay maaaring nakakakita ng mga pattern na hindi alam ng kumpanya o hindi nauunawaan. "Ang pag-aaral sa makina ay nakakatulong sa pagtukoy ng mga pattern sa raw data, ngunit ang isang karaniwang kabiguan ay ang mga algorithm ay kukunin ang mga aksidenteng biases, na maaaring magresulta sa mga mahihinang hula," sabi ni Carl Vondrick, isang computer vision at machine learning professor sa Columbia Engineering. Halimbawa, ang isang hindi maganda ang sinanay na AI para sa pag-detect ng mga larawan ng pagkain ay maaaring magkamali na umasa kung ang isang plato ay nasa halip ng pagkain mismo.

Ang mga klasipikasyon ng pagkilala ng imahe-tulad ng isang Tumblr na kung saan ay ipinatupad-ay sinanay upang makita ang tahasang nilalaman gamit ang mga dataset na karaniwang naglalaman ng milyun-milyong mga halimbawa ng porno at hindi-porno. Ang classifier ay lamang kasing ganda ng data na natutunan mula sa, sabi ni Reza Zadeh, isang adjunct computer science professor sa Stanford University at ang CEO ng kumpanya ng computer na pangitain Matroid. Batay sa pagtingin sa mga halimbawa ng mga naka-flag na nilalaman ng mga gumagamit sa nai-post sa Twitter, sabi niya posible Tumblr napapabayaan upang isama ang sapat na mga pagkakataon ng mga bagay tulad ng NSFW cartoons sa dataset nito. Maaaring isaalang-alang ang dahilan kung bakit nagkakamali ang klasipikasyon ng mga patent illustrations ni Burstein para sa nilalamang pang-adulto, halimbawa. "Naniniwala akong nakalimutan nila ang pagdaragdag ng sapat na data ng cartoon sa kasong ito, at marahil iba pang mga uri ng mga halimbawa na mahalaga at SFW," sabi niya.

"Ang mga computer ay kamakailan lamang binubuksan ang kanilang mga mata, at ito ay kamangmangan upang isipin na maaari nilang makita ang perpektong."

Reza Zadeh, Matroid

Sinubukan ng WIRED ang pagpapatakbo ng ilang mga post sa Tumblr na iniulat na na-flag bilang pang-adultong nilalaman sa pamamagitan ng naturalisador ng naturang larawan ng Matroid's NSFW, kabilang ang isang larawan ng chocolate ghosts, a larawan ng Joe Biden, at isa ng mga patent ni Burstein, oras na ito para sa LED light-up na maong. Ang tagatala ay tama na nakilala ang bawat isa bilang SFW, kahit na iniisip na may 21 porsiyento na pagkakataon na ang mga tsokolate na ghost ay maaaring NSFW. Ipinakikita ng pagsubok na walang likas na pang-adulto ang tungkol sa mga imaheng ito-ang mahalaga ay kung gaano ang iba't ibang mga classifier ang tumingin sa kanila.

"Sa pangkalahatan ito ay napakadaling mag-isip 'ang pagkilala ng imahe ay madali,' pagkatapos ang pagkakamali sa mga pagkakamali na tulad nito," sabi ni Zadeh. "Ang mga computer ay kamakailan lamang binubuksan ang kanilang mga mata, at ito ay kamangmangan upang isipin na maaari nilang makita ang perpektong."

Tumblr ay may mga isyu sa pag-flag ng NSFW posts tumpak na bago. Bumalik noong 2013, binili ng Yahoo ang Tumblr-isang social network na hindi pa nakapag-isip kung paano kumita ng maraming pera-para sa $ 1.1 bilyon na cash. Pagkatapos ng apat na taon mamaya, tulad ng Russian dolls na nesting, binili ni Verizon ang Yahoo para sa mga $ 4.5 bilyon. (Ang parehong Yahoo at Tumblr ay bahagi na ngayon ng isang subsidiary ng Verizon na tinatawag na Panunumpa.) Pagkatapos ng ikalawang pagkuha-posibleng sa pagtatangkang gawing mas kaakit-akit ang site sa mga advertiser-Ipinakilala ng Tumblr ang "Safe Mode," isang tampok na opt-in na nagmula upang awtomatikong i-filter ang "sensitive" na nilalaman sa dashboard nito at sa mga resulta ng paghahanap.
Ang mga gumagamit ay mabilis na natanto na ang Safe Mode ay sinasadyang pagsala ng normal na nilalaman, kabilang ang mga post ng LGBTQ +. Noong Hunyo ng nakaraang taon, si Tumblr ay humingi ng tawad, at sinabi na ito ay halos naayos na ang isyu.

Ngayon ang blogging platform ay nakakakuha ng alisan ng tampok, dahil sa lalong madaling panahon ang lahat ng Tumblr ay magiging sa Safe Mode, permanente. Ito ay hindi malinaw kung ang kumpanya ay paghiram ng parehong artificial intelligence technology na ginamit nito para sa Safe Mode sa buong site. Nang tanungin, hindi tinukoy ni Tumblr kung ano ang tech na gagamitin nito upang ipatupad ang mga bagong panuntunan nito para sa nilalamang pang-adulto. Ang pinagmulan ng isang pamilyar sa kumpanya ay nagsabi na gumagamit ito ng modified proprietary technology. Ang kumpanya ay nagsabi sa post na suporta na tulad ng karamihan sa mga platform ng social media na binuo ng gumagamit, plano nito na gumamit ng isang halo ng "pag-uuri ng makina ng pag-aaral at pag-moderate ng tao sa pamamagitan ng aming koponan ng Tiwala at Kaligtasan-ang pangkat ng mga indibidwal na tumutulong sa katamtaman ang Tumblr." Sinasabi din ng kumpanya na malapit na itong palawakin ang bilang ng mga taong tagaturo na ginagamit nito.

Ang mga katunggali ng Tumblr ay nakinabang din mula sa higit sa isang dekada na pagsisimula ng ulo. Habang pinahihintulutan ng Tumblr ang porno-ang dating CEO nito ay ipinagtanggol na nagpapahintulot sa tahasang nilalaman sa site kahit na ito ay nakuha ng Yahoo-iba pang mga site tulad ng Facebook ay may mahabang ipinagbawal na tahasang media. Ang mga platapormang iyon ay gumugol ng mga taon na nagtipon ng data ng pagsasanay ng NSFW upang ihanda ang kanilang mga tool sa pagkilala sa imahe. Sa tuwing aalis ng isang tagapamahala ng tao ang porno mula sa Facebook, ang halimbawang iyon ay maaaring magamit upang magturo ng AI nito upang makita ang parehong uri ng bagay sa kanyang sarili, bilang Tarleton Gillespie, isang mananaliksik sa Microsoft at ang may-akda ng Mga tagapag-alaga ng Internet itinuro sa Twitter.

Ang mga plataporma tulad ng Facebook at Instagram ay tumakbo na rin sa marami sa higit pang mga pilosopiko na isyu na hindi pa nakikibaka sa Tumblr, tulad ng kapag ang isang utong ay dapat bilang bilang lumalabag sa mga patakaran nito o hindi. Tumblr ay malapit nang magpasiya kung saan nais niyang gumuhit ng linya sa pagitan ng sining-na sinasabi nito ay hahayaan ito-at pornograpikong materyal, halimbawa. Upang lumaki sa isang platform na libre mula sa nilalamang pang-adulto, dapat na pinuhin ng Tumblr ang mga automated na tool nito at malamang na sanayin ang mga classifier nito sa mas malawak na dataset. Ngunit kailangan din ng kumpanya na sagutin ang maraming mahihirap na tanong-ang mga maaaring ipasiya lamang ng mga tao.


Higit pang mga Great WIRED Stories