Noga Zaslavsky, kaliwa, at Ravid Shwartz- Ziv nakatulong na bumuo ng impormasyon bottleneck teorya ng malalim na pag-aaral bilang nagtapos mga mag-aaral ng Naftali Tishby ni.
Noong 2015, siya at ang kanyang mag-aaral Noga Zaslavsky hypothesized na ang malalim na pag-aaral ay isang impormasyong bottleneck ng impormasyon na nagpipilit ng maingay na data hangga't maaari habang pinapanatili ang impormasyon tungkol sa kung ano ang kinakatawan ng data. Ang mga bagong eksperimento ng Tishby at Shwartz-Ziv na may malalim na mga neural network ay nagbubunyag kung paano talaga gumaganap ang bottleneck procedure. Sa isang kaso, ang mga mananaliksik ay gumagamit ng maliliit na network na maaaring sinanay upang lagyan ng label ang data ng pag-input na may 1 o 0 (isipin ang "aso" o "walang aso") at binigyan ang kanilang mga koneksyon ng neural na random na mga paunang lakas. Pagkatapos ay sinusubaybayan nila kung ano ang nangyari habang ang mga network ay nakikibahagi sa malalim na pag-aaral na may 3,000 sample data input set.
Ang pangunahing algorithm na ginagamit sa karamihan ng mga malalim na pag-aaral ng mga pamamaraan upang mag-tweak neural koneksyon bilang tugon sa data ay tinatawag na "Stochastic gradient descent": Sa bawat oras na ang pagsasanay ng data ay fed sa network, isang cascade ng pagpapaputok aktibidad sweeps pataas sa pamamagitan ng mga layer ng artipisyal neurons. Kapag nakarating ang signal sa tuktok na layer, ang huling pattern ng pagpapaputok ay maihahambing sa tamang label para sa image-1 o 0, "dog" o "no dog". Ang anumang mga pagkakaiba sa pagitan ng pagpapaputok na pattern at tamang pattern ay "back- pinaunlad "sa mga layer, ibig sabihin, tulad ng isang guro na nagwawasto ng isang pagsusulit, ang algorithm ay nagpapalakas o nagpapahina sa bawat koneksyon upang gawing mas mahusay ang network layer sa paggawa ng tamang signal ng output. Sa paglipas ng kurso ng pagsasanay, ang karaniwang mga pattern sa data ng pagsasanay ay masasalamin sa mga kalakasan ng mga koneksyon, at ang network ay naging dalubhasa sa tamang pag-label ng data, tulad ng pagkilala ng isang aso, isang salita, o isang 1.
[SakanilangmgaeksperimentosinusubaybayanniTishbyatShwartz-Zivkunggaanokalakingimpormasyonangbawatlayerngisangmalalimnaneuralnetworknanapanatilitungkolsadatangpag-inputatkunggaanokaramingimpormasyonangnapanatilingbawatisatungkolsalabelngoutputNapag-alamanngmgasiyentipikonaanglayersapamamagitannglayerangmganetworkconvergedsaimpormasyongbottlenecktheoreticalbound:isanglimitasyonngteoretikalnanagmulasaorihinalnapapelngTishbyPereiraatBialeknakumakatawansalubosnapinakamahusaynamagagawangsystemsapag-extractngmay-katuturangimpormasyonSanakagaposna-compressangnetworknginputhangga'tmaaarinanghindiisinakripisyoangkakayahangtumpaknahulaananglabelnito
Nagawa rin ni Tishby at Shwartz-Ziv ang nakakaintriga na pagtuklas na ang malalim na pag-aaral ay nalikom sa dalawang yugto: "Angkop" na yugto, na kung saan natututo ang network na lagyan ng label ang data ng pagsasanay nito, at isang mas matagal na "kompresyon" na yugto, na kung saan ito ay magiging mabuti sa pangkalahatan, gaya ng nasusukat sa pagganap nito sa pag-label ng mga bagong data ng pagsusulit
Bilang isang malalim na neural network na tweak ang mga koneksyon nito sa pamamagitan ng stochastic gradient na paglapag, sa una ang bilang ng mga bits na iniimbak nito tungkol sa data ng pag-input ay mananatiling halos pareho o tataas nang bahagya, tulad ng koneksyon ayusin upang i-encode ang mga pattern sa input at ang network ay makakakuha ng mabuti sa mga label na angkop ito. Inihambing ng ilang mga eksperto ang bahaging ito sa memorization.
Pagkatapos ay nag-aaral ng mga switch sa phase ng compression. Ang network ay nagsisimula upang malaglag ang impormasyon tungkol sa data ng pag-input, na sinusubaybayan lamang ang pinakamatibay na mga tampok-mga ugnayan na pinaka-may-katuturan sa label ng output. Nangyayari ito sapagkat, sa bawat pag-ulit ng stochastic gradient na paglusaw, higit pa o mas kaunting aksidenteng ugnayan sa data ng pagsasanay ay nagsasabi sa network na gumawa ng iba't ibang mga bagay, na nag-dial ng mga lakas ng mga koneksyon sa neural nito pababa at pababa sa random walk . Ang randomization na ito ay epektibo katulad ng pag-compress sa representasyon ng system ng data ng pag-input. Bilang halimbawa, ang ilang mga larawan ng mga aso ay maaaring magkaroon ng mga bahay sa background, habang ang iba ay hindi. Bilang isang pag-ikot ng network sa pamamagitan ng mga larawan ng pagsasanay na ito, maaari itong "makalimutan" ang ugnayan sa pagitan ng mga bahay at aso sa ilang mga larawan habang ang iba pang mga larawan ay humadlang dito. Ito ang pagkalimutan ng mga detalye, ang Tishby at Shwartz-Ziv ay tumutol, na nagbibigay-daan sa sistema upang bumuo ng mga pangkalahatang konsepto. Sa katunayan, ang kanilang mga eksperimento ay nagsiwalat na ang malalim na mga neural network ay nagpapatakbo ng kanilang pagganap sa pangkalahatan sa panahon ng bahagi ng pag-compress, nagiging mas mahusay sa data ng pagsubok ng pagsubok. (Ang isang malalim na neural network na sinanay upang makilala ang mga aso sa mga larawan ay maaaring masuri sa mga bagong larawan na maaaring o hindi maaaring isama ng mga aso.)
Ito ay nananatiling makikita kung ang impormasyong bottleneck namamahala sa lahat ng malalim na pag-aaral ng mga rehimen, o kung mayroong iba pang mga ruta sa kalahatan maliban sa compression. Ang ilang mga eksperto sa AI ay nakikita ang ideya ni Tishby bilang isa sa maraming mahahalagang teoretikal na pananaw tungkol sa malalim na pag-aaral na lumitaw kamakailan. Si Andrew Saxe isang researcher ng AI at teoretikal na neuroscientist sa Harvard University, ay nagpahayag na ang ilang mga malalaking malalim na neural network ay hindi mukhang nangangailangan ng isang bahagi ng kompresyon upang maisaling mabuti. Sa halip, ang programa ng mga mananaliksik sa isang bagay na tinatawag na maagang pagpapahinto, na nagbabawas ng maikling pagsasanay upang maiwasan ang network mula sa pag-encode ng napakaraming mga ugnayan sa unang lugar.
Tishby argues na ang mga modelo ng network na sinusuri ng Saxe at ang kanyang mga kasamahan ay naiiba mula sa standard na malalim na neural network architectures, ngunit gayunman, ang impormasyong bottleneck theoretical bound ay tumutukoy sa mas mahusay na performance ng mga network na ito kaysa sa iba pang mga pamamaraan. Ang mga katanungan tungkol sa kung ang mga bottleneck humahawak para sa mas malaking neural network ay bahagyang tinutugunan sa pamamagitan ng pinakabagong mga eksperimento Tishby at Shwartz-Ziv, hindi kasama sa kanilang mga paunang papel, na kung saan sila sanayin mas malaki, 330,000-koneksyon-malalim na neural network upang makilala ang mga sulat-kamay na mga digit sa ang 60,000-imahen Binagong National Institute of Standards and Technology database isang kilalang benchmark para sa gauging ang pagganap ng mga algorithm sa malalim na pag-aaral. Nakita ng mga siyentipiko ang parehong tagpo ng mga network sa impormasyong bottleneck theoretical bound; napagmasdan din nila ang dalawang magkakaibang yugto ng malalim na pag-aaral, na pinaghihiwalay ng mas malapad na paglipat kaysa sa mas maliit na mga network. "Lubos kong kumbinsido ngayon na ito ay isang pangkaraniwang kababalaghan," sabi ni Tishby.
Mga tao at mga makina
Ang misteryo ng kung paano ang mga talino ay magbukod ng mga signal mula sa ating mga pandama at itataas ang mga ito sa antas ng aming malay-tao kamalayan ay nagdulot ng marami ng maagang interes sa malalim na neural network sa mga pioneer ng AI, na umaasa na i-reverse-engineer ang mga tuntunin sa pag-aaral ng utak. Ang mga practitioner ng AI ay dahil sa labis na pag-abanduna sa landas na ito sa mad madilim para sa teknolohikal na pag-unlad, sa halip na pagbagsak sa mga kampanilya at mga whistle na nagpapalaki ng pagganap na may maliit na pagsasaalang-alang para sa biological plausibility. Gayunpaman, habang ang kanilang mga pag-iisip ay nagkakamit ng higit na kasiyahan-na nagtiis pa ng takot na ang AI ay maaaring makapagbigay ng isang araw na isang banta na banta -naraming mga mananaliksik ang umaasa na ang mga pag-uusapan ay magbubunyag ng mga pangkalahatang pananaw tungkol sa pag-aaral at katalinuhan.
Ang pinakamahalagang bahagi ng pag-aaral ay talagang nalilimutan.
Naftali Tishby
Brenden Lake isang assistant professor ng psychology at data science sa New York University na nag-aaral ng pagkakatulad at pagkakaiba sa kung paano natututo ang mga tao at machine, sinabi na ang mga natuklasan ni Tishby ay kumakatawan sa " isang mahalagang hakbang patungo sa pagbubukas ng itim na kahon ng mga neural network, "ngunit binigyang diin niya na ang utak ay kumakatawan sa isang mas malaki, itim na kahon na itim. Ang aming mga talino sa pang-adulto, na ipinagmamalaki ang ilang daang trilyon na koneksyon sa pagitan ng 86 bilyong neurons, sa posibilidad na gumamit ng isang bag ng mga trick upang mapahusay ang pangkalahatan, na lampas sa pangunahing pamamaraan ng pag-aaral ng tunog at pagkilala sa panahon ng pagkabata at maaaring sa maraming paraan Malalim na pag-aaral.
Halimbawa, sinabi ng Lake na ang fitting at compression phase na tinukoy ni Tishby ay hindi mukhang analogues sa paraan ng pag-aaral ng mga bata ng mga sulat-kamay na character, na pinag-aaralan niya. Hindi kailangang makita ng mga bata ang libu-libong halimbawa ng isang karakter at i-compress ang kanilang mental na representasyon sa loob ng isang matagal na panahon bago nila makilala ang iba pang mga pagkakataon ng sulat na iyon at isulat ito sa kanilang sarili. Sa katunayan, maaari silang matuto mula sa isang halimbawa. Ang mga modelo ng Lake at ng kanyang mga kasamahan ay nagpapahiwatig na ang utak ay maaaring mag-deconstruct ng bagong liham sa isang serye ng mga stroke-na dating umiiral na mga mental na constructs-na nagpapahintulot sa pagbuo ng sulat upang ma-tacked sa isang edipisyo ng naunang kaalaman. "Sa halip na pag-iisip ng isang imahe ng isang titik bilang isang pattern ng mga pixel at pag-aaral ng konsepto ng pagmamapa ng mga tampok na" tulad ng sa standard algorithm ng makina ng pag-aaral, ipinaliwanag Lake, "sa halip layunin ko upang bumuo ng isang simpleng pananahilan modelo ng sulat," isang mas maikling daan patungo sa kalahatan.
Maaaring magkaroon ng mga aralin para sa komunidad ng AI, na nagpapatuloy sa likod ng dalawang larangan. Naniniwala si Tishby na ang kanyang teorya ng bottleneck sa impormasyon ay ganap na kapaki-pakinabang sa parehong disiplina, kahit na nangangailangan ng mas pangkalahatang form sa pag-aaral ng tao kaysa sa AI. Ang isang agarang pananaw na maaaring makuha mula sa teorya ay isang mas mahusay na pag-unawa kung aling mga uri ng mga problema ang maaaring malutas sa pamamagitan ng tunay at artipisyal na mga neural network. "Nagbibigay ito ng kumpletong paglalarawan ng mga problema na maaaring matutunan," sabi ni Tishby. Ang mga ito ay "mga problema kung saan maaari kong punasan ang ingay sa input nang hindi sinasaktan ang aking kakayahang mag-uri. Ito ang mga natural na pangitain na pangitain, pagkilala sa pagsasalita. Ang mga ito ay tiyak din ang mga problema na maaaring makayanan ng ating utak. "
Samantala, ang mga totoong at artipisyal na neural na mga network ay natitisod sa mga problema kung saan ang bawat detalye ng mga bagay at mga pagkakaiba-iba ng minuto ay maaaring magtapon ng buong resulta. Karamihan sa mga tao ay hindi maaaring mabilis na paramihin ang dalawang malalaking numero sa kanilang mga ulo, halimbawa. "Mayroon kaming isang mahabang klase ng mga problema tulad nito, lohikal na mga problema na masyadong sensitibo sa mga pagbabago sa isang variable," sabi ni Tishby. "Classifiability, discrete problems, cryptographic problems. Hindi ko naisip na ang malalim na pag-aaral ay makakatulong sa akin na masira ang mga code ng cryptographic. "
Pangkalahatan-ang pagsasabog sa bottleneck ng impormasyon, marahil-ay nangangahulugan ng pag-iwan ng ilang mga detalye sa likod. Hindi ito mabuti para sa paggawa ng algebra sa mabilisang, ngunit hindi iyon pangunahing negosyo ng utak.
Orihinal na kuwento na muling nai-publish na may pahintulot mula sa Quanta Magazine isang editorially independiyenteng publikasyon ng Simons Foundation na ang misyon ay upang mapahusay ang pampublikong pang-unawa ng agham sa pamamagitan ng pagsakop sa mga pagpapaunlad ng pananaliksik at mga uso sa matematika at sa pisikal at buhay na agham.