Ang isang AI ay pinamamahalaang mandaraya kasama ang pinakamahusay na sangkatauhan na inaalok pagkatapos matuklasan ang isang pagsasamantala sa klasikong arcade game na Q * bert at tumatakbo kasama nito.
Habang ang mga naunang pag-ulit ng AI ay maglalaro nang maayos sa Q * bert, sa ilang mga punto sa pag-aaral nito kung paano gumagana ang laro, natuklasan nito ang isang pagsasamantala na hinahayaan itong mag-ipon ng mga nakakabaliw na puntos. Naturally, tulad ng gagawin ng anumang manlalaro ng iskor-pangangaso, inuulit nito ang proseso upang mapalakas nito ang iskor nito sa pinakamabisang paraan na posible.
Maaari mong makita ang Ai na gumagalaw sa paligid ng mga platform sa video sa ibaba. Sa una, mukhang walang layunin itong paglukso sa pagitan ng mga platform. Sa halip na makita ang pag-usad ng laro sa susunod na pag-ikot, ang Q * bert ay natigil sa isang loop kung saan ang lahat ng mga platform ay nagsisimulang mag-flash - narito ang AI pagkatapos ay maaaring pumunta sa isang marka ng siklab ng galit na nakakakuha ng malaking puntos.
BASAHIN SA SUSUNOD: Ang isa sa mga pinaka-kontrobersyal na tala ng laro ay sa wakas ay na-discredit
kung paano sasabihin kung naka-block ka sa snapchat
Paano nanalo ang AI sa giyerang Q * bert
Sinira ang all-time record para sa pamagat, pinagsama ng AI ang isang imposibleng mataas na marka salamat sa pag-program ng diskarte sa diskarte sa ebolusyon. Ang mga diskarte sa ebolusyon (ES) ay naiiba mula sa karaniwang natutunan na pampatibay (RL) na ginagamit ng tradisyunal na AI dahil nakikita itong mas nasusukat dahil sa pag-aaral ng henerasyon.
Ang bawat loop sa pag-aaral ay tinutukoy bilang isang henerasyon at nagpapatuloy ito sa gawain hanggang sa matugunan ang isang itinakdang kondisyon (sa kasong ito, isang mataas na marka). Sa bawat sunud-sunod na henerasyon, ang AI ay sumisipsip ng kaalaman ng nakaraang henerasyon at samakatuwid ay mas mahusay na makamit ang parehong layunin at malampasan ito. Magpatuloy, at magtatapos ka sa isang AI na ganap na walang katumbas sa gawain nito. Iyon mismo ang nangyari dito sa marka ng Q * bert.
Nakabalangkas sa ang papel , na inilathala noong nakaraang linggo ng mga mananaliksik sa University of Freiburg, Germany, lumalabas na ang bug ay hindi kilalang dami. Sa katunayan, habang hindi sila masyadong nagulat tungkol sa paghahanap ng bug, kagiliw-giliw na makita kung paano natuloy ang AI at natutunan na samantalahin ito sa tuwing naglalaro ito upang ma-maximize ang potensyal na pagmamarka nito.
BASAHIN SA SUSUNOD: Ang artipisyal na katalinuhan na ito ay natututo na makabisado sa Super Mario Bros
Upang hanapin ang bug, kailangang malaman muna ng ahente upang halos makumpleto ang unang antas - hindi ito tapos nang sabay-sabay ngunit gumagamit ng maraming maliliit na pagpapabuti, ipinaliwanag ng mga mananaliksik sa Ang rehistro . Pinaghihinalaan namin na sa ilang mga oras sa pagsasanay ang isa sa mga solusyon sa supling nakatagpo ng bug at nakakuha ng mas mahusay na iskor kumpara sa mga kapatid nito, na kung saan ay nadagdagan ang kontribusyon nito sa pag-update - ang timbang nito ay ang pinakamataas sa bigat na ibig sabihin. Dahan-dahan nitong inilipat ang solusyon sa puwang kung saan mas maraming mga pag-offset ang nagsimulang makaharap sa parehong bug.
Hindi namin alam ang mga tumpak na kundisyon kung saan lilitaw ang bug; posible na lilitaw lamang ito kung ang ahente ay sumusunod sa isang pattern na tila suboptimal, [halimbawa kapag ang ahente ay nag-aksaya ng oras, o kahit na nawalan ng isang buhay]. Kung iyon ang kaso, kung gayon magiging napakahirap para sa karaniwang RL na hanapin ang bug: kung gagamit ka ng mga dagdag na gantimpala matututunan mo ang mga diskarte na mabilis na nagbubunga ng ilang gantimpala, sa halip na matuto ng mga diskarte na hindi nagbubunga ng maraming mga gantimpala at tapos biglang nanalo ng malaki.
Tingnan ang kaugnay Ang kampeon sa Dragster na si Todd Rogers ay nawala lamang ang kanyang korona makalipas ang 35 taon Ang artipisyal na katalinuhan na ito ay natututo na makabisado sa Super Mario Bros 1-2 sa loob ng 17 araw Panoorin ang AI na matuto itong magmaneho sa GTA V sa Twitch
Gayunpaman, sa kabila ng kahanga-hangang mga resulta ng bot, hindi sinasabi ng mga mananaliksik na ito ay isang kaso sa kampeon ng ES na natutunan sa RL. Sa katunayan, ang parehong mga sistema ay may kani-kanilang mga problema at ang isang kumbinasyon ng dalawa ay higit na nakikita bilang pinakamahusay na pagpipilian na sumasabay.
Ang parehong pamamaraan ng ES sa iba pang mga laro ng Atari ay hindi nagdala ng kahit saan malapit sa parehong positibong mga resulta. Sa kabilang banda, responsable ang RL sa pagbasag ng mga record sa kaliwa, kanan at gitna, kabilang ang pagkatalo sa pinakamahusay na manlalaro ng GO sa buong mundo. Ang ES ay mayroon pa ring sariling lugar sa mga bagay, at talagang kung paano gumaganap ang Nvidia ng maraming pagsasanay sa AI dahil dito nangangailangan ito ng higit na lakas sa computational ngunit nakakamit ang mas mahusay na mga resulta sa mas mahabang panahon.
Hindi alintana ng aling paraan ang magiging hinaharap para sa pag-unlad ng AI, hindi bababa sa pagdaraya ng bot na ito ang system ay hindi kasing sama nito disgraced video game champion sa mundo .