GOOGLE की नई AI गेम का मास्टर है, लेकिन यह मानव मन की तुलना कैसे करता है? | नवाचार | स्मिथसोनियन - लेख, नवाचार, प्रौद्योगिकी, विज्ञान

मनुष्यों के लिए, शतरंज में जीवन भर का समय लग सकता है। लेकिन Google DeepMind का नया आर्टिफिशियल इंटेलिजेंस प्रोग्राम, अल्फ़ाज़ेरो, कुछ ही घंटों में बोर्ड को जीतना सिखा सकता है।

अल्फा बोर्ड सूट के साथ अपनी पिछली सफलता पर निर्माण - चीनी बोर्ड गेम गो खेलने के लिए डिज़ाइन किए गए कंप्यूटर कार्यक्रमों की एक श्रृंखला - Google का दावा है कि इसका नया अल्फ़ाज़ेरो न केवल एक बोर्ड गेम, बल्कि तीन: गो में "अतिमानवीय प्रदर्शन" का एक स्तर प्राप्त करता है। शतरंज, और शोगी (अनिवार्य रूप से, जापानी शतरंज)। Google के डेविड सिल्वर के नेतृत्व में कंप्यूटर वैज्ञानिकों और इंजीनियरों की टीम ने हाल ही में जर्नल साइंस में अपने निष्कर्षों की सूचना दी।

"इससे पहले, मशीन सीखने के साथ, आप एक मशीन प्राप्त कर सकते हैं जो आप चाहते हैं - लेकिन केवल उस चीज के लिए, " जॉर्जिया इंस्टीट्यूट ऑफ टेक्नोलॉजी में इंटरैक्टिव कंप्यूटिंग और आर्टिफिशियल इंटेलिजेंस में विशेषज्ञ अयान हावर्ड कहते हैं, जिन्होंने भाग नहीं लिया अनुसंधान। "लेकिन अल्फ़ाज़ेरो से पता चलता है कि आपके पास एक एल्गोरिथ्म हो सकता है जो कि [विशिष्ट] नहीं है, और यह कुछ मापदंडों के भीतर सीख सकता है।"

अल्फ़ाज़ेरो की चतुर प्रोग्रामिंग निश्चित रूप से मानव और मशीन के लिए गेमप्ले पर पूर्व में उतार देती है, लेकिन Google ने लंबे समय से अपने स्थलों को कुछ बड़े: इंजीनियरिंग खुफिया पर सेट किया है।

शोधकर्ता इस बात का ध्यान नहीं रखते हैं कि अल्फ़ाज़ेरो विश्व प्रभुत्व के कगार पर है (दूसरों को बंदूक चलाने में थोड़ी जल्दी है)। फिर भी, सिल्वर और दीपमिन्द दस्ते के बाकी लोग पहले से ही आशान्वित हैं कि वे किसी दिन ड्रग डिज़ाइन या मटेरियल साइंस पर लागू एक समान प्रणाली देखेंगे।

तो क्या अल्फा इतना प्रभावशाली बनाता है?

गेमप्ले को लंबे समय से कृत्रिम बुद्धिमत्ता अनुसंधान में सोने के मानक के रूप में माना जाता है। संरचित, इंटरैक्टिव खेल वास्तविक दुनिया के परिदृश्यों के सरलीकरण हैं: कठिन निर्णय किए जाने चाहिए; जीत और हार दांव पर लगी है; और भविष्यवाणी, महत्वपूर्ण सोच और रणनीति महत्वपूर्ण हैं।

इस तरह के कौशल को कूटना मुश्किल है। पुराने गेम खेलने वाले एआई-जिनमें मूल अल्फा गो के पहले प्रोटोटाइप शामिल हैं - को पारंपरिक रूप से प्राकृतिक, मानव गेमप्ले (अनिवार्य रूप से एक निष्क्रिय, प्रोग्रामर-व्युत्पन्न ज्ञान डंप) के वर्षों के माध्यम से अर्जित अनुभव की नकल करने के लिए कोड और डेटा से भरा हुआ है। AlphaGo Zero (AlphaGo का सबसे नवीनतम संस्करण) के साथ, और अब अल्फाज़ेरो के साथ, शोधकर्ताओं ने कार्यक्रम को सिर्फ एक इनपुट दिया: खेल के नियम। फिर, सिस्टम नीचे कूदा और सक्रिय रूप से व्यापार के गुर सीखे ।

AlphaZero, AlphaGo Zero पर आधारित है, जो ऊपर चित्रित किए गए चीनी बोर्ड गेम गो को खेलने के लिए डिज़ाइन किए गए AlphaGo सूट का हिस्सा है। मूल कार्यक्रम के शुरुआती पुनरावृत्तियों को मानव-बनाम-मानव खेलों से डेटा खिलाया गया था; बाद के संस्करणों ने स्व-शिक्षण में लगे हुए थे, जिसमें सॉफ्टवेयर ने अपनी रणनीति सीखने के लिए खुद के खिलाफ खेल खेले। (चाड मिलर / फ़्लिकर / सीसी बाय-एसए 2.0)

सेल्फ-प्ले रिइनफोर्समेंट लर्निंग नाम की यह रणनीति काफी हद तक वैसी ही है जैसी यह लगती है: बड़ी लीगों के लिए प्रशिक्षित करने के लिए, अल्फाज़ेरो ने पुनरावृति के बाद अपने कौशल को ट्रायल और एरर द्वारा सम्मानित किया। और जानवर बल दृष्टिकोण बंद का भुगतान किया। AlphaGo शून्य के विपरीत, AlphaZero सिर्फ गो नहीं खेलता है: यह शतरंज और शोगी में व्यापार में सर्वश्रेष्ठ एआई को भी हरा सकता है। सीखने की प्रक्रिया भी प्रभावशाली रूप से कुशल है, जिसमें विशेष रूप से मास्टर शोगी, शतरंज और गो के अनुरूप क्रमशः आउटपरफॉर्म कार्यक्रमों के लिए केवल दो, चार या 30 घंटे के स्व-टेटेलज की आवश्यकता होती है। विशेष रूप से, अध्ययन लेखकों ने अल्फ़ाज़ेरो के किसी भी उदाहरण को एक वास्तविक मानव के साथ सिर-से-सिर जाने की सूचना नहीं दी, हॉवर्ड कहते हैं। (शोधकर्ताओं ने माना है कि, यह देखते हुए कि ये कार्यक्रम लगातार अपने मानव समकक्षों को उलझाएंगे, ऐसा मैचअप व्यर्थ होगा।)

अल्फाज़ेरो स्टॉकफिश (अब बिना शतरंज के शतरंज के मास्टर) और एल्मो (पूर्व एआई शोगी विशेषज्ञ) को गेम खेलने के दौरान प्रत्येक मोड़ पर कम संभव अगले चालों का मूल्यांकन करने के बावजूद ट्रूम करने में सक्षम था। क्योंकि प्रश्न में एल्गोरिदम स्वाभाविक रूप से अलग हैं, और विभिन्न मात्रा में बिजली का उपभोग कर सकते हैं, अल्फ़ाज़ेरो की तुलना सीधे अन्य, पुराने कार्यक्रमों से करना मुश्किल है, जोआना ब्रायसन बताते हैं, जो यूनाइटेड किंगडम में बाथ विश्वविद्यालय में कृत्रिम बुद्धिमत्ता का अध्ययन करता है और किया। अल्फ़ाज़ेरो में योगदान नहीं।

Google अपने सॉफ़्टवेयर पर बहुत सारे बढ़िया प्रिंट रखता है, और अल्फ़ाज़ो कोई अपवाद नहीं है। जब हम कार्यक्रम की बिजली की खपत के बारे में सब कुछ नहीं जानते हैं, तो यह स्पष्ट है कि: अल्फाज़ेरो को कुछ गंभीर कम्प्यूटेशनल बारूद पैक करना होगा। प्रशिक्षण के उन घिनौने घंटों में, कार्यक्रम ने खुद को बहुत व्यस्त रखा, दसियों या हजारों अभ्यास राउंड में उलझाने के लिए अपनी बोर्ड गेम रणनीति को सूंघने के लिए - एक मानव खिलाड़ी की तुलना में कहीं अधिक (या, ज्यादातर मामलों में) की आवश्यकता हो सकती है यहां तक कि) प्रवीणता की खोज में।

इस गहन आहार ने Google के स्वामित्व वाली मशीन-लर्निंग प्रोसेसर इकाइयों में से 5, 000 या TPU का भी उपयोग किया, जो कुछ अनुमानों के अनुसार प्रति चिप लगभग 200 वाट की खपत करते हैं। कोई फर्क नहीं पड़ता कि आप इसे कैसे टुकड़ा करते हैं, अल्फाज़ेरो को मानव मस्तिष्क की तुलना में अधिक ऊर्जा की आवश्यकता होती है, जो लगभग 20 वाट पर चलती है।

अल्फ़ाज़ेरो की संपूर्ण ऊर्जा खपत को ध्यान में रखा जाना चाहिए, बिन यू कहते हैं, जो कैलिफोर्निया विश्वविद्यालय, बर्कले में सांख्यिकी, मशीन सीखने और कृत्रिम बुद्धिमत्ता के इंटरफ़ेस पर काम करता है। अल्फ़ाज़ेरो शक्तिशाली है, लेकिन हिरन के लिए अच्छा धमाका नहीं हो सकता है - खासकर जब व्यक्ति-घंटों में जो इसके निर्माण और निष्पादन में चला गया।

एनर्जेटिक रूप से महंगा या नहीं, अल्फ़ाज़ेरो एक स्पलैश बनाता है: अधिकांश एआई एक ही काम पर हाइपर-स्पेशलाइज्ड हैं, जिससे यह नया कार्यक्रम बना है - गेम प्ले के अपने ट्रिपल खतरे के साथ-उल्लेखनीय रूप से लचीला। "यह प्रभावशाली है कि अल्फाज़ो तीन अलग-अलग खेलों के लिए एक ही वास्तुकला का उपयोग करने में सक्षम था, " यू कहते हैं।

तो हाँ। Google का नया AI कई मायनों में एक नया चिह्न स्थापित करता है। ये तेज़ है। यह शक्तिशाली है। लेकिन क्या यह इसे स्मार्ट बनाता है?

यही वह जगह है जहाँ से परिभाषाएँ गंदी होने लगती हैं। दीपमाइंड्स सिल्वर ने प्रेस को दिए एक बयान में कहा, "अल्फाजो किसी भी मानवीय ज्ञान के बिना खरोंच से शुरू होकर, बिना किसी मानवीय ज्ञान के सीखने में सक्षम था।"

भले ही बोर्ड गेम विशेषज्ञता को मानसिक तीक्ष्णता की आवश्यकता होती है, लेकिन वास्तविक दुनिया के सभी परदे के पीछे उनकी सीमाएं होती हैं। अपने मौजूदा पुनरावृत्ति में, अल्फाज़ेरो ने मानव-डिज़ाइन किए गए गेम को जीतकर अधिकतम किया- जो कि "अलौकिक" के संभावित खतरनाक लेबल को वारंट नहीं कर सकता है, इसके अलावा, यदि नियमों के मध्य-खेल के एक नए सेट के साथ आश्चर्यचकित हो, तो अल्फाज़ो को फ़्लॉमोक्स हो सकता है। दूसरी ओर, वास्तविक मानव मस्तिष्क, अपने प्रदर्शनों की सूची में तीन से अधिक बोर्ड गेम्स स्टोर कर सकता है।

ब्रायनसन कहते हैं कि अधिक क्या है, अल्फ़ाज़ेरो की आधार रेखा की तुलना एक तबला रस (खाली स्लेट) से करना - जैसा कि शोधकर्ता करते हैं, एक खिंचाव है। प्रोग्रामर अभी भी इसे मानव ज्ञान का एक महत्वपूर्ण हिस्सा खिला रहे हैं: खेल के नियम जो इसे खेलना है। ब्रायसन आगे कहते हैं, '' इससे पहले की तुलना में अब तक कुछ भी कम नहीं हुआ है, '' लेकिन सबसे बुनियादी बात यह है कि इसे अभी भी नियम दिए गए हैं। वे स्पष्ट हैं। ”

और उन pesky नियम एक महत्वपूर्ण बैसाखी का गठन कर सकते हैं। "भले ही ये कार्यक्रम प्रदर्शन करने के तरीके सीखते हैं, लेकिन उन्हें सड़क के नियमों की आवश्यकता होती है, " हॉवर्ड कहते हैं। "दुनिया उन कार्यों से भरी है जिनके पास ये नियम नहीं हैं।"

जब धक्का को धक्का लगता है, तो अल्फ़ाज़ेरो पहले से ही एक शक्तिशाली कार्यक्रम का उन्नयन है - अल्फ़ागो ज़ीरो, जोआन पॉल बताते हैं, जो वर्जीनिया पॉलिटेक्निक इंस्टीट्यूट और स्टेट यूनिवर्सिटी में कृत्रिम बुद्धिमत्ता और कम्प्यूटेशनल सपने का अध्ययन करता है और नए शोध में शामिल नहीं था। अल्फ़ाज़ो ज़ीरो के रूप में एक ही बिल्डिंग ब्लॉक और एल्गोरिदम में से कई का उपयोग करता है, और अभी भी सही स्मार्ट का एक सबसेट का गठन करता है। "मुझे लगता है कि यह नया विकास क्रांतिकारी से अधिक विकासवादी था, " वह आगे कहती हैं। “इनमें से कोई भी एल्गोरिदम नहीं बना सकता है। खुफिया कहानी के बारे में भी है। यह उन चीजों की कल्पना कर रहा है जो अभी तक नहीं हैं। हम कंप्यूटर में उन शर्तों के बारे में नहीं सोच रहे हैं। "

समस्या का एक हिस्सा है, "इंटेलिजेंस" की सच्ची परिभाषा पर अभी भी कोई आम सहमति नहीं है, यू कहते हैं- और न केवल प्रौद्योगिकी के क्षेत्र में। "यह अभी भी स्पष्ट नहीं है कि हम गंभीर रूप से सोचने वाले प्राणियों को कैसे प्रशिक्षित कर रहे हैं, या हम अचेतन मस्तिष्क का उपयोग कैसे करते हैं, " वह आगे कहती हैं।

इस बिंदु पर, कई शोधकर्ता मानते हैं कि कई प्रकार की खुफिया संभावनाएं हैं। और एक से दोहन में दूसरे के लिए सामग्री की गारंटी देता है। मिसाल के तौर पर, कुछ सबसे चतुर लोग शतरंज में भयानक होते हैं।

इन सीमाओं के साथ, यू का भविष्य कृत्रिम बुद्धिमत्ता के मानव और मशीनों के समन्वय में भविष्य की दृष्टि से एक तरह का सामंजस्य है। मशीन निश्चित रूप से कुछ कार्यों में उत्कृष्टता प्राप्त करना जारी रखेगी, वह बताती हैं, लेकिन मानव इनपुट और निरीक्षण हमेशा असंबद्ध के लिए क्षतिपूर्ति करने के लिए आवश्यक हो सकते हैं।

बेशक, कोई यह नहीं बता रहा है कि एआई क्षेत्र में चीजें कैसे हटेंगी। इस बीच, हमारे पास बहुत कुछ है। "ये कंप्यूटर शक्तिशाली हैं, और कुछ चीजों को मानव की तुलना में बेहतर कर सकते हैं, " पॉल कहते हैं। "लेकिन वह अभी भी बुद्धि के रहस्य से कम नहीं है।"

यह लेख मूल रूप से NOVA पर प्रकाशित हुआ था।