दशकों से शतरंज जैसे एक-के-एक खेल में कंप्यूटर इंसानों पर हावी रहे हैं, लेकिन टीम के साथियों के साथ सहयोग करने के लिए कृत्रिम बुद्धिमत्ता (एआई) प्राप्त करना थोड़ा पेचीदा है। अब, Google के डीपमाइंड परियोजना के शोधकर्ताओं ने एआई खिलाड़ियों को 1999 के वीडियो गेम क्वेक III एरिना में प्रतिस्पर्धा करने के लिए दोनों मनुष्यों और अन्य कंप्यूटरों के साथ टीमों पर काम करना सिखाया है।
Edd Gent at Science की रिपोर्ट है कि जब AI में केवल एक ही प्रतिद्वंद्वी होता है, तो यह आमतौर पर बहुत अच्छा करता है क्योंकि यह केवल एक दिमाग की संभावित चालों की आशंका है। लेकिन टीम वर्क एक पूरी तरह से अलग मामला है क्योंकि इसमें ऐसे कार्य शामिल हैं जो कंप्यूटर पारंपरिक रूप से अच्छे नहीं हैं, जैसे कि यह भविष्यवाणी करना कि टीम के साथियों का एक समूह कैसे व्यवहार करेगा। एआई को वास्तव में उपयोगी बनाने के लिए, यह सीखना होगा कि अन्य बुद्धिमत्ता के साथ कैसे सहयोग करें।
Google की DeepMind टीम ब्लॉग पोस्ट में बताती है:
“अरबों लोग अपने व्यक्तिगत लक्ष्यों और कार्यों के साथ ग्रह में निवास करते हैं, लेकिन फिर भी सामूहिक बुद्धि के प्रभावशाली प्रदर्शन में टीमों, संगठनों और समाजों के माध्यम से एक साथ आने में सक्षम हैं। यह एक सेटिंग है जिसे हम मल्टी-एजेंट लर्निंग कहते हैं: कई व्यक्तिगत एजेंटों को स्वतंत्र रूप से कार्य करना चाहिए, फिर भी अन्य एजेंटों के साथ बातचीत और सहयोग करना सीखें। यह एक बहुत ही कठिन समस्या है - क्योंकि सह-एजेंटों के साथ दुनिया लगातार बदल रही है। ”
मल्टीप्लेयर, प्रथम-व्यक्ति वीडियो गेम, जिसमें खिलाड़ियों की टीम आभासी दुनिया के चारों ओर चलती है, आमतौर पर एक दूसरे पर बंदूक या ग्रेनेड लांचर की शूटिंग होती है, एआई के लिए टीम वर्क की पेचीदगियों को सीखने के लिए सही स्थान है। प्रत्येक खिलाड़ी को व्यक्तिगत रूप से कार्य करना चाहिए और ऐसे विकल्प बनाने चाहिए जो टीम को संपूर्ण रूप से लाभान्वित करें।
अध्ययन के लिए, टीम ने क्वेक III एरिना मंच पर ध्वज को पकड़ने के लिए एआई को प्रशिक्षित किया। नियम काफी सरल हैं: दो टीमें एक भूलभुलैया जैसे युद्ध के मैदान में आमने सामने होती हैं। लक्ष्य अपनी खुद की रक्षा करते हुए कई अन्य टीमों के आभासी झंडे को पकड़ने का है, और जो भी टीम पांच मिनट की जीत में सबसे अधिक झंडे पकड़ लेती है। व्यवहार में, हालांकि, चीजें बहुत जल्दी जटिल हो सकती हैं।
डीपमाइंड टीम ने 30 न्यूरल नेटवर्क एल्गोरिदम बनाए और उन्हें बेतरतीब ढंग से उत्पन्न गेम मैप्स की एक श्रृंखला पर एक दूसरे से लड़ाई करनी थी। बोट्स ने झंडे को पकड़ने और अन्य खिलाड़ियों को ज़ैप करके अंक दिए, उन्हें एक रिस्पना क्षेत्र में वापस भेज दिया जहां उनके चरित्र को रिबूट किया गया। सबसे पहले, बॉट की क्रियाएं यादृच्छिक रूप से प्रकट हुईं। हालांकि, वे जितने अधिक खेले, उतने ही बेहतर होते गए। कोई भी तंत्रिका नेटवर्क जो लगातार खो गया था और एआई जीतने के संशोधित संस्करणों द्वारा प्रतिस्थापित किया गया था 450, 000 खेलों के अंत में, टीम ने एक न्यूरल नेटवर्क का ताज पहनाया- डब फॉर द विन (एफटीडब्ल्यू) - द चैंपियन।
डीपमाइंड समूह ने एफटीडब्ल्यू एल्गोरिदम को एक दर्पण बॉट्स के खिलाफ खेला, जो एआई सीखने के कौशल को याद कर रहे हैं, और फिर मानव टीमों के खिलाफ भी। FTW ने सभी चैलेंजर्स को कुचल दिया।
समूह ने तब एक टूर्नामेंट आयोजित किया जिसमें 40 मानव खिलाड़ियों को बेतरतीब ढंग से बॉटम के दोनों साथियों और विरोधियों के रूप में मिलाया गया था। ब्लॉग पोस्ट के अनुसार, मानव खिलाड़ियों ने पाया कि उनके वास्तविक जीवन के साथियों की तुलना में बॉट्स अधिक सहयोगी थे। एफटीडब्ल्यू एजेंटों के साथ जोड़े गए मानव खिलाड़ी लगभग 5 प्रतिशत मैचों में साइबर योद्धाओं को मात देने में सक्षम थे।
जैसा कि उन्होंने सीखा, बॉट्स ने कुछ रणनीतियों की खोज की, जो मानव खिलाड़ियों द्वारा गले लगाई गई थीं, जैसे कि एक झंडा के रिस्पांस पॉइंट के पास बाहर लटकना, जब वह फिर से दिखाई देता है। एफटीडब्ल्यू टीमों को एक बग भी मिला जिसका वे शोषण कर सकते थे: यदि उन्होंने अपनी टीम के साथी को पीठ में गोली मार दी, तो इससे उन्हें गति में वृद्धि हुई, कुछ ऐसा जो उन्होंने अपने लाभ के लिए किया।
दीपइंड के शोधकर्ता और प्रमुख लेखक मैक्स जैडरबर्ग ने जेंट को बताया, "इस परियोजना के विकास के दौरान जो कुछ आश्चर्यजनक था, वह इन उच्च-स्तरीय व्यवहारों में से कुछ का उदय था।" "ये ऐसी चीजें हैं जिन्हें हम मानव खिलाड़ी के रूप में संबंधित कर सकते हैं।"
मानव खिलाड़ियों की तुलना में बॉट्स का एक बड़ा कारण यह था कि वे तेज और सटीक निशानेबाज थे, जिससे वे अपने मानव विरोधियों की तुलना में ड्रॉ पर तेज हो गए। लेकिन यह उनकी सफलता का एकमात्र कारक नहीं था। ब्लॉग के अनुसार, जब शोधकर्ताओं ने एक चौथाई सेकंड की देरी से रिएबो-शूटर्स में प्रतिक्रिया के समय का निर्माण किया, तो सबसे अच्छा इंसान अभी भी केवल 21 प्रतिशत समय ही उन्हें हरा सका।
इस प्रारंभिक अध्ययन के बाद से, एफटीडब्ल्यू और इसके वंशज पूर्ण क्वेक III एरिना युद्ध के मैदान पर उतारे गए हैं, और उन्होंने दिखाया है कि वे अधिक विकल्पों और बारीकियों के साथ और भी अधिक जटिल दुनिया में महारत हासिल कर सकते हैं। उन्होंने एक बॉट भी बनाया है जो अल्ट्रा-कॉम्प्लेक्स स्ट्रैटेजी स्पेस गेम Starcraft II पर एक्सेल करता है।
लेकिन शोध सिर्फ बेहतर वीडियो गेम एल्गोरिदम बनाने के बारे में नहीं है। टीम वर्क के बारे में सीखना अंततः एआई को स्व-ड्राइविंग कारों के बेड़े में काम करने में मदद कर सकता है या शायद किसी दिन रोबोट सहायक बन सकता है जो सर्जनों की जरूरतों को पूरा करने में मदद करता है, विज्ञान की रिपोर्ट।
हालांकि, सभी को नहीं लगता कि आर्केड-स्टार बॉट सच टीमवर्क का प्रतिनिधित्व करते हैं। जॉर्जिया टेक के एआई शोधकर्ता मार्क रिडेल ने न्यूयॉर्क टाइम्स को बताया कि बोट्स खेल में बहुत अच्छे हैं क्योंकि हर एक रणनीति को गहराई से समझता है। लेकिन यह जरूरी नहीं है कि एआई टीमों के पास मानव टीम वर्क के एक महत्वपूर्ण तत्व की कमी है: संचार और जानबूझकर सहयोग।
और, ज़ाहिर है, उनके पास सहकारी वीडियो गेम अनुभव के अन्य हॉलमार्क की भी कमी है: दूसरी टीम से बात करते हुए कचरा।