https://frosthead.com

क्या एक कंप्यूटर मॉडल इस साल के मार्च पागलपन के पहले दौर की भविष्यवाणी कर सकता है?

"मार्च की आयतों से सावधान रहें।" हाँ, यह आखिरकार साल का वह समय है: जब कॉलेज बास्केटबॉल के बादशाहों को अपनी पीठ देखनी होगी, तो टूर्नामेंट के स्ट्राइक के निचले तले के बीज को देखें।

15 मार्च से पहले, दुनिया भर में लाखों लोग अपने मार्च पागलपन कोष्ठक भरेंगे। 2017 में, ईएसपीएन को रिकॉर्ड 18.8 मिलियन ब्रैकेट मिले।

एक सही ब्रैकेट के लिए पहला कदम सही ढंग से पहले दौर को चुनना है। दुर्भाग्य से, हम में से अधिकांश भविष्य की भविष्यवाणी नहीं कर सकते। पिछले वर्ष, प्रस्तुत ब्रैकेट में से केवल 164 पहले दौर के माध्यम से परिपूर्ण थे - 0.001 प्रतिशत से कम।

18.8 मिलियन ब्रैकेट सबमिट किए गए।

राउंड 1 के बाद 164 सही हैं।

यहाँ अतिरेक है। #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ईएसपीएन फैंटेसी स्पोर्ट्स (@ESPNFantasy) 18 मार्च, 2017

कई बोर्स्ट का भंडाफोड़ तब होता है जब एक निचली वरीयता प्राप्त टीम फेवरेट हाई सीड को अपसेट करती है। चूंकि 1985 में इस क्षेत्र का विस्तार 64 टीमों तक था, इसलिए प्रत्येक वर्ष औसतन कम से कम आठ उतार-चढ़ाव आते हैं। यदि आप अपने ब्रैकेट पूल को जीतना चाहते हैं, तो आप कम से कम कुछ अपसेट कर सकते हैं।

हम दो गणित पीएच.डी. ओहियो स्टेट यूनिवर्सिटी के उम्मीदवार जो डेटा साइंस और बास्केटबॉल का शौक रखते हैं। इस साल, हमने फैसला किया कि यह एक कंप्यूटर प्रोग्राम बनाना मज़ेदार होगा जो पहले दौर के अपसेट्स की भविष्यवाणी करने के लिए गणितीय दृष्टिकोण का उपयोग करता है। यदि हम सही हैं, तो हमारे प्रोग्राम का उपयोग करके उठाया गया एक ब्रैकेट औसत ब्रैकेट की तुलना में पहले राउंड के माध्यम से बेहतर प्रदर्शन करना चाहिए।

पतित मनुष्य

यह पहचानना आसान नहीं है कि पहले दौर के खेलों में से कौन सा परिणाम परेशान करेगा।

मान लें कि आपको नंबर 10 बीज और नंबर 7 बीज के बीच का फैसला करना है। नंबर 10 सीड ने अपने पिछले तीन टूर्नामेंटों में उतार-चढ़ाव को दूर किया, एक बार फ़ाइनल फोर भी बनाया। नंबर 7 बीज एक ऐसी टीम है जिसे कोई राष्ट्रीय कवरेज नहीं मिला है; आकस्मिक प्रशंसक शायद उनके बारे में कभी नहीं सुना है। तुम किसे चुनोगे?

यदि आपने 2017 में नंबर 10 का बीज चुना, तो आप कैलिफोर्निया के सेंट मैरी के ऊपर वर्जीनिया कॉमनवेल्थ यूनिवर्सिटी के साथ गए होंगे - और आप गलत होंगे। रीसेंसी बायस नामक निर्णय लेने की गिरावट के लिए धन्यवाद, मनुष्य को निर्णय लेने के लिए अपनी सबसे हालिया टिप्पणियों का उपयोग करने के लिए छल किया जा सकता है।

रीसेंसी पूर्वाग्रह सिर्फ एक प्रकार का पूर्वाग्रह है जो किसी की पिकिंग प्रक्रिया में घुसपैठ कर सकता है, लेकिन कई अन्य हैं। हो सकता है कि आप अपनी घरेलू टीम के पक्षपाती हों, या हो सकता है कि आप किसी खिलाड़ी के साथ पहचान रखते हों और सफल होने के लिए उसे चाहते हों। यह सब संभावित नकारात्मक तरीके से आपके ब्रैकेट को प्रभावित करता है। यहां तक ​​कि अनुभवी पेशेवर भी इन जाल में पड़ जाते हैं।

मॉडलिंग अपसेट

मशीन सीखने से इन नुकसानों से बचाव हो सकता है।

मशीन लर्निंग में, सांख्यिकीविद, गणितज्ञ और कंप्यूटर वैज्ञानिक पिछले डेटा से "सीखने" की भविष्यवाणी करके मशीन बनाने का प्रशिक्षण देते हैं। इस दृष्टिकोण का उपयोग विपणन, चिकित्सा और खेल सहित कई विविध क्षेत्रों में किया गया है।

मशीन सीखने की तकनीक की तुलना एक ब्लैक बॉक्स से की जा सकती है। सबसे पहले, आप एल्गोरिथ्म को पिछले डेटा को खिलाते हैं, अनिवार्य रूप से ब्लैक बॉक्स पर डायल सेट करते हैं। एक बार सेटिंग्स कैलिब्रेट हो जाने के बाद, एल्गोरिथ्म नए डेटा में पढ़ सकता है, पिछले डेटा से तुलना कर सकता है और फिर अपनी भविष्यवाणियों को थूक सकता है।

मशीन लर्निंग एल्गोरिदम का एक ब्लैक बॉक्स दृश्य। मशीन लर्निंग एल्गोरिदम का एक ब्लैक बॉक्स दृश्य। (मैथ्यू ओसबोर्न, सीसी बाय-एसए)

मशीन लर्निंग में, विभिन्न प्रकार के ब्लैक बॉक्स उपलब्ध हैं। हमारे मार्च पागलपन परियोजना के लिए, जिन्हें हम चाहते थे उन्हें वर्गीकरण एल्गोरिदम के रूप में जाना जाता है। ये हमें यह निर्धारित करने में मदद करते हैं कि खेल को एक परेशान के रूप में वर्गीकृत किया जाना चाहिए या नहीं, या तो किसी खेल को एक के रूप में वर्गीकृत करके या स्पष्ट रूप से वर्गीकृत करके।

हमारा कार्यक्रम लॉजिस्टिक रिग्रेशन, यादृच्छिक वन मॉडल और के-निकटतम पड़ोसियों सहित कई लोकप्रिय वर्गीकरण एल्गोरिदम का उपयोग करता है। प्रत्येक विधि एक ही मशीन के एक अलग "ब्रांड" की तरह है; वे फ़ोर और टॉयटोटा के रूप में हुड के तहत अलग-अलग काम करते हैं, लेकिन एक ही वर्गीकरण कार्य करते हैं। प्रत्येक एल्गोरिथ्म, या बॉक्स में, अपसेट होने की संभावना के बारे में अपनी भविष्यवाणियां होती हैं।

हमने अपने ब्लैक बॉक्स पर डायल सेट करने के लिए 2001 से 2017 के पहले दौर की टीमों के आंकड़ों का उपयोग किया। जब हमने 2017 के पहले दौर के आंकड़ों के साथ हमारे एक एल्गोरिदम का परीक्षण किया, तो इसमें लगभग 75 प्रतिशत सफलता दर थी। यह हमें विश्वास दिलाता है कि पिछले डेटा का विश्लेषण करने के बजाय, केवल हमारी आंत पर भरोसा करने से, अपसेट के अधिक सटीक पूर्वानुमान हो सकते हैं, और इस प्रकार बेहतर समग्र ब्रैकेट हो सकते हैं।

मानव अंतर्ज्ञान पर इन पेटियों के क्या फायदे हैं? एक के लिए, मशीनें 2001-2017 के सभी डेटा को सेकंड के एक मामले में पैटर्न की पहचान कर सकती हैं। क्या अधिक है, क्योंकि मशीनें केवल आंकड़ों पर निर्भर करती हैं, वे मानव मनोवैज्ञानिक जीवों के लिए गिरने की संभावना कम हो सकती हैं।

यह कहना नहीं है कि मशीन लर्निंग हमें सही ब्रैकेट देगी। भले ही बॉक्स मानव पूर्वाग्रह को दरकिनार कर देता है, यह त्रुटि के लिए प्रतिरक्षा नहीं है। परिणाम पिछले डेटा पर निर्भर करते हैं। उदाहरण के लिए, यदि पहले राउंड में कोई नंबर 1 सीड खोना था, तो हमारे मॉडल ने इसकी भविष्यवाणी नहीं की होगी, क्योंकि ऐसा पहले कभी नहीं हुआ है।

इसके अतिरिक्त, मशीन लर्निंग एल्गोरिदम हजारों या लाखों उदाहरणों के साथ सबसे अच्छा काम करता है। 2001 के बाद से केवल 544 पहले दौर के मार्च पागलपन के खेल खेले गए हैं, इसलिए हमारे एल्गोरिदम हर परेशान को सही ढंग से नहीं बुलाएंगे। बास्केटबॉल विशेषज्ञ जलेन रोज की प्रतिध्वनि, हमारे आउटपुट को आपके विशेषज्ञ ज्ञान के संयोजन में एक उपकरण के रूप में उपयोग किया जाना चाहिए - और भाग्य! - सही गेम चुनने के लिए।

मशीन सीखने का पागलपन?

हम मार्च पागलपन के लिए मशीन सीखने को लागू करने वाले पहले लोग नहीं हैं और हम अंतिम नहीं होंगे। वास्तव में, मशीन सीखने की तकनीक जल्द ही आपके ब्रैकेट को प्रतिस्पर्धी बनाने के लिए आवश्यक हो सकती है।

मशीन लर्निंग का उपयोग करने के लिए आपको गणित में डिग्री की आवश्यकता नहीं है - हालांकि यह हमारी मदद करता है। जल्द ही, मशीन सीखना पहले से कहीं अधिक सुलभ हो सकता है। जो लोग रुचि रखते हैं, वे हमारे मॉडल को ऑनलाइन देख सकते हैं। हमारे एल्गोरिदम का पता लगाने के लिए स्वतंत्र महसूस करें और यहां तक ​​कि अपने आप को बेहतर तरीके से देखें।


यह आलेख मूल रूप से वार्तालाप पर प्रकाशित हुआ था। बातचीत

मैथ्यू ओसबोर्न, गणित में पीएचडी उम्मीदवार, ओहियो स्टेट यूनिवर्सिटी

केविन नॉवेलैंड, गणित में पीएचडी उम्मीदवार, ओहियो स्टेट यूनिवर्सिटी

क्या एक कंप्यूटर मॉडल इस साल के मार्च पागलपन के पहले दौर की भविष्यवाणी कर सकता है?