https://frosthead.com

क्या एक सांख्यिकीय मॉडल सटीक रूप से ओलंपिक पदक की भविष्यवाणी कर सकता है?

यदि कोई व्यक्ति आपसे इस वर्ष के ओलंपिक में जीतने वाले सभी पदकों की संख्या की भविष्यवाणी करने के लिए कहता है, तो आप शायद प्रत्येक घटना में इष्ट एथलीटों की पहचान करने की कोशिश करेंगे, तो परिणाम में पहुंचने के लिए प्रत्येक देश की अपेक्षित जीत होगी।

डेटा माइनिंग कंपनी डिस्कवरी कॉर्प्स, इंक के पीछे के भाई टिम और डैन ग्रैटिंगर के पास एक अलग दृष्टिकोण है। वे एथलीटों को पूरी तरह से नजरअंदाज करते हैं।

इसके बजाय, सोची खेलों के लिए उनका मॉडल प्रत्येक देश के भौगोलिक क्षेत्र, प्रति व्यक्ति जीडीपी, निर्यात के कुल मूल्य और अक्षांश को देखकर निर्धारित करता है कि प्रत्येक देश कितने पदक जीतेंगे। यदि आप सोच रहे हैं, तो यह भविष्यवाणी करता है कि अमेरिका शीर्ष पर आएगा, कुल मिलाकर 29 पदक होंगे।

पदक गिनती की भविष्यवाणी करने के लिए डेटा-चालित, टॉप-डाउन दृष्टिकोण के इस प्रकार को नियोजित करने वाले पहले ग्रेडर नहीं हैं। कोलोराडो कॉलेज के अर्थशास्त्र के प्रोफेसर डैनियल जॉनसन ने 2000 और 2008 के बीच पांच ओलंपिक के लिए इसी तरह के मॉडल का निर्माण किया- प्रत्येक देश के पदकों की संख्या की भविष्यवाणी करने में कुल मिलाकर 94 प्रतिशत सटीकता हासिल की- लेकिन सोची के लिए एक मॉडल नहीं बनाया।

डैन और टिम खेल के लिए नए हैं। डैन — जो आम तौर पर अधिक पारंपरिक डेटा माइनिंग प्रोजेक्ट्स पर काम करते हैं, उदाहरण के लिए, कंपनी के संभावित ग्राहकों की भविष्यवाणी करना - पहली बार वैंकूवर शीतकालीन ओलंपिक के दौरान चार साल पहले प्रतियोगिताओं की भविष्यवाणी करने के लिए मॉडल का उपयोग करने में दिलचस्पी थी। "मैं भविष्य के बारे में हर समय भविष्यवाणी करने के लिए डेटा का उपयोग करता हूं, " वे कहते हैं। "हर रात, वे टीवी पर पदक की गिनती दिखाते हैं, और मैं सोच रहा था कि क्या हम इसकी भविष्यवाणी कर सकते हैं।"

भले ही व्यक्तिगत एथलीटों के प्रदर्शन अप्रत्याशित रूप से भिन्न हो सकते हैं, उन्होंने तर्क दिया, किसी देश की मूलभूत विशेषताओं (उदाहरण के लिए इसका आकार, जलवायु और धन की राशि), और संभवतः इसे घर ले जाने वाले पदकों के बीच एक समग्र संबंध हो सकता है। इस तरह का दृष्टिकोण यह कहने में सक्षम नहीं होगा कि कौन सा प्रतियोगी किसी दिए गए इवेंट को जीत सकता है, लेकिन पर्याप्त डेटा के साथ, यह प्रत्येक देश के लिए कुल पदक की गणना का सटीक अनुमान लगाने में सक्षम हो सकता है।

शुरुआत में, उन्होंने और उनके भाई ने 2012 लंदन खेलों के लिए प्रारंभिक मॉडल विकसित करने का काम किया। शुरू करने के लिए, उन्होंने देश के भूगोल से लेकर उसके इतिहास, धर्म, धन और राजनीतिक संरचना तक सभी चीजों पर विभिन्न प्रकार के डेटा सेट एकत्र किए। फिर, उन्होंने प्रतिगमन विश्लेषण और अन्य डेटा-क्रंचिंग विधियों का उपयोग किया, यह देखने के लिए कि ओलंपिक पदक पर ऐतिहासिक डेटा के साथ किस चर का निकटतम संबंध था।

उन्होंने पाया कि ग्रीष्मकालीन खेलों के लिए, एक मॉडल जिसने देश के सकल घरेलू उत्पाद, जनसंख्या, अक्षांश और समग्र आर्थिक स्वतंत्रता को शामिल किया (जैसा कि हेरिटेज फाउंडेशन के सूचकांक द्वारा मापा गया) पिछले दो ग्रीष्मकालीन ओलंपिक (2004) के लिए प्रत्येक देश के पदक के साथ सबसे अच्छा संबंध था। और 2008)। लेकिन उस समय, उनका प्रारंभिक मॉडल केवल यह अनुमान लगा सकता था कि कौन से देश दो या अधिक पदक जीतेंगे, प्रति देश पदक की संख्या नहीं।

उन्होंने सोची खेलों के लिए इसमें सुधार करने का फैसला किया, लेकिन अपने पिछले मॉडल पर भरोसा नहीं कर सकते थे, क्योंकि सर्दियों में सफल होने वाले देश गर्मियों के दौरान बहुत भिन्न होते हैं। उनका नया सोची मॉडल दो चरणों में पदक की गणना की समस्या से निपटता है। क्योंकि लगभग 90 प्रतिशत देशों ने कभी एक भी शीतकालीन ओलंपिक पदक नहीं जीता है (कोई मध्य पूर्वी, दक्षिण अमेरिकी, अफ्रीकी या कैरिबियन एथलीट कभी नहीं जीता है), यह पहले दस प्रतिशत को अलग करता है जो कम से कम एक जीतने की संभावना रखते हैं, फिर भविष्यवाणी करते हैं कि कितने हर एक जीतेगा।

टिम कहते हैं, "कुछ रुझान बहुत ज्यादा हैं जो आप उम्मीद करेंगे - जैसे कि देश की आबादी बड़ी हो जाती है, संभावना है कि यह पदक जीत लेगा।" "आखिरकार, हालांकि, आपको कुछ अधिक शक्तिशाली सांख्यिकीय मशीनरी की आवश्यकता होती है जो बहुत सारे चर के माध्यम से पीस सकती हैं और उन्हें सबसे अधिक अनुमानित कर सकती हैं।"

आखिरकार, वे कुछ ऐसे चरों पर आ गए, जो नब्बे प्रतिशत गैर-पदक विजेता देशों को दस प्रतिशत से अलग करते हैं, जो संभावित रूप से जीतेंगे: इनमें प्रवासन दर, प्रति व्यक्ति डॉक्टरों की संख्या, अक्षांश, सकल घरेलू उत्पाद और क्या देश शामिल था पिछले ग्रीष्मकालीन खेलों में पदक जीता (किसी भी देश ने पिछली गर्मियों में जीतने के बिना कभी शीतकालीन पदक नहीं जीता था, भाग में क्योंकि गर्मियों के विजेताओं का पूल सर्दियों की तुलना में बहुत बड़ा है)। पिछले दो शीतकालीन ओलंपिक में इस मॉडल को चलाकर, इस मॉडल ने निर्धारित किया कि किन देशों ने 96.5 प्रतिशत सटीकता के साथ पदक जीता।

90 प्रतिशत देशों का सफाया होने के साथ, ग्रेडिंगर्स ने इसी तरह के प्रतिगमन विश्लेषण का उपयोग एक मॉडल बनाने के लिए किया, जो भविष्यवाणी करता था कि रेट्रोएक्टली, प्रत्येक शेष देश ने कितने पदक जीते। उनके विश्लेषण में पाया गया कि चर की थोड़ी अलग सूची ऐतिहासिक पदक डेटा को सबसे अच्छी तरह से फिट करती है। सोची खेलों के पूर्वानुमानों के साथ ये चर नीचे हैं:

छवि 4-अनुमानित पदक तालिका 2 - सीमाओं के साथ। पीएनजी सोची खेलों के लिए मॉडल की भविष्यवाणियां (ग्राफ सौजन्य डिस्कवरी कोर, इंक।)

कुछ चर जो निकम्मा हो गए हैं, उन्हें बहुत बड़ा झटका नहीं लगा है - यह समझ में आता है कि उच्च अक्षांश के देश शीतकालीन खेलों के दौरान खेले जाने वाले आयोजनों में बेहतर प्रदर्शन करते हैं - लेकिन कुछ अधिक आश्चर्य की बात थी।

डैन कहते हैं, "हमें लगा कि जनसंख्या, भूमि क्षेत्र नहीं, महत्वपूर्ण होगा।" वे अनिश्चित हैं कि भौगोलिक क्षेत्र ऐतिहासिक डेटा को अधिक निकटता से क्यों समाप्त कर रहा है, लेकिन ऐसा इसलिए हो सकता है क्योंकि कुछ उच्च जनसंख्या वाले देश शीतकालीन पदक नहीं जीतते (जैसे भारत और ब्राजील) डेटा को फेंक देते हैं। इसके बजाय भूमि क्षेत्र का उपयोग करने से, मॉडल इन देशों के बाहरी प्रभाव से बचा जाता है, लेकिन फिर भी आबादी के साथ एक मोटा संबंध बनाए रखता है, क्योंकि कुल मिलाकर, बड़े क्षेत्रों वाले देशों में बड़ी आबादी होती है।

बेशक, ऐतिहासिक डेटा के मिलान में भी मॉडल सही नहीं है। "हमारा दृष्टिकोण 30, 000-फुट का दृष्टिकोण है। ऐसे चर हैं जिनका हम हिसाब नहीं कर सकते हैं, " टिम कहते हैं। कुछ देशों ने बार-बार मॉडल की भविष्यवाणियों (दक्षिण कोरिया सहित, जो शॉर्ट-ट्रैक स्पीड स्केटिंग घटनाओं की एक विषम राशि जीतते हैं) को बेहतर बनाया है, जबकि अन्य लगातार अंडरपरफॉर्म करते हैं (जैसे कि यूके, जो गर्मियों में बेहतर प्रदर्शन करना चाहते हैं, जो अपेक्षित होगा, शायद इसलिए - अपने अक्षांश के बावजूद-यह बर्फ से कहीं अधिक बारिश पाता है)।

इसके अतिरिक्त, मॉडल की भविष्यवाणियों के लिए उन्हें मिला एक सुसंगत अपवाद यह है कि मेजबान देश केवल डेटा पर आधारित अन्यथा की तुलना में अधिक पदक प्राप्त करता है। दोनों इटली (2006 ट्यूरिन गेम के दौरान) और कनाडा (2010 वैंकूवर खेलों के दौरान) ने मॉडल का प्रदर्शन किया, जिसमें कनाडा ने 14 स्वर्ण जीतने में अपना सर्वकालिक रिकॉर्ड स्थापित किया।

फिर भी, उनके सांख्यिकीय-कठोर दृष्टिकोण के आधार पर, ग्राटिंगर्स को भरोसा है कि कुल मिलाकर, उनका मॉडल अपेक्षाकृत उच्च स्तर की सटीकता के साथ अंतिम पदक की गणना करेगा।

उनकी भविष्यवाणियों की तुलना उन विशेषज्ञों से कैसे की जाती है जो अधिक पारंपरिक रणनीतियों का उपयोग करते हैं? विशेषज्ञ नाटकीय रूप से भिन्न नहीं होते हैं, लेकिन उनके पास कुछ पारंपरिक रूप से सफल देश (नॉर्वे, कनाडा, रूस) हैं, जिन्होंने कुछ अन्य (चीन, नीदरलैंड, ऑस्ट्रेलिया) के साथ-साथ कुछ पदक जीते।

आज तक, ग्रेडिंगर्स ने अपनी भविष्यवाणियों पर कोई दांव नहीं लगाया है, लेकिन वे अपने मॉडल के आउटपुट की तुलना सट्टेबाजी की बाधाओं से पहले की तुलना में करते हैं। यदि उन्हें कोई ऐसी विसंगतियां दिखती हैं, जिनका वे दोहन करना चाहते हैं, तो वे अपना पैसा वहीं लगा सकते हैं, जहां उनका मुंह है।

क्या एक सांख्यिकीय मॉडल सटीक रूप से ओलंपिक पदक की भविष्यवाणी कर सकता है?