2008 में, Google ने Google Flu Trends नामक एक नई सेवा की घोषणा की। कंपनी के इंजीनियरों ने पाया था कि कुछ खोज क्वेरी (जैसे कि "बुखार" या खाँसी "जैसे शब्द) प्रत्येक फ्लू के मौसम में फैलते थे। उनका विचार इन खोजों की आवृत्ति का उपयोग करके राष्ट्रव्यापी फ्लू दरों की गणना करने की तुलना में तेजी से हो सकता था। पारंपरिक डेटा के साथ किया जाता है (जो आमतौर पर इकट्ठा करने और विश्लेषण करने में कुछ सप्ताह लगते हैं), जिससे लोगों को पता चलता है कि वायरस से बचने के लिए अतिरिक्त सावधानी कब बरतनी चाहिए।
संबंधित सामग्री
- कैसे मौसम मॉडल और Google फ़्लू सीज़न का पूर्वानुमान लगाने में मदद कर सकता है
- बिग डेटा या बहुत अधिक जानकारी?
मीडिया आउटलेट्स (इस रिपोर्टर को शामिल किया गया) बड़े डेटा के ऐसे व्यावहारिक, अभिनव और विघटनकारी उपयोग पर Google को बधाई देने के लिए पहुंचे। एकमात्र समस्या? Google Flu Trends ने बहुत अच्छा प्रदर्शन नहीं किया है।
सीडीसी द्वारा बाद में एकत्र किए गए पारंपरिक आंकड़ों की तुलना में, सेवा ने लगातार फ्लू दर को कम कर दिया है, यह अनुमान लगाते हैं कि फ्लू की घटना वास्तव में अगस्त 2011 और सितंबर 2013 के बीच 108 सप्ताह में 100 से अधिक थी। जनवरी 2013 में, जब राष्ट्रीय फ़्लू की दर चरम पर थी लेकिन Google फ़्लू रुझान का अनुमान वास्तविक डेटा से दोगुना था, इसकी अशुद्धि ने अंततः प्रेस कवरेज को शुरू किया।
विसंगति के लिए सबसे आम स्पष्टीकरण यह है कि Google ने फ़्लू से संबंधित प्रश्नों में उठाव को ध्यान में नहीं रखा है जो कि मीडिया-संचालित फ़्लू हिस्टीरिया के परिणामस्वरूप होता है जो हर सर्दी में होता है। लेकिन इस सप्ताह विज्ञान में, डेविड लेज़र के नेतृत्व में सामाजिक वैज्ञानिकों के एक समूह ने एक वैकल्पिक स्पष्टीकरण का प्रस्ताव दिया: कि Google के स्वयं के खोज एल्गोरिदम के लिए ट्वीक को दोष देना है।
Google फ़्लू रुझानों का विश्लेषण करने के लिए बाहरी लोगों के लिए यह कठिन है, क्योंकि कंपनी उन विशिष्ट खोज शब्दों को सार्वजनिक नहीं करती है जो कच्चे डेटा के रूप में उपयोग करते हैं, या विशेष एल्गोरिथ्म इन शर्तों की आवृत्ति को फ़्लू आकलन में परिवर्तित करने के लिए उपयोग करता है। लेकिन शोधकर्ताओं ने Google Correlate का उपयोग करके शर्तों को समझने की पूरी कोशिश की, एक ऐसी सेवा जो आपको समय के साथ विशेष खोज शब्दों की दरों को देखने की अनुमति देती है।
जब शोधकर्ताओं ने पिछले कुछ वर्षों में विभिन्न प्रकार के फ्लू से संबंधित प्रश्नों के लिए ऐसा किया, तो उन्होंने पाया कि कुछ प्रमुख खोजों (फ्लू के उपचार के लिए, और यह पूछते हैं कि फ्लू से फ्लू को कैसे अलग करना है) ने Google फ़्लू के साथ अधिक निकटता से नज़र रखी। वास्तविक फ्लू दरों की तुलना में रुझानों का अनुमान, खासकर जब Google ने बीमारी की व्यापकता को कम करके आंका था। यह विशेष रूप से खोज, ऐसा लगता है, अशुद्धि समस्या का एक बड़ा हिस्सा हो सकता है।
इस मामले में संदेह करने का एक और अच्छा कारण है। 2011 में, अपने नियमित खोज एल्गोरिथम में से एक के रूप में, Google ने कई प्रश्नों के लिए संबंधित खोज शब्दों की सिफारिश करना शुरू कर दिया (जिसमें किसी फ्लू से संबंधित शर्तों के बाद किसी व्यक्ति को फ्लू के उपचार के लिए खोज सूचीबद्ध करना शामिल है) और 2012 में, कंपनी ने संभावित निदान प्रदान करना शुरू किया। खोजों में लक्षणों के जवाब में ("फ्लू" और "ठंड" दोनों को सूचीबद्ध करने के बाद, जिसमें खोज के बाद "गले में खराश" शामिल है, उदाहरण के लिए, शायद उपयोगकर्ता को दोनों के बीच अंतर करने के लिए खोज करने के लिए प्रेरित करना)। शोधकर्ताओं का तर्क है कि, कृत्रिम रूप से Google के overestimates के लिए जिम्मेदार खोजों की दरों को कृत्रिम रूप से हटा दिया जाता है।
बेशक, अगर यह परिकल्पना सच थी, तो इसका मतलब यह नहीं होगा कि Google फ़्लू ट्रेंड्स अनिवार्य रूप से अशुद्धि के लिए बर्बाद है, बस इसे खोज इंजन के निरंतर परिवर्तनों को ध्यान में रखने के लिए अपडेट करने की आवश्यकता है। लेकिन लेज़र और अन्य रिसरचर्स का तर्क है कि बड़े डेटा से फ्लू को ट्रैक करना एक विशेष रूप से कठिन समस्या है।
खोज शर्तों का एक बड़ा हिस्सा जो सीडीसी डेटा के साथ फ्लू दरों पर सहसंबंधित है, यह पता चला है, लोगों को फ्लू नहीं होने के कारण होता है, लेकिन एक तीसरा कारक जो खोज पैटर्न और फ्लू संचरण दोनों को प्रभावित करता है: सर्दी। वास्तव में, Google फ़्लू ट्रेंड के डेवलपर्स ने विशेष रूप से आने की सूचना दी - उदाहरण के लिए हाई स्कूल बास्केटबॉल से संबंधित, जो कि समय के साथ फ़्लू की दरों से संबंधित थे, लेकिन स्पष्ट रूप से वायरस से कोई लेना-देना नहीं था।
समय के साथ, Google इंजीनियरों ने फ़्लू खोजों के साथ संबंध रखने वाले कई शब्दों को मैन्युअल रूप से हटा दिया, लेकिन फ़्लू से कोई लेना-देना नहीं है, लेकिन उनका मॉडल स्पष्ट रूप से अभी भी नॉन-फ़्लू मौसमी खोज रुझानों पर निर्भर था - इस कारण से कि Google फ़्लू रुझान प्रतिबिंबित करने में विफल रहे। H1N1 की 2009 की महामारी, जो गर्मियों के दौरान हुई थी। विशेष रूप से इसके पहले संस्करणों में, Google फ़्लू रुझान "पार्ट फ़्ल डिटेक्टर, पार्ट विंटर डिटेक्टर" था, जो साइंस पेपर के लेखक लिखते हैं।
शोधकर्ताओं का कहना है कि यह सब गूगल फ्लू ट्रेंड जैसी परियोजनाओं में बड़े डेटा के इस्तेमाल के लिए एक सबक हो सकता है, बजाय इसके कि यह एक अभियोग है। यदि Google के स्वयं के एल्गोरिथ्म को ट्वीक खाते में लेने के लिए ठीक से अपडेट किया गया है, और विशुद्ध रूप से मौसमी कारकों को हटाने के लिए कड़ाई से विश्लेषण किया गया है, तो यह राष्ट्रव्यापी फ्लू दरों का दस्तावेजीकरण करने में उपयोगी हो सकता है- खासकर जब पारंपरिक डेटा के साथ संयुक्त।
एक परीक्षण के रूप में, शोधकर्ताओं ने एक मॉडल बनाया जो दो सप्ताह पुराने सीडीसी डेटा (जो दिनांकित है, के साथ Google फ़्लू रुझान डेटा (जो अनिवार्य रूप से वास्तविक समय है, लेकिन संभावित रूप से गलत है) को संयोजित करता है, क्योंकि इसे इकट्ठा करने में समय लगता है, लेकिन अभी भी हो सकता है वर्तमान फ्लू दरों के कुछ संकेत)। उनके हाइब्रिड ने अकेले Google फ़्लू ट्रेंड्स की तुलना में वास्तविक और वर्तमान फ़्लू डेटा का अधिक निकटता से मिलान किया, और पारंपरिक डेटा के लिए दो हफ़्ते की प्रतीक्षा की तुलना में इस जानकारी को बहुत तेज़ी से प्राप्त करने का एक तरीका प्रस्तुत किया।
ह्यूस्टन के राजनीति विज्ञान के प्रोफेसर और सह-लेखक, रयान कैनेडी ने एक बयान में कहा, "Google फ़्लू के हमारे विश्लेषण से पता चलता है कि दोनों स्रोतों से सूचना और तकनीक के संयोजन से सबसे अच्छे परिणाम मिलते हैं।" "बड़ी डेटा क्रांति के बारे में बात करने के बजाय, हमें 'सभी डेटा क्रांति' पर चर्चा करनी चाहिए।"