Google की सभी जानकारी के पीछे-पीछे यह पता लगाना कि कौन से खोज परिणाम सबसे महत्वपूर्ण हैं, पढ़ने और अपने ईमेल पर नज़र रखने के लिए — कुछ दिलचस्प गणित है। और हाल ही में एक सॉफ्टवेयर इंजीनियर जेवियर टॉर्डेबल ने इस पर एक प्रेजेंटेशन किया था, जो सिर्फ एक दरार के रूप में geeky Google की दुनिया में एक खिड़की खोल रहा था।
जीमेल से शुरू करते हैं। कभी-कभी आपको स्पैम मेल मिलता है, लेकिन जीमेल यह पता लगाने में बहुत अच्छा है कि, जब एक संवाददाता आपको नाइजीरियाई राजकुमार में निवेश करने की कोशिश कर रहा है, तो आप शायद मेल के उस टुकड़े को अपने इनबॉक्स में नहीं चाहते हैं। यह कैसे पता चलता है? एक कदम: मशीन को प्रशिक्षित करें। चरण दो: इसे काम पर रखें।
इसे मशीन लर्निंग कहा जाता है, और Google इसका एक टन कर रहा है। चरण एक में, आपको यह करना होगा कि कंप्यूटर वैज्ञानिक "उदाहरण के लिए विशेषता" क्या कहते हैं। गणित में बोलते हैं कि इसका मतलब है:
सामान्य तौर पर, एक उदाहरण की विशेषताओं को बड़े n के लिए ndimensional euclidean स्थान के वेक्टर में तत्व माना जा सकता है (100-1000 आयाम सामान्य है, 1M-10M अनसुना नहीं है)
लेकिन यहाँ कैसे इसके बारे में सोचना है अगर आपने Calc 1. के बाद गणित रोक दिया है तो Gmail किसी विशेष ईमेल से कुछ महत्वपूर्ण जानकारी के टुकड़े खींच सकता है। कितना लंबा है ये? कितने बड़े अक्षर हैं? क्या यह किसी ऐसे व्यक्ति से है जिसे आपने पहले कोई ईमेल प्राप्त किया है? आप यह नहीं चाहते कि निर्णय लेने या उससे निपटने के लिए निर्णय लेने के लिए आवश्यक जानकारी आवश्यक हो, क्योंकि यह आपकी मशीन की सटीकता को धीमा और कम कर देगा। इसलिए Google स्पैम के बारे में जो भी जानता है, उसके आधार पर एक रेखा खींचता है। ईमेल जो लाइन के एक तरफ गिरते हैं, और दूसरे पर स्पैममी वाले होते हैं।
अधिक गणित बोलते हैं:
एक साधारण वर्गीकरण मॉडल विशेषताओं के स्थान में एक हाइपरप्लेन है। हाइपरप्लेन के एक तरफ के डेटा इंस्टेंस को वैध ईमेल के रूप में वर्गीकृत किया जाता है और दूसरी तरफ के उदाहरणों को स्पैम के रूप में वर्गीकृत किया जाता है।
आवाज की खोज के बारे में क्या है - जिसे स्वचालित भाषण पहचान या ASR भी कहा जाता है? मशीन लर्निंग की तरह, ASR दो भागों में होता है: आने वाली ध्वनि को संसाधित करना और जो आप कह रहे हैं उसका अनुमान लगाना। पहले भाग में फूरियर रूपांतरण शामिल है, जो महत्वपूर्ण बिट्स को अलग करता है जो कंप्यूटर अनुवाद कर सकता है। दूसरा भाग भाषण का उपयोग करते हुए मॉडलिंग करता है जिसे "छिपे हुए मार्कोव मॉडल" कहा जाता है।
इस मॉडल में राज्य संदेश के अक्षर हैं और घटनाओं का क्रम ध्वनि संकेत है। Viterbi एल्गोरिथ्म का उपयोग अधिकतम संभावना वाले राज्यों के अनुक्रम को प्राप्त करने के लिए किया जा सकता है।
Google आवाज पहचान को बेहतर और आसान बनाना पसंद करेगा। इस मामले के अध्ययन में, Google के एक समूह ने लिखा है:
Google पर एक लक्ष्य है कि बोलचाल को सर्वव्यापी रूप से उपलब्ध कराया जाए। हम उपयोगकर्ता को चुनने देना चाहते हैं - उन्हें यह सुनिश्चित करने में सक्षम होना चाहिए कि बोली जाने वाली बातचीत हमेशा एक विकल्प है। सर्वव्यापकता को प्राप्त करने के लिए दो चीजों की आवश्यकता होती है: उपलब्धता (यानी, हर संभव बातचीत में निर्मित जहां भाषण इनपुट या आउटपुट समझ में आता है), और प्रदर्शन (यानी, इतनी अच्छी तरह से काम करता है कि विनियामक बातचीत में कोई घर्षण नहीं जोड़ता है)।
एक अन्य क्षेत्र जहां Google गणित का उपयोग करता है, अपने मानचित्रों में- हाल ही में जब Apple ने अपने मानचित्रण प्रणाली की शुरुआत की तब काफी आलोचना हुई थी। Google मैप्स के केंद्र में मूल ग्राफ सिद्धांत है- सबसे कम दूरी की यात्रा करते समय एक स्थान से दूसरे स्थान पर जाने का गणित। लेकिन, ज़ाहिर है, यह उससे कहीं अधिक जटिल है। टोर्डेबल लिखते हैं, "एक अनोखी समस्या यह है कि Google मानचित्र में उपयोग किए जाने वाले ग्राफ़ में लाखों नोड्स होते हैं, लेकिन एल्गोरिदम को मिलीसेकंड में चलना होता है।"
Google हमें यह नहीं बताएगा कि वे ऐसा कैसे करते हैं। अन्यथा Apple अपनी समस्या में भाग नहीं होता, लेकिन मूल बातें में शामिल है Dijsktra के एल्गोरिथ्म (शायद सबसे अधिक इस्तेमाल किया जाने वाला ग्राफ़ खोज एल्गोरिथम)। कुछ साल पहले, कार्लज़ूए विश्वविद्यालय के कंप्यूटर वैज्ञानिकों ने बहुत तेज़ी से परिणाम प्राप्त करने के लिए पथ प्रश्नों को रैंक करने का एक नया तरीका बताया। उन्होंने लिखा:
हमारे एल्गोरिथ्म रैखिक स्थान का उपयोग करके कुछ घंटों में यूएसए या पश्चिमी यूरोप के नक्शे के लिए आवश्यक आठ अंकों की संख्या को पूर्वनिर्मित करता है। सबसे छोटा (यानी सबसे तेज़) पथ क्वेरी फिर सटीक लघु पथ बनाने के लिए लगभग आठ मिलीसेकंड लेती है। यह दिज्क्स्ट्रा के एल्गोरिथ्म का उपयोग करने से लगभग 2, 000 गुना तेज है।
Tordable Google द्वारा उपयोग किए जाने वाले कई अन्य गणितीय उपकरणों से गुजरता है, जिनमें Google पुस्तकें, छवि खोज, विश्लेषण, YouTube, Google अनुवाद, Google धरती और पिकासा शामिल हैं। आप स्लाइड्स का पूरा सेट यहां देख सकते हैं।
Smithsonian.com से अधिक:
स्मिथसोनियन गूगल मैप्ड हो जाता है
Google पुस्तक के साथ खाद्य रुझान ट्रैक करें