https://frosthead.com

मशीनों से बात हो रही है

आवाज पहचान सॉफ्टवेयर, हम में से ज्यादातर शायद सहमत होंगे, एक बहुत अच्छी बात है। लेकिन मशीनों की बात हो रही है-यह स्मार्टफोन, टीवी स्क्रीन या डैशबोर्ड-अच्छी तरह से, इतना नहीं है। डिवाइस की सलाह पूछ रहे हैं? गीक के गाल। प्रत्येक शब्द को याद करते हुए ताकि आपको समझा जा सके? आप वास्तव में कितने शांत हो सकते हैं?

लेकिन Apple, जो कि सच है, ने iPhone 4S की आवाज सिरी के लिए अपने नवीनतम विज्ञापन अभियान में स्टार के कूल के तीन आइकन हायर करके इस सिर को लिया है। वहाँ Zooey Deschanel (आराध्य कूल) और जॉन मल्कोविच (सेरेब्रल कूल) और सैमुअल एल जैक्सन (अल्टिमेट कूल) हैं, और सभी एक फोन के साथ वर्डप्ले में उलझे हुए हैं जो देवताओं का खेल लगता है।

आलोचक, फिर भी, यह बताते हैं कि वास्तविक जीवन में, सिरी न तो उत्तरदायी है और न ही सभी जानते हुए भी कि वह विज्ञापनों में चित्रित की गई है। आप भी, मुझे यकीन है, यह सुनकर चौंक गए। अन्य लोग पूरी चीज़ को पैरोडी के लिए पकाते देखते हैं - ज़ू के भाई जूई को ज़ू के और सिरी के बरसात के एक मज़ेदार या डाई संस्करण को एक साथ देखते हैं।

कोई बात नहीं। सिरी रोबोट कोरस में एक नई पीढ़ी की आवाज "यू गॉट मेल" के प्रमुख गायक बन गए हैं।

यह कुछ हलकों में फैशनेबल है कि सिरी स्टीव जॉब्स के योग्य नहीं है, कि अगर वह अभी भी जीवित थे, तो जॉब्स ने इसे बाजार से हटा दिया होगा या बहुत कम से कम, कभी भी इस तरह के हाई-प्रोफाइल विज्ञापन को मंजूरी नहीं दी होगी। एक उत्पाद को त्रुटिपूर्ण बनाने के लिए अभियान।

लेकिन जॉब्स के उत्तराधिकारी, टिम कुक के रूप में, इस सप्ताह की शुरुआत में, सिरी जैसे iPhone 4S के मालिक थे। मार्च में जारी एक सर्वेक्षण के अनुसार, लगभग 90 प्रतिशत कहते हैं कि वे महीने में कम से कम एक बार इसका उपयोग करते हैं। और यह ध्यान रखें कि सिरी, Apple के बहुत कम उत्पादों में से एक है जब इसे जारी किया गया था, तो यह अक्टूबर तक अपना पहला जन्मदिन नहीं मनाएगा। वह अभी भी भाषा सीख रही है और इससे भी महत्वपूर्ण बात, सिर्फ कृत्रिम बुद्धिमत्ता की क्षमता का दोहन करना।

सिरी संभवतः ऐप्पल टीवी का एक केंद्रबिंदु होगा, जो दिसंबर में अपनी शुरुआत करने की उम्मीद है। लेकिन संभावना है कि मशीनों से बात करने की जगह हमारी कारों में मुख्य धारा होगी।

ड्राइव, उसने कहा

निश्चित रूप से, यह पहले से ही हो रहा है, लेकिन आपको अभी भी रोबोट के लिए स्विच करना है अगर आप समझना चाहते हैं। और तब भी कोई गारंटी नहीं है। यह इस गर्मी को बदलना शुरू कर देगा जब कुछ नए मॉडल ड्रैगन ड्राइव नामक कुछ से लैस होंगे!

यह मैसाचुसेट्स स्थित कंपनी नुअंस कम्युनिकेशंस का आविष्कार है जो आवाज पहचान के व्यवसाय में एक बिजलीघर बन गया है। (यह व्यापक रूप से सिरी के पीछे दिमाग माना जाता है।) कारों में नूंस और आवाज की पहचान ने पिछले हफ्ते एक बड़ी छलांग ली जब फर्म ने घोषणा की कि ड्रैगन ड्राइव! बादल में टैप करने में सक्षम होगा।

इसका मतलब यह है कि सिस्टम अपनी कंप्यूटिंग शक्ति और मेमोरी क्षमता में नाटकीय रूप से वृद्धि करेगा। और इसका मतलब है कि आपके डैशबोर्ड में आवाज अधिक सिरी-जैसी हो जाएगी और आपको वास्तव में इसके साथ जुड़ने की अनुमति देगा। कोई और अधिक मोनोसिलैबिक चिल्लाना नहीं। वह दिन आ रहा है जब आप आकस्मिक रूप से उल्लेख कर पाएंगे कि आपको कुछ अल्लमैन ब्रदर्स और सेकंड के बाद ऐसा लगता है कि "व्हिपिंग पोस्ट" वक्ताओं के माध्यम से पंपिंग आएगी।

कुंजी यह है कि हम मशीनों को संदर्भ और व्यावहारिकता सिखाने में सक्षम हैं - सामाजिक स्थितियों में भाषा का उपयोग कैसे किया जाता है। और यह मुश्किल व्यवसाय है। शुरुआत के लिए, यहां तक ​​कि सबसे परिष्कृत आवाज मान्यता डिवाइस को बोलने के लिए मानव को इंतजार करने की आवश्यकता होती है, ताकि यह पूरे वाक्य को पार्स और व्याख्या करने में सक्षम हो। फिर "मन का सिद्धांत" है, यह समझने की क्षमता है कि अन्य लोगों में हमारे स्वयं की तुलना में अलग-अलग विश्वास और इरादे हो सकते हैं। जहाँ तक हम जानते हैं, केवल मनुष्य ही ऐसा कर सकते हैं।

दो स्टैनफोर्ड मनोवैज्ञानिकों द्वारा हाल ही में किए गए एक अध्ययन से आपको इस बात का अहसास हो सकता है कि मशीनों को इंट्रूव करने में क्या शामिल है। शोधकर्ता माइकल फ्रैंक और नोआ गुडमैन ने एक ऑनलाइन प्रयोग किया, जिसमें प्रतिभागियों को वस्तुओं के एक सेट को देखने के लिए कहा गया और फिर एक विशेष शब्द होने के लिए चयन किया गया। उदाहरण के लिए, प्रतिभागियों के एक समूह ने एक नीले वर्ग, एक नीले वृत्त और एक लाल वर्ग को देखा। उस समूह के लिए प्रश्न यह था: कल्पना कीजिए कि आप किसी से बात कर रहे हैं और आप मध्य वस्तु को संदर्भित करना चाहते हैं। आप किस शब्द का उपयोग करेंगे, "ब्लू" या "सर्कल"?

दूसरे समूह से पूछा गया था: कल्पना कीजिए कि कोई आपसे बात कर रहा है और इनमें से किसी एक वस्तु को संदर्भित करने के लिए "ब्लू" शब्द का उपयोग करता है। वे किस वस्तु की बात कर रहे हैं?

प्रतिक्रियाओं ने शोधकर्ताओं को एक स्पष्ट तस्वीर प्राप्त करने में मदद की कि एक श्रोता एक वक्ता को कैसे समझता है और एक वक्ता कैसे निर्णय लेता है। उस से, उन्होंने उस गणितीय मॉडल को विकसित किया जो कंप्यूटर की विचार प्रक्रिया का विस्तार और परिष्कार कर सकता है।

फ्रैंक ने कहा: "यह काम करने में वर्षों का समय लगेगा लेकिन सपना एक कंप्यूटर का है जो वास्तव में सोच रहा है कि आप क्या चाहते हैं और आप जो कहते हैं उसके बजाय इसका क्या मतलब है।"

भाषण का एक तरीका

आवाज पहचानने के कुछ और हालिया घटनाक्रम इस प्रकार हैं:

  • सिरी चुप हो जाता है: आईबीएम बाहर निकलने से कॉर्पोरेट रहस्यों के बारे में वास्तविक रूप से घबरा जाता है, इसलिए यह अब अपने कर्मचारियों को ड्रॉपबॉक्स जैसे सार्वजनिक फ़ाइल स्थानांतरण साइटों का उपयोग करने से रोकता है। लेकिन यह कार्यालय में सिरी के उपयोग पर भी प्रतिबंध है क्योंकि सुरक्षा चिंता का विषय है कि कोई व्यक्ति अपने फोन पर बात करते समय, संवेदनशील जानकारी को प्रकट कर सकता है जो कि ऐप्पल के सर्वर पर समाप्त होता है।
  • उस पर ले लो, Apple !: सैमसंग ने इस हफ्ते लंदन में अपना नया गैलेक्सी एक्स III स्मार्टफोन लॉन्च किया, और जबकि इसके बड़े टचस्क्रीन पर बहुत ध्यान दिया जा रहा है, इसमें नई आवाज और चेहरा पहचान सॉफ्टवेयर भी है।
  • मैं जो कहता हूं, वह करो जो मैं नहीं करता हूं: और सैमसंग का वहां रुकना नहीं है। इसने हाल ही में एक रोबोट के लिए पेटेंट आवेदन दायर किया जो मानव भाषण को समझता है। रोबोट अपने "सुनने" की क्षमताओं को समायोजित करने में सक्षम होगा जो परिवेश के शोर को ध्यान में रखता है जो इसे दिए गए आदेशों को बाधित या बाधित कर सकता है। यह पहचानने में भी सक्षम होगा कि यह कौन बोल रहा है, भले ही पृष्ठभूमि शोर बहुत जोर से हो।

इन्फोग्राफिक बोनस: आपको लगता है कि आपकी कार अब कम्प्यूटरीकृत है। रुको जब तक यह पूरी तरह से इंटरनेट में प्लग नहीं है। कनेक्टेड कार क्या कर सकती है, इस बारे में कम जानकारी प्राप्त करें।

मशीनों से बात हो रही है