https://frosthead.com

एक खोज इंजन जो तस्वीरों के साथ आपके चित्र से मेल खाता है वह बहुत दूर नहीं है

कुछ हफ़्ते पहले, मैं एक शॉपिंग मॉल में था जब मैंने देखा कि एक महिला एक रस्सी जैसे स्ट्रैप के साथ एक शानदार हैंडबैग ले जा रही थी। चूँकि मैं एक नई बछिया के लिए बाज़ार में हूँ, मैंने उससे यह पूछने पर विचार किया कि वह कहाँ मिली है। लेकिन इससे पहले कि मैं अपना कदम बढ़ा पाता, वह एक कोने में गायब हो गई। जब मैं घर गया, मैंने बैग को गुग्लिंग करने की कोशिश की। लेकिन मैं कोई फैशनिस्टा नहीं हूं, और मैंने पाया कि जो मैंने देखा है उसका वर्णन करने के लिए मेरे पास शब्दावली नहीं थी। "स्ट्रेचिंग स्ट्रैप वाला लेदर हैंडबैग" सही नहीं था। न तो "रस्सी के हैंडल के साथ पर्स" या "कॉर्ड स्ट्रैप के साथ बैग।" आखिरकार, मैंने हार मान ली।

अब, एक नई तकनीक का उद्देश्य लोगों को उन चीजों की खोज करने में मदद करना है जिन्हें वे शब्दों में वर्णित नहीं कर सकते हैं।

जॉर्जिया इंस्टीट्यूट ऑफ टेक्नोलॉजी के एक कंप्यूटर वैज्ञानिक जेम्स हेज़ ने एक कंप्यूटर प्रोग्राम बनाया है जो तस्वीरों को हाथ से खींची जाने वाली छवियों से मेल खाने में सक्षम है। यह अंततः एक ऐसे कार्यक्रम को जन्म दे सकता है जो इंटरनेट छवि खोज सेवाओं, जैसे कि Google छवियां, को कंघी कर सकता है, और उन तस्वीरों को खोज सकता है जो उपयोगकर्ताओं के चित्र से सटीक रूप से मेल खाती हैं।

"लक्ष्य कहते हैं, किसी भी दिशा में, एक मानव कैन की तरह, फ़ोटो और स्केच को संबंधित या मेल करने में सक्षम होना चाहिए" हेज़ कहते हैं। “एक इंसान बुरी तरह से खींचा हुआ स्केच देख सकता है और यह पता लगा सकता है कि वह किस फोटो से मेल खाता है। हम चाहते हैं कि समान क्षमता कम्प्यूटेशनल रूप से हो। ”

कार्यक्रम बनाने के लिए, हेयस ने अमेज़ॅन मैकेनिकल तुर्क के लगभग 700 श्रमिकों को काम पर रखा, जो एक भीड़-भाड़ वाले बाज़ारस्थल हैं, जो उन लोगों के साथ श्रमिकों से मेल खाते हैं जिन्हें कार्यों की आवश्यकता है। उनकी टीम ने श्रमिकों को साधारण वस्तुओं और जानवरों की तस्वीरें दिखाईं, जैसे कि गिलहरी, चायदानी और केले, उन्हें दो सेकंड के लिए छवि को देखने की अनुमति दी। कार्यकर्ता तब मेमोरी से ऑब्जेक्ट को खींचता था। टीम ने अंततः 12, 500 वस्तुओं के 75, 000 से अधिक रेखाचित्र एकत्र किए। उन्होंने इसे "स्केची डेटाबेस" कहा।

तब कार्यक्रम ने रेखाचित्रों का विश्लेषण किया और उन्हें उस तस्वीर के साथ मिलान किया, जो वे सबसे निकट से मिलते-जुलते थे। तकनीक ने 37 प्रतिशत समय सही फोटो की पहचान की। तुलना में मनुष्य, समय के लगभग 54 प्रतिशत सही थे। जबकि 37 प्रतिशत प्रभावशाली नहीं लग सकता है, यह वास्तव में कंप्यूटर के लिए एक बड़ी छलांग है।

"मनुष्य पहले से ही दृष्टि से बहुत अच्छा है, हम आसानी से छवियों को पहचानते हैं, " हेज़ कहते हैं। "यह वास्तव में आश्चर्यजनक रूप से कठिन कम्प्यूटेशनल है।"

कार्यक्रम को बेहतर बनाने में मुख्य चुनौतियों में से एक यह है कि ज्यादातर लोग बहुत घटिया कलाकार हैं। जैसा कि हेज़ और उनकी टीम ने इस विषय पर एक पेपर में लिखा है, “आकृतियाँ और तराजू विकृत हैं। ऑब्जेक्ट पार्ट्स कैरिकटर्ड (एक हाथी पर बड़े कान), एंथ्रोपोमोर्फिफ़ेड (मकड़ी पर मुस्कुराते हुए मुंह), या सरलीकृत (स्टिक-फिगर अंग) हैं। "

ऐतिहासिक रूप से, रेखाचित्रों को पहचानने के लिए कंप्यूटरों को प्राप्त करने पर किए गए शोध में रेखाचित्रों के वितरण जैसी चीजों पर ध्यान केंद्रित किया गया है, रेखाएँ उस दिशा में जाती हैं जहाँ या रेखाचित्र की सीमाएँ होती हैं। लेकिन चूंकि मानव केवल मनुष्यों के लिए नमकीन होता है (उदाहरण के लिए, आँखें हमेशा स्केच में शामिल होती हैं, भले ही वे अपेक्षाकृत छोटे हों), यह एक कंप्यूटर के लिए "सीखना" महत्वपूर्ण है कि कैसे स्केच समान होते हैं और वे कैसे होते हैं तस्वीरों से अलग हो। इसके लिए, प्रोग्राम दो अलग-अलग नेटवर्क का उपयोग करता है, एक जो स्केच का मूल्यांकन करता है, एक वह जो तस्वीरों का मूल्यांकन करता है। एक बड़े डेटासेट के निरंतर विश्लेषण से, कार्यक्रम लगातार "सीख सकता है।"

Hays और उनकी टीम डेटा को जोड़कर कार्यक्रम में सुधार जारी रखने की योजना बना रही है। कंप्यूटर सीखने में अग्रिमों को भी मैच दर में सुधार करने में मदद करनी चाहिए। अब तक, इस कार्यक्रम में फ़्लिकर सहित इंटरनेट फोटो डेटाबेस के स्केच की तुलना करते समय काफी उच्च मैच दर है, हालांकि यह कहना मुश्किल है, हेज़ कहते हैं।

हैंडबैग की छवि खोज के अलावा मुझे इसकी बहुत आवश्यकता है, कार्यक्रम में कम तुच्छ संभावित उपयोगों की संख्या है। पुलिस संदिग्ध स्केच को स्कैन कर सकती है और उनकी तुलना आपराधिक तस्वीरों के डेटाबेस से कर सकती है। कार्यक्रम का उपयोग ऐसे लोग कर सकते हैं जो किसी भी भाषा में बोलते और लिखते हैं, या बिल्कुल नहीं लिख सकते हैं।

"रेखाचित्रों को समझने का एक लक्ष्य यह है कि वे कुछ हद तक सार्वभौमिक भाषा हैं, " हेज़ कहते हैं। “यह एक विशेष लिखित भाषा से बंधा नहीं है और यह साक्षरता से बिल्कुल भी जुड़ा नहीं है। [इस तरह का एक कार्यक्रम लिखित भाषा के बिना सूचना तक पहुंच बना सकता है।]

कार्यक्रम का उपयोग कलात्मक रूप से भी किया जा सकता है, रेखाचित्रों से फोटोरिअलिस्टिक दृश्यों को बनाने के लिए। हमेशा चाँद पर एक महल में रहने की कल्पना की? इसे ड्रा करें, और कार्यक्रम एक दिन अन्य छवियों के टुकड़ों को एक साथ सिलाई करके आपके लिए एक फोटो छवि बना सकता है।

हैस और उनकी टीम द्वारा एकत्र की गई जानकारी कुछ तंत्रिका विज्ञान और मनोविज्ञान के सवालों को हल करने में मदद कर सकती है, हेस कहते हैं।

"ये स्केच-फोटो जोड़े मानव धारणा के बारे में कुछ कह रहे हैं, हम जो सोचते हैं उसके बारे में नमकीन है, छवियों के कौन से हिस्से हमारा ध्यान आकर्षित करते हैं, " हेस कहते हैं। “कुछ मायनों में, यह डेटाबेस इस सुंदर अच्छी तरह से एन्कोड करता है। अगर आप खुद इंसानों के बारे में कुछ कहना चाहते हैं, तो इससे कुछ छेड़ा जा सकता है। ”

एक खोज इंजन जो तस्वीरों के साथ आपके चित्र से मेल खाता है वह बहुत दूर नहीं है