https://frosthead.com

सॉफ्टवेयर एक चित्र बनाता है जो यह सब कहता है

हर दिन, उपयोगकर्ता 350 मिलियन से अधिक तस्वीरें फेसबुक पर अपलोड करते हैं। छवियों के इस प्रवाह ने विश्लेषकों का अनुमान लगाया है कि दुनिया की 3.5 ट्रिलियन तस्वीरों में से 10 प्रतिशत पिछले वर्ष में ली गई हैं। वेब को बाढ़ने वाले सभी डेटा का मतलब है कि यदि आप किसी विशेष छवि या वस्तु की तलाश कर रहे हैं - तो नारंगी टैबी कैट की तरह क्या दिखता है, उदाहरण के लिए - आप खोज परिणामों के साथ सकारात्मक रूप से बाढ़ गए हैं।

पिछले महीने, कैलिफोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं ने नए सॉफ्टवेयर, एवरएक्सप्लियर का अनावरण किया, जो उपयोगकर्ताओं को "औसत" छवि को देखने की अनुमति देगा जो वे देख रहे हैं। एक हजार शब्दों के चित्र के बजाय, यह एक हजार या अधिक चित्रों के लायक चित्र है।

"जब आप एक Google छवि खोज दर्ज करते हैं, तो आप पृष्ठों और चित्रों के पन्नों के माध्यम से जा रहे होंगे, " जून-यान झू, यूसी बर्कले स्नातक छात्र और कागज के प्रमुख लेखक बताते हैं, इस साल के अंतर्राष्ट्रीय सम्मेलन और कंप्यूटर ग्राफिक्स पर प्रदर्शनी में प्रस्तुत किया गया है और वैंकूवर में इंटरएक्टिव तकनीक। “यह संक्षेप में विशाल और कठिन है; आप समझ नहीं पा रहे हैं कि क्या हो रहा है। ”

अपनी शुरुआती पेशकश के लिए, झू और उनकी टीम ने फ़्लिकर, Google और बिंग छवि खोजों के माध्यम से तस्वीरें एकत्र कीं। सॉफ्टवेयर एक डेस्कटॉप पर चलने के लिए कम-शक्ति पर्याप्त है और एक साथ कुछ 10, 000 छवियों को क्रंच कर सकता है।

उपयोगकर्ता कुछ अलग तरीके से अपनी खोजों को परिष्कृत करते हैं। वे अपने औसत-छवि परिणाम को तेज करने के लिए एडोब फोटोशॉप या इलस्ट्रेटर में ड्राइंग के समान एक आकार को स्केच और रंग कर सकते हैं। उदाहरण के लिए, एफिल टॉवर की एक औसत छवि की पृष्ठभूमि को रंगना, रात में लिए गए केवल शॉट्स को खींचने के लिए औसत छवि का चयन करेगा। या, आप समग्र में एक तितली के उन्मुखीकरण को नियंत्रित करने के लिए कोणित रेखाएं खींच सकते हैं।

आहों का पुल, दिन से रात तक ब्रिज ऑफ़ सिघ्स की एक एग्ज़ेम्प्लायर छवि में रंगों को परिष्कृत करके, आप दिन से रात को दृश्य बदल सकते हैं। (सौजन्य यूसी बर्कले)

एक बार एक औसत छवि बनने के बाद, एक प्रक्रिया जो एक मिनट तक हो सकती है, उपयोगकर्ता टीम को एक्सप्लोरर मोड का उपयोग करके परिणाम को और अधिक परिष्कृत कर सकते हैं। इस मोड में, एक छवि के एक निश्चित भाग पर क्लिक करते हुए - कहते हैं, एक बिल्ली की नाक - उस स्थान के लिए अन्य सामान्य विकल्पों या शोधन को प्रकट करेगी - शायद नीली या काली नाक, या वे जो कोणीय के बजाय गोल हैं। उदाहरण के लिए, एक डेमो वीडियो में, टीम ने केवल उन छवियों के लिए चयन करके सांता की गोद में बच्चों की एक छवि को परिष्कृत किया जहां सांता के प्रत्येक हाथ में एक बच्चा है।

जहां सिस्टम विशेष रूप से शक्तिशाली हो जाएगा, झू कहते हैं, कंप्यूटर-विज़ुअल एल्गोरिदम को प्रशिक्षित करने के लिए एक उपकरण के रूप में है, जैसे कि गूगल गॉगल्स या अमेज़ॅन फायरफ्लाय ऐप द्वारा नियोजित किए गए, जो यह पहचान सकते हैं कि कैमरा किस ओर इशारा कर रहा है। "कंप्यूटर दृष्टि के क्षेत्र में, लोग वस्तुओं का अनावरण करने के लिए बहुत पैसा खर्च करते हैं, " वे बताते हैं। “अब आप एनोटेशन को औसत छवि पर लागू कर सकते हैं। यह विचार है कि आपको डेटा सेट में सभी छवियों को प्रचारित करने के लिए केवल एक छवि पर काम करने की आवश्यकता है। ”

बिल्ली की नस्लों का पता लगाना खोज परिणाम के तरीकों को परिष्कृत करके, शोधकर्ता बिल्ली की विशिष्ट नस्लों को खोज सकते हैं, जिनमें (बाएं से दाएं) रैगडोल, स्यामिस, मेन कोन और स्फिंक्स शामिल हैं। (सौजन्य यूसी बर्कले)

कलाकृति बनाना एवरएक्सप्लर के लिए कम लटका हुआ फल है। टीम ने जेसन सलावोन जैसे नए मीडिया कलाकारों से प्रेरणा ली, जिन्होंने श्रमसाध्य रूप से औसतन तस्वीरें बनाई हैं। इसका उपयोग फेसबुक प्लग-इन बनाने के लिए भी किया जा सकता है, जिससे उपयोगकर्ता स्वयं की औसत छवि के साथ छेड़छाड़ कर सकते हैं।

शोधकर्ताओं की आकांक्षाएं और भी अधिक व्यापक और प्रभावशाली हैं। समाजशास्त्री सामाजिक रुझानों को हाजिर और शोध करने के लिए प्रणाली का उपयोग कर सकते हैं; उदाहरण के लिए, एक औसत छवि यह साबित कर सकती है कि दुल्हन अक्सर शादी के चित्रों में दूल्हे के दाईं ओर खड़ी होती है। एवरएक्सप्लॉयर भी मीडिया के विश्लेषकों के लिए एक उपयोगी उपकरण हो सकता है जो टेलीविज़न कवरेज को भंग करने की कोशिश कर रहा है - क्या वह स्टीफन कोलबर्ट के आसन को बदलता है जब वह जॉर्ज डब्ल्यू बुश बनाम बराक ओबामा के बारे में बात कर रहा है?

उपयोगकर्ताओं को कीवर्ड के सही स्ट्रिंग में प्रवेश करने के लिए संघर्ष करने के बजाय दृश्य डेटा के साथ सहज रूप से बातचीत करने की अनुमति देकर, उपयोगकर्ता झू के सलाहकार और एवरएक्सप्लॉयर सह-निर्माता, अलेक्सई एफ्रोस को "भाषा की अड़चन" कहते हैं, पा सकते हैं।

टीम विशिष्ट, हार्ड-टू-आर्टिकुलेट कार्यों के लिए डिज़ाइन किए गए कस्टम टूल के एक सूट की कल्पना करती है। उदाहरण के लिए, एक खरीदारी एप्लिकेशन, उपयोगकर्ता को सटीक रंग, एड़ी के आकार और ऊँचाई के साथ ऊँची एड़ी के जूते की एक जोड़ी के लिए वेब को मकड़ी करने की अनुमति देगा। झू एक उपकरण को प्रस्तुत करता है जो पुलिस स्केच कलाकारों के वर्कफ़्लो के साथ एकीकृत होता है, जो गवाह को अपराधियों से मेल खाने वाली सुविधाओं के लिए चेहरे के डेटाबेस को खोजने की अनुमति देता है और एक समग्र चित्र का निर्माण करता है।

एवरएक्सप्लायर का एक मूल संस्करण इस गिरावट को जारी करेगा।

सॉफ्टवेयर एक चित्र बनाता है जो यह सब कहता है