https://frosthead.com

आर्टिफिशियल इंटेलिजेंस कैसे आर्काइव म्यूजियम रिसर्च में क्रांति ला सकता है

जब आप कृत्रिम बुद्धिमत्ता के बारे में सोचते हैं, तो वनस्पति विज्ञान का क्षेत्र संभवतः आपके दिमाग में नहीं है। जब आप अत्याधुनिक कम्प्यूटेशनल अनुसंधान के लिए सेटिंग्स सेट करते हैं, तो शताब्दी-पुराने संग्रहालयों की सूची में शीर्ष नहीं हो सकता है। और फिर भी, जैव विविधता डेटा जर्नल में एक प्रकाशित लेख से पता चलता है कि मशीन लर्निंग में सबसे रोमांचक और चित्रण नवाचार में से कुछ वाशिंगटन, डीसी में नेशनल म्यूजियम ऑफ नेचुरल हिस्ट्री के नेशनल हर्बेरियम के अलावा नहीं है।

कागज, जो दर्शाता है कि डिजिटल तंत्रिका नेटवर्क 90 प्रतिशत से अधिक सटीकता के साथ पौधों के दो समान परिवारों के बीच अंतर करने में सक्षम हैं, का अर्थ है वैज्ञानिकों और शिक्षाविदों के लिए सभी प्रकार के मुंह-पानी की संभावनाएं। अध्ययन "गहरी शिक्षा" एल्गोरिदम में ग्राउंड किए गए सॉफ़्टवेयर पर निर्भर करता है, जो कंप्यूटर प्रोग्राम को उसी तरह से अनुभव प्राप्त करने की अनुमति देते हैं, जिस तरह से मानव विशेषज्ञ अपने खेल को चलाते समय हर बार यूपीआई करते हैं। जल्द ही, यह तकनीक दुनिया के सभी कोनों से लाखों अलग-अलग नमूनों का तुलनात्मक विश्लेषण करने में सक्षम हो सकती है - एक प्रस्ताव जो पहले मानव श्रम की एक अस्थिर राशि की मांग करता था।

स्टैनफोर्ड के प्रोफेसर मार्क अलगे-हेविट ने कहा, "डिजिटल ह्यूमैनिटीज मूवमेंट में एक प्रमुख आवाज और यूनिवर्सिटी के सेंटर फॉर स्पैटियल एंड टेक्सुअल एनालिसिस में सहायक संकाय निदेशक कहते हैं, " शोध की यह दिशा बहुत हद तक वादा करती है। उनका कहना है, "इन तरीकों से हमें बड़ी मात्रा में जानकारी देने की क्षमता होती है, जिसमें संग्रह होता है।"

ये नए निष्कर्ष स्मिथसोनियन इंस्टीट्यूशन में काम के वर्षों में निर्मित किए गए हैं, जो अकादमिक और सार्वजनिक पहुंच के लिए ऑनलाइन अपने संग्रह को डिजिटल रूप से डिजिटाइज़ करते हैं, और मन की एक उल्लेखनीय अंतःविषय बैठक का प्रतिनिधित्व करते हैं: वनस्पतिविदों, डिजिटलीकरण विशेषज्ञों और डेटा वैज्ञानिकों सभी को इनको लाने में एक भूमिका निभानी थी। परिणाम प्रकाश के लिए।

कहानी अक्टूबर 2015 में शुरू होती है, जब नेचुरल हिस्ट्री म्यूज़ियम के नीचे एक कैमरा-एंड-कन्वेयर बेल्ट तंत्र की स्थापना ने स्मिथसोनियन के वनस्पति संग्रह को डिजिटाइज़ करने के प्रयासों को बहुत सरल बना दिया। प्रत्येक रिपॉजिटरी में प्रत्येक दबाए गए फूल और घास के झुरमुट को मैन्युअल रूप से स्कैन करने के बजाय, श्रमिक अब नमूने के पूरे सरणियों को कतारबद्ध कर सकते हैं, बेल्ट को अपने जादू को काम करने दें, और उन्हें पूंछ के अंत में पुनः प्राप्त करें और पुन: सूचीबद्ध करें। एक तीन-व्यक्ति दल ने अपनी शुरुआत से ही बेल्ट की देखरेख की है, और वे हर साल लगभग 750, 000 नमूनों से गुजरते हैं। लंबे समय से पहले, स्मिथसोनियन की हर्बेरियम इन्वेंट्री, पांच मिलियन नमूने मजबूत, पूरी तरह से ऑनलाइन होगी।

प्रत्येक नमूने को पूरी तरह से पहचान पत्र के साथ टैग किया गया है, जो इसकी सिद्धता के साथ-साथ आवश्यक सांख्यिकीय आंकड़ों की जानकारी प्रदान करता है। इन कार्डों की सामग्री को डिजिटल छवियों के साथ-साथ प्रसारित और अपलोड किया गया है, जो संग्रह में प्रत्येक आइटम का व्यापक दृश्य खोज के लिए झुकाव वाले लोगों को प्रदान करता है।

स्मिथसोनियन के डिजीटल बॉटनिकल आर्काइव में, नमूनों की उच्च-रिज़ॉल्यूशन छवियों को उनके द्वारा चिपकाए गए आईडी आईडी टैग के ट्रांस्क्रिप्शन के साथ जोड़ा जाता है। स्मिथसोनियन के डिजीटल बॉटनिकल आर्काइव में, नमूनों की उच्च-रिज़ॉल्यूशन छवियों को उनके द्वारा चिपकाए गए आईडी आईडी टैग के ट्रांस्क्रिप्शन के साथ जोड़ा जाता है। (राष्ट्रीय प्राकृतिक इतिहास संग्रहालय)

संग्रहालय वनस्पति विज्ञान के अध्यक्ष लारेंस डोर कहते हैं, "यह हमारे संग्रह को किसी ऐसे व्यक्ति के लिए सुलभ बनाता है, जिसके पास कंप्यूटर और इंटरनेट कनेक्शन है, " जो कि कुछ सवालों के जवाब देने के लिए महान है। " । निश्चित रूप से, भारी मात्रा में नमूना डेटा अब ऑनलाइन समुदाय के लिए उपलब्ध थे, लेकिन कुल में इसका विश्लेषण काल्पनिक था। विशेष नमूनों और नमूनों की छोटी श्रेणियों को देखना काफी आसान था, लेकिन डोरर ने सोचा कि यदि हजारों नमूनों के बारे में निष्कर्ष निकालने के लिए डेटा का लाभ उठाने का कोई तरीका मौजूद है। "आप इस डेटा के साथ क्या कर सकते हैं?" वह आश्चर्य से याद करता है। एडम मेटलो नाम के एक व्यक्ति ने जल्द ही एक सम्मोहक जवाब दिया।

मेटालो, स्मिथसोनियन डिजिटलीकरण कार्यक्रम कार्यालय के एक अधिकारी, ने एक सम्मेलन में भाग लिया था, जिसमें हर जगह पीसी गेमर्स के टेक दिग्गज NVIDIA- डार्लिंग- अगली पीढ़ी के ग्राफिक्स प्रसंस्करण इकाइयों या जीपीयू का प्रदर्शन कर रहा था। मैटलो स्मिथसोनियन की 3 डी डिजिटल रेंडरिंग क्षमताओं पर सुधार करने के तरीकों की तलाश कर रहा था, लेकिन यह जानकारी का काफी हद तक असंबंधित डला हुआ था जिसने उसका ध्यान आकर्षित किया और उसके साथ चिपक गया। गतिशील, उच्च-निष्ठा 3 डी दृश्य उत्पन्न करने के अलावा, उन्हें बताया गया था, NVIDIA के GPU बड़े डेटा एनालिटिक्स के अनुकूल थे। विशेष रूप से, बीफेड-अप जीपीयू केवल वही थे जो गहन डिजिटल पैटर्न मान्यता के लिए आवश्यक थे; कई मशीन लर्निंग एल्गोरिदम को NVIDIA प्लेटफॉर्म के लिए अनुकूलित किया गया था।

मेटालो को तुरंत ही घेर लिया गया। सेल्फ ड्राइविंग कार डेवलपमेंट और मेडिकल रेडियोलॉजी जैसे आला क्षेत्रों में पहले से तैनात इस "डीप लर्निंग" तकनीक ने म्यूजियम की दुनिया के लिए काफी संभावनाएं जताईं- जैसा कि मेटालो बताते हैं, '' अब हमारे पास सबसे बड़ी और पुरानी डेटासेट है। सेवा मेरे।"

मैटलो ने जानना चाहा है कि स्मिथसोनियन में बड़े डेटासेट्स का क्या मतलब है? उनका सवाल पूरी तरह से लारेंस डोर का है, और एक बार जब दोनों जुड़े, तो चिंगारियां उड़ने लगीं। मैटलो को याद करते हुए, "वनस्पति संग्रह सबसे बड़े संग्रह में से एक था, जिस पर हमने हाल ही में काम किया था।" एक सहयोग का सुझाव दिया।

मशीन सीखने के कई रूपों की मांग है कि शोधकर्ता विश्लेषण करने के लिए छवियों में प्रमुख गणितीय मार्करों को चिह्नित करते हैं - एक श्रमसाध्य प्रक्रिया जो कंप्यूटर के हाथ को पकड़ने की मात्रा है - आधुनिक-दिन के गहन शिक्षण एल्गोरिदम खुद को सिखा सकते हैं कि कौन से मार्कर काम करने के लिए देख सकते हैं, बचत समय और बड़े पैमाने पर पूछताछ के लिए दरवाजा खोलने। फिर भी, स्मिथसोनियन-विशिष्ट गहरे सीखने के कार्यक्रम को लिखना और असतत वनस्पति अनुसंधान प्रश्नों के लिए इसे कैलिब्रेट करना एक मुश्किल व्यवसाय था- डोर और मेटलो को अपनी दृष्टि को वास्तविकता बनाने के लिए डेटा वैज्ञानिकों की मदद की आवश्यकता थी।

डेटा वैज्ञानिकों ने पॉल फ्रैंसेन के रूप में याद किए जाने के दौरान तंत्रिका नेटवर्क के लिए प्रशिक्षण नमूनों का संकलन किया डेटा वैज्ञानिकों ने तंत्रिका नेटवर्क के लिए प्रशिक्षण नमूनों को संकलित किया जो पॉल फ्रांसेन को "एक ठंडा जनवरी दिवस" ​​के रूप में याद है। (राष्ट्रीय प्राकृतिक इतिहास संग्रहालय)

उन विशेषज्ञों में से एक जो वे सवार थे, स्मिथसोनियन अनुसंधान डेटा वैज्ञानिक पॉल फ्रेंडसेन थे, जिन्होंने तुरंत बॉटनी संग्रह पर सहन करने के लिए एक NVIDIA GPU-संचालित तंत्रिका नेटवर्क बनाने की क्षमता को पहचाना। फ्रांसेन के लिए, इस परियोजना ने एक अद्भुत और बेरोज़गार पथ के लिए पहला कदम उठाया। जल्द ही, वे कहते हैं, "हम एक वैश्विक स्तर पर रूपात्मक पैटर्न की तलाश शुरू करने जा रहे हैं, और हम इन बहुत बड़े सवालों का जवाब देने में सक्षम होंगे जो पारंपरिक रूप से साहित्य के माध्यम से हजारों या लाखों मानव-घंटे देख रहे होंगे। चीजों को वर्गीकृत करना। हम उन पैटर्न को खोजने और दुनिया के बारे में अधिक जानने में मदद करने के लिए एल्गोरिदम का उपयोग करने में सक्षम होने जा रहे हैं। ”

बस-प्रकाशित निष्कर्ष अवधारणा का एक उल्लेखनीय प्रमाण हैं। अनुसंधान वनस्पतिशास्त्री एरिक शूएटपेलज़ और डेटा वैज्ञानिकों पॉल फ्रांसेन और रेबेका डिकोव के नेतृत्व में नौ की एक टीम द्वारा बनाई गई, इस अध्ययन का उद्देश्य मशीन सीखने और हर्बेरियम के बारे में दो बड़े पैमाने पर सवालों के जवाब देना है। पहला यह है कि प्रशिक्षित न्यूरल नेटवर्क कैसे प्रभावी हो सकता है, जिसमें पारे के दाग वाले नमूनों को बिना छीले हुए लोगों से छांटा जा सकता है। दूसरा, कागज का मुख्य आकर्षण यह है कि इस तरह का नेटवर्क पौधों के दो सतही समान परिवारों के अलग-अलग सदस्यों पर कितना प्रभावी हो सकता है - अर्थात्, सहयोगी सहयोगी परिवार लाइकोपोडिएसी और सेलाजिनेलेसी

पहले परीक्षण के लिए ज़रूरी था कि टीम हज़ारों नमूनों से पहले से ही गुजरती रहे, यह निश्चित रूप से ध्यान में रखते हुए कि कौन से पारा (पुरानी वनस्पति संरक्षण तकनीकों का एक प्रकार) के साथ नेत्रहीन रूप से दूषित थे। वे यह सुनिश्चित करना चाहते थे कि वे 100 प्रतिशत निश्चितता के साथ जानते थे जो दागदार थे और जो नहीं थे- अन्यथा, कार्यक्रम की सटीकता का आकलन करना संभव नहीं होगा। टीम ने कंप्यूटरों को प्रशिक्षित करने और परीक्षण करने के लिए स्वच्छ नमूनों की लगभग 8, 000 छवियां और 8, 000 अधिक दागदार नमूने लिए। जब तक उन्होंने तंत्रिका नेटवर्क मापदंडों को ट्विक करना समाप्त कर दिया और सभी मानवीय सहायता वापस ले ली, एल्गोरिदम उन नमूनों को वर्गीकृत कर रहा था जो 90 प्रतिशत सटीकता के साथ पहले कभी नहीं देखे थे। अगर सबसे अस्पष्ट नमूने हैं - उदाहरण के लिए, जिसमें धुंधला हो जाना कम से कम और / या बहुत फीका था - उन्हें फेंक दिया गया, तो यह आंकड़ा बढ़कर 94 प्रतिशत हो गया।

इस परिणाम का अर्थ है कि गहन शिक्षण सॉफ्टवेयर जल्द ही वनस्पति विज्ञानियों और अन्य वैज्ञानिकों को थकाऊ छँटाई कार्यों पर समय बर्बाद करने से बचने में मदद कर सकता है। "समस्या यह नहीं है कि एक मानव यह निर्धारित नहीं कर सकता है कि क्या एक पारा के साथ दाग है या नहीं, " मेटलो स्पष्ट करता है, बल्कि यह कि "मैन्युअल रूप से छांटना मुश्किल है और यह पता लगाना है कि संदूषण मौजूद है, " और समझदार नहीं है एक समय प्रबंधन के दृष्टिकोण से ऐसा करें। खुशी से, मशीन लर्निंग तेजी से स्वचालित विश्लेषण के कुछ दिनों में एक प्रमुख समय सिंक में बदल सकता है।

एक समय में एक से अधिक नमूनों को रखने से बहुत अधिक ऊर्जा की मांग होती है, और बड़े पैमाने पर निष्कर्ष निकालना मुश्किल हो जाता है। अब, बड़े डेटा एनालिटिक्स संग्रहालयों से संपर्क करने के लिए नए तरीके से संग्रहित करते हैं। एक समय में एक से अधिक नमूनों को रखने से बहुत अधिक ऊर्जा की मांग होती है, और बड़े पैमाने पर निष्कर्ष निकालना मुश्किल हो जाता है। अब, बड़े डेटा एनालिटिक्स संग्रहालयों से संपर्क करने के लिए नए तरीके से संग्रहित करते हैं। (अर्नोल्ड अर्बोरेटम)

अध्ययन का प्रजाति भेदभाव वाला हिस्सा और भी रोमांचक है। शोधकर्ताओं ने लगभग 9, 300 क्लबमॉस और 9, 100 स्पाइकेमॉस नमूनों के साथ तंत्रिका नेटवर्क को प्रशिक्षित और परीक्षण किया। जैसा कि धुंधला प्रयोग के साथ, इनमें से लगभग 70 प्रतिशत नमूने प्रारंभिक अंशांकन के लिए उपयोग किए गए थे, 20 प्रतिशत का उपयोग शोधन के लिए किया गया था, और अंतिम 10 प्रतिशत का उपयोग औपचारिक रूप से सटीकता का आकलन करने के लिए किया गया था। एक बार कोड ऑप्टिमाइज़ हो जाने के बाद, दो परिवारों के बीच अंतर करने में कंप्यूटर की सफलता की दर 96 प्रतिशत थी - और अगर ट्रिकेस्ट सैंपल को छोड़ दिया जाए तो यह लगभग 99 प्रतिशत सही था।

एक दिन, फ्रांसेन अनुमान लगाते हैं, इस तरह के कार्यक्रम दुनिया भर के संग्रहालयों में प्रारंभिक नमूना वर्गीकरण को संभाल सकते हैं। "किसी भी तरह से मुझे नहीं लगता कि ये एल्गोरिदम क्यूरेटर्स को बदलने के लिए कुछ भी करेंगे, " वह ध्यान देने के लिए जल्दी है, "लेकिन इसके बजाय, मुझे लगता है कि वे क्यूरेटर और सिस्टमैटिक्स में शामिल लोगों को अधिक उत्पादक बनाने में मदद कर सकते हैं, इसलिए वे अपना काम ज्यादा कर सकते हैं अधिक तेजी से।"

इस अध्ययन में तंत्रिका नेटवर्क की सफलता बड़े पैमाने पर संग्रह में वैज्ञानिक परिकल्पनाओं के तेजी से परीक्षण का मार्ग प्रशस्त करती है। डोरर टीम के निष्कर्षों में डिजीटल नमूनों की व्यापक रूपात्मक तुलनाओं की तुलना करने की संभावना को देखता है-तुलनाएं जो महत्वपूर्ण महत्वपूर्ण सफलताओं को जन्म दे सकती हैं।

यह कहना नहीं है कि गहन शिक्षण बोर्ड भर में अनुसंधान में एक चांदी की गोली होगी। स्टैनफोर्ड के मार्क अलजे-हेविट बताते हैं कि "एक तंत्रिका नेटवर्क अपने निर्णय क्यों और कैसे लेता है इसका पुनर्निर्माण करना लगभग असंभव है" एक बार जब यह वातानुकूलित हो जाता है; कंप्यूटर प्रोग्राम के लिए छोड़े गए निर्धारण को हमेशा प्रकृति में सरल और सत्यापित किया जाना चाहिए, अगर उन पर भरोसा किया जाए।

"स्पष्ट रूप से, " डोर कहते हैं, एक स्वायत्त कंप्यूटर प्रोग्राम की "आनुवंशिक संबंधों के लिए परीक्षण नहीं करना है, जैसी चीजें" - निकट भविष्य में कभी भी। “लेकिन हम भौगोलिक क्षेत्र, या वर्गीकरण इकाई द्वारा विशेषताओं के वितरण के बारे में सीखना शुरू कर सकते हैं। और यह वास्तव में शक्तिशाली होने जा रहा है। ”

किसी भी चीज़ से अधिक, यह शोध एक कूदने वाला बिंदु है। यह अब स्पष्ट है कि गहन सीखने की तकनीक दुनिया भर में वैज्ञानिकों और अन्य शिक्षाविदों के लिए बहुत बड़ा वादा रखती है, साथ ही साथ उत्सुक जनता जिसके लिए वे ज्ञान का उत्पादन करते हैं। जो शेष है वह कठोर अनुवर्ती कार्य है।

"यह एक छोटा कदम है, " फ्रेंसेन कहते हैं, लेकिन यह एक ऐसा कदम है जो वास्तव में हमें बताता है कि ये तकनीक डिजीटल संग्रहालय नमूनों पर काम कर सकते हैं। हम अगले कुछ महीनों में कई और परियोजनाओं की स्थापना करने के बारे में उत्साहित हैं, ताकि इसकी सीमाओं को थोड़ा और अधिक परख सकें। ”

आर्टिफिशियल इंटेलिजेंस कैसे आर्काइव म्यूजियम रिसर्च में क्रांति ला सकता है