जब आप कृत्रिम बुद्धिमत्ता के बारे में सोचते हैं, तो वनस्पति विज्ञान का क्षेत्र संभवतः आपके दिमाग में नहीं है। जब आप अत्याधुनिक कम्प्यूटेशनल अनुसंधान के लिए सेटिंग्स सेट करते हैं, तो शताब्दी-पुराने संग्रहालयों की सूची में शीर्ष नहीं हो सकता है। और फिर भी, जैव विविधता डेटा जर्नल में एक प्रकाशित लेख से पता चलता है कि मशीन लर्निंग में सबसे रोमांचक और चित्रण नवाचार में से कुछ वाशिंगटन, डीसी में नेशनल म्यूजियम ऑफ नेचुरल हिस्ट्री के नेशनल हर्बेरियम के अलावा नहीं है।
कागज, जो दर्शाता है कि डिजिटल तंत्रिका नेटवर्क 90 प्रतिशत से अधिक सटीकता के साथ पौधों के दो समान परिवारों के बीच अंतर करने में सक्षम हैं, का अर्थ है वैज्ञानिकों और शिक्षाविदों के लिए सभी प्रकार के मुंह-पानी की संभावनाएं। अध्ययन "गहरी शिक्षा" एल्गोरिदम में ग्राउंड किए गए सॉफ़्टवेयर पर निर्भर करता है, जो कंप्यूटर प्रोग्राम को उसी तरह से अनुभव प्राप्त करने की अनुमति देते हैं, जिस तरह से मानव विशेषज्ञ अपने खेल को चलाते समय हर बार यूपीआई करते हैं। जल्द ही, यह तकनीक दुनिया के सभी कोनों से लाखों अलग-अलग नमूनों का तुलनात्मक विश्लेषण करने में सक्षम हो सकती है - एक प्रस्ताव जो पहले मानव श्रम की एक अस्थिर राशि की मांग करता था।
स्टैनफोर्ड के प्रोफेसर मार्क अलगे-हेविट ने कहा, "डिजिटल ह्यूमैनिटीज मूवमेंट में एक प्रमुख आवाज और यूनिवर्सिटी के सेंटर फॉर स्पैटियल एंड टेक्सुअल एनालिसिस में सहायक संकाय निदेशक कहते हैं, " शोध की यह दिशा बहुत हद तक वादा करती है। उनका कहना है, "इन तरीकों से हमें बड़ी मात्रा में जानकारी देने की क्षमता होती है, जिसमें संग्रह होता है।"
ये नए निष्कर्ष स्मिथसोनियन इंस्टीट्यूशन में काम के वर्षों में निर्मित किए गए हैं, जो अकादमिक और सार्वजनिक पहुंच के लिए ऑनलाइन अपने संग्रह को डिजिटल रूप से डिजिटाइज़ करते हैं, और मन की एक उल्लेखनीय अंतःविषय बैठक का प्रतिनिधित्व करते हैं: वनस्पतिविदों, डिजिटलीकरण विशेषज्ञों और डेटा वैज्ञानिकों सभी को इनको लाने में एक भूमिका निभानी थी। परिणाम प्रकाश के लिए।
कहानी अक्टूबर 2015 में शुरू होती है, जब नेचुरल हिस्ट्री म्यूज़ियम के नीचे एक कैमरा-एंड-कन्वेयर बेल्ट तंत्र की स्थापना ने स्मिथसोनियन के वनस्पति संग्रह को डिजिटाइज़ करने के प्रयासों को बहुत सरल बना दिया। प्रत्येक रिपॉजिटरी में प्रत्येक दबाए गए फूल और घास के झुरमुट को मैन्युअल रूप से स्कैन करने के बजाय, श्रमिक अब नमूने के पूरे सरणियों को कतारबद्ध कर सकते हैं, बेल्ट को अपने जादू को काम करने दें, और उन्हें पूंछ के अंत में पुनः प्राप्त करें और पुन: सूचीबद्ध करें। एक तीन-व्यक्ति दल ने अपनी शुरुआत से ही बेल्ट की देखरेख की है, और वे हर साल लगभग 750, 000 नमूनों से गुजरते हैं। लंबे समय से पहले, स्मिथसोनियन की हर्बेरियम इन्वेंट्री, पांच मिलियन नमूने मजबूत, पूरी तरह से ऑनलाइन होगी।
प्रत्येक नमूने को पूरी तरह से पहचान पत्र के साथ टैग किया गया है, जो इसकी सिद्धता के साथ-साथ आवश्यक सांख्यिकीय आंकड़ों की जानकारी प्रदान करता है। इन कार्डों की सामग्री को डिजिटल छवियों के साथ-साथ प्रसारित और अपलोड किया गया है, जो संग्रह में प्रत्येक आइटम का व्यापक दृश्य खोज के लिए झुकाव वाले लोगों को प्रदान करता है।
स्मिथसोनियन के डिजीटल बॉटनिकल आर्काइव में, नमूनों की उच्च-रिज़ॉल्यूशन छवियों को उनके द्वारा चिपकाए गए आईडी आईडी टैग के ट्रांस्क्रिप्शन के साथ जोड़ा जाता है। (राष्ट्रीय प्राकृतिक इतिहास संग्रहालय)संग्रहालय वनस्पति विज्ञान के अध्यक्ष लारेंस डोर कहते हैं, "यह हमारे संग्रह को किसी ऐसे व्यक्ति के लिए सुलभ बनाता है, जिसके पास कंप्यूटर और इंटरनेट कनेक्शन है, " जो कि कुछ सवालों के जवाब देने के लिए महान है। " । निश्चित रूप से, भारी मात्रा में नमूना डेटा अब ऑनलाइन समुदाय के लिए उपलब्ध थे, लेकिन कुल में इसका विश्लेषण काल्पनिक था। विशेष नमूनों और नमूनों की छोटी श्रेणियों को देखना काफी आसान था, लेकिन डोरर ने सोचा कि यदि हजारों नमूनों के बारे में निष्कर्ष निकालने के लिए डेटा का लाभ उठाने का कोई तरीका मौजूद है। "आप इस डेटा के साथ क्या कर सकते हैं?" वह आश्चर्य से याद करता है। एडम मेटलो नाम के एक व्यक्ति ने जल्द ही एक सम्मोहक जवाब दिया।
मेटालो, स्मिथसोनियन डिजिटलीकरण कार्यक्रम कार्यालय के एक अधिकारी, ने एक सम्मेलन में भाग लिया था, जिसमें हर जगह पीसी गेमर्स के टेक दिग्गज NVIDIA- डार्लिंग- अगली पीढ़ी के ग्राफिक्स प्रसंस्करण इकाइयों या जीपीयू का प्रदर्शन कर रहा था। मैटलो स्मिथसोनियन की 3 डी डिजिटल रेंडरिंग क्षमताओं पर सुधार करने के तरीकों की तलाश कर रहा था, लेकिन यह जानकारी का काफी हद तक असंबंधित डला हुआ था जिसने उसका ध्यान आकर्षित किया और उसके साथ चिपक गया। गतिशील, उच्च-निष्ठा 3 डी दृश्य उत्पन्न करने के अलावा, उन्हें बताया गया था, NVIDIA के GPU बड़े डेटा एनालिटिक्स के अनुकूल थे। विशेष रूप से, बीफेड-अप जीपीयू केवल वही थे जो गहन डिजिटल पैटर्न मान्यता के लिए आवश्यक थे; कई मशीन लर्निंग एल्गोरिदम को NVIDIA प्लेटफॉर्म के लिए अनुकूलित किया गया था।
मेटालो को तुरंत ही घेर लिया गया। सेल्फ ड्राइविंग कार डेवलपमेंट और मेडिकल रेडियोलॉजी जैसे आला क्षेत्रों में पहले से तैनात इस "डीप लर्निंग" तकनीक ने म्यूजियम की दुनिया के लिए काफी संभावनाएं जताईं- जैसा कि मेटालो बताते हैं, '' अब हमारे पास सबसे बड़ी और पुरानी डेटासेट है। सेवा मेरे।"
मैटलो ने जानना चाहा है कि स्मिथसोनियन में बड़े डेटासेट्स का क्या मतलब है? उनका सवाल पूरी तरह से लारेंस डोर का है, और एक बार जब दोनों जुड़े, तो चिंगारियां उड़ने लगीं। मैटलो को याद करते हुए, "वनस्पति संग्रह सबसे बड़े संग्रह में से एक था, जिस पर हमने हाल ही में काम किया था।" एक सहयोग का सुझाव दिया।
मशीन सीखने के कई रूपों की मांग है कि शोधकर्ता विश्लेषण करने के लिए छवियों में प्रमुख गणितीय मार्करों को चिह्नित करते हैं - एक श्रमसाध्य प्रक्रिया जो कंप्यूटर के हाथ को पकड़ने की मात्रा है - आधुनिक-दिन के गहन शिक्षण एल्गोरिदम खुद को सिखा सकते हैं कि कौन से मार्कर काम करने के लिए देख सकते हैं, बचत समय और बड़े पैमाने पर पूछताछ के लिए दरवाजा खोलने। फिर भी, स्मिथसोनियन-विशिष्ट गहरे सीखने के कार्यक्रम को लिखना और असतत वनस्पति अनुसंधान प्रश्नों के लिए इसे कैलिब्रेट करना एक मुश्किल व्यवसाय था- डोर और मेटलो को अपनी दृष्टि को वास्तविकता बनाने के लिए डेटा वैज्ञानिकों की मदद की आवश्यकता थी।
डेटा वैज्ञानिकों ने तंत्रिका नेटवर्क के लिए प्रशिक्षण नमूनों को संकलित किया जो पॉल फ्रांसेन को "एक ठंडा जनवरी दिवस" के रूप में याद है। (राष्ट्रीय प्राकृतिक इतिहास संग्रहालय)उन विशेषज्ञों में से एक जो वे सवार थे, स्मिथसोनियन अनुसंधान डेटा वैज्ञानिक पॉल फ्रेंडसेन थे, जिन्होंने तुरंत बॉटनी संग्रह पर सहन करने के लिए एक NVIDIA GPU-संचालित तंत्रिका नेटवर्क बनाने की क्षमता को पहचाना। फ्रांसेन के लिए, इस परियोजना ने एक अद्भुत और बेरोज़गार पथ के लिए पहला कदम उठाया। जल्द ही, वे कहते हैं, "हम एक वैश्विक स्तर पर रूपात्मक पैटर्न की तलाश शुरू करने जा रहे हैं, और हम इन बहुत बड़े सवालों का जवाब देने में सक्षम होंगे जो पारंपरिक रूप से साहित्य के माध्यम से हजारों या लाखों मानव-घंटे देख रहे होंगे। चीजों को वर्गीकृत करना। हम उन पैटर्न को खोजने और दुनिया के बारे में अधिक जानने में मदद करने के लिए एल्गोरिदम का उपयोग करने में सक्षम होने जा रहे हैं। ”
बस-प्रकाशित निष्कर्ष अवधारणा का एक उल्लेखनीय प्रमाण हैं। अनुसंधान वनस्पतिशास्त्री एरिक शूएटपेलज़ और डेटा वैज्ञानिकों पॉल फ्रांसेन और रेबेका डिकोव के नेतृत्व में नौ की एक टीम द्वारा बनाई गई, इस अध्ययन का उद्देश्य मशीन सीखने और हर्बेरियम के बारे में दो बड़े पैमाने पर सवालों के जवाब देना है। पहला यह है कि प्रशिक्षित न्यूरल नेटवर्क कैसे प्रभावी हो सकता है, जिसमें पारे के दाग वाले नमूनों को बिना छीले हुए लोगों से छांटा जा सकता है। दूसरा, कागज का मुख्य आकर्षण यह है कि इस तरह का नेटवर्क पौधों के दो सतही समान परिवारों के अलग-अलग सदस्यों पर कितना प्रभावी हो सकता है - अर्थात्, सहयोगी सहयोगी परिवार लाइकोपोडिएसी और सेलाजिनेलेसी ।
पहले परीक्षण के लिए ज़रूरी था कि टीम हज़ारों नमूनों से पहले से ही गुजरती रहे, यह निश्चित रूप से ध्यान में रखते हुए कि कौन से पारा (पुरानी वनस्पति संरक्षण तकनीकों का एक प्रकार) के साथ नेत्रहीन रूप से दूषित थे। वे यह सुनिश्चित करना चाहते थे कि वे 100 प्रतिशत निश्चितता के साथ जानते थे जो दागदार थे और जो नहीं थे- अन्यथा, कार्यक्रम की सटीकता का आकलन करना संभव नहीं होगा। टीम ने कंप्यूटरों को प्रशिक्षित करने और परीक्षण करने के लिए स्वच्छ नमूनों की लगभग 8, 000 छवियां और 8, 000 अधिक दागदार नमूने लिए। जब तक उन्होंने तंत्रिका नेटवर्क मापदंडों को ट्विक करना समाप्त कर दिया और सभी मानवीय सहायता वापस ले ली, एल्गोरिदम उन नमूनों को वर्गीकृत कर रहा था जो 90 प्रतिशत सटीकता के साथ पहले कभी नहीं देखे थे। अगर सबसे अस्पष्ट नमूने हैं - उदाहरण के लिए, जिसमें धुंधला हो जाना कम से कम और / या बहुत फीका था - उन्हें फेंक दिया गया, तो यह आंकड़ा बढ़कर 94 प्रतिशत हो गया।
इस परिणाम का अर्थ है कि गहन शिक्षण सॉफ्टवेयर जल्द ही वनस्पति विज्ञानियों और अन्य वैज्ञानिकों को थकाऊ छँटाई कार्यों पर समय बर्बाद करने से बचने में मदद कर सकता है। "समस्या यह नहीं है कि एक मानव यह निर्धारित नहीं कर सकता है कि क्या एक पारा के साथ दाग है या नहीं, " मेटलो स्पष्ट करता है, बल्कि यह कि "मैन्युअल रूप से छांटना मुश्किल है और यह पता लगाना है कि संदूषण मौजूद है, " और समझदार नहीं है एक समय प्रबंधन के दृष्टिकोण से ऐसा करें। खुशी से, मशीन लर्निंग तेजी से स्वचालित विश्लेषण के कुछ दिनों में एक प्रमुख समय सिंक में बदल सकता है।
एक समय में एक से अधिक नमूनों को रखने से बहुत अधिक ऊर्जा की मांग होती है, और बड़े पैमाने पर निष्कर्ष निकालना मुश्किल हो जाता है। अब, बड़े डेटा एनालिटिक्स संग्रहालयों से संपर्क करने के लिए नए तरीके से संग्रहित करते हैं। (अर्नोल्ड अर्बोरेटम)अध्ययन का प्रजाति भेदभाव वाला हिस्सा और भी रोमांचक है। शोधकर्ताओं ने लगभग 9, 300 क्लबमॉस और 9, 100 स्पाइकेमॉस नमूनों के साथ तंत्रिका नेटवर्क को प्रशिक्षित और परीक्षण किया। जैसा कि धुंधला प्रयोग के साथ, इनमें से लगभग 70 प्रतिशत नमूने प्रारंभिक अंशांकन के लिए उपयोग किए गए थे, 20 प्रतिशत का उपयोग शोधन के लिए किया गया था, और अंतिम 10 प्रतिशत का उपयोग औपचारिक रूप से सटीकता का आकलन करने के लिए किया गया था। एक बार कोड ऑप्टिमाइज़ हो जाने के बाद, दो परिवारों के बीच अंतर करने में कंप्यूटर की सफलता की दर 96 प्रतिशत थी - और अगर ट्रिकेस्ट सैंपल को छोड़ दिया जाए तो यह लगभग 99 प्रतिशत सही था।
एक दिन, फ्रांसेन अनुमान लगाते हैं, इस तरह के कार्यक्रम दुनिया भर के संग्रहालयों में प्रारंभिक नमूना वर्गीकरण को संभाल सकते हैं। "किसी भी तरह से मुझे नहीं लगता कि ये एल्गोरिदम क्यूरेटर्स को बदलने के लिए कुछ भी करेंगे, " वह ध्यान देने के लिए जल्दी है, "लेकिन इसके बजाय, मुझे लगता है कि वे क्यूरेटर और सिस्टमैटिक्स में शामिल लोगों को अधिक उत्पादक बनाने में मदद कर सकते हैं, इसलिए वे अपना काम ज्यादा कर सकते हैं अधिक तेजी से।"
इस अध्ययन में तंत्रिका नेटवर्क की सफलता बड़े पैमाने पर संग्रह में वैज्ञानिक परिकल्पनाओं के तेजी से परीक्षण का मार्ग प्रशस्त करती है। डोरर टीम के निष्कर्षों में डिजीटल नमूनों की व्यापक रूपात्मक तुलनाओं की तुलना करने की संभावना को देखता है-तुलनाएं जो महत्वपूर्ण महत्वपूर्ण सफलताओं को जन्म दे सकती हैं।
यह कहना नहीं है कि गहन शिक्षण बोर्ड भर में अनुसंधान में एक चांदी की गोली होगी। स्टैनफोर्ड के मार्क अलजे-हेविट बताते हैं कि "एक तंत्रिका नेटवर्क अपने निर्णय क्यों और कैसे लेता है इसका पुनर्निर्माण करना लगभग असंभव है" एक बार जब यह वातानुकूलित हो जाता है; कंप्यूटर प्रोग्राम के लिए छोड़े गए निर्धारण को हमेशा प्रकृति में सरल और सत्यापित किया जाना चाहिए, अगर उन पर भरोसा किया जाए।
"स्पष्ट रूप से, " डोर कहते हैं, एक स्वायत्त कंप्यूटर प्रोग्राम की "आनुवंशिक संबंधों के लिए परीक्षण नहीं करना है, जैसी चीजें" - निकट भविष्य में कभी भी। “लेकिन हम भौगोलिक क्षेत्र, या वर्गीकरण इकाई द्वारा विशेषताओं के वितरण के बारे में सीखना शुरू कर सकते हैं। और यह वास्तव में शक्तिशाली होने जा रहा है। ”
किसी भी चीज़ से अधिक, यह शोध एक कूदने वाला बिंदु है। यह अब स्पष्ट है कि गहन सीखने की तकनीक दुनिया भर में वैज्ञानिकों और अन्य शिक्षाविदों के लिए बहुत बड़ा वादा रखती है, साथ ही साथ उत्सुक जनता जिसके लिए वे ज्ञान का उत्पादन करते हैं। जो शेष है वह कठोर अनुवर्ती कार्य है।
"यह एक छोटा कदम है, " फ्रेंसेन कहते हैं, लेकिन यह एक ऐसा कदम है जो वास्तव में हमें बताता है कि ये तकनीक डिजीटल संग्रहालय नमूनों पर काम कर सकते हैं। हम अगले कुछ महीनों में कई और परियोजनाओं की स्थापना करने के बारे में उत्साहित हैं, ताकि इसकी सीमाओं को थोड़ा और अधिक परख सकें। ”