अध्याय 9 जैवसूचना विज्ञान का परिचय
9.1 जैविक प्रणालियों और प्रक्रियाओं को समझने के लिए बुनियादी गणितीय और सांख्यिकीय अवधारणाओं की उपयोगिता
इस अध्याय का उद्देश्य आपको यह बताना है कि गणित और सांख्यिकी की बुनियादी अवधारणाओं की समझ एक जीवविज्ञानी के लिए क्यों महत्वपूर्ण है।
किसी भी जैविक प्रयोग का परिणाम डेटा होता है। पहले जीवविज्ञानी परिष्कृत सॉफ्टवेयर, कम्प्यूटेशनल उपकरणों और सांख्यिकीय परीक्षणों की सहायता के बिना डेटा उत्पन्न और विश्लेषण करते थे। हालांकि, अब ऐसा नहीं है। उच्च-थ्रूपुट डीएनए सीक्वेंसर, शक्तिशाली सूक्ष्मदर्शी और अन्य इमेजिंग प्रणालियों तथा विश्लेषणात्मक उपकरणों के आगमन के साथ, जो विशाल मात्रा में डेटा उत्पन्न करने में सक्षम हैं, जीवविज्ञानी अब नोटबुक और एक्सेल शीटों से डेटा नहीं संभाल सकते। इसके बजाय उन्हें डेटा संभालने के लिए कम्प्यूटेशनल और सांख्यिकीय उपकरणों की आवश्यकता होती है। विशाल मात्रा में डेटा को अक्सर जैविक अर्थ निकालने और व्याख्या करने के लिए मात्रात्मक विश्लेषण की आवश्यकता होती है। ऐसे विश्लेषण करने के लिए कम्प्यूटेशनल और सांख्यिकीय अवधारणाओं की अच्छी कार्यशील ज्ञान आवश्यक होता है, उदाहरण के लिए; मशीन लर्निंग तकनीक, रिग्रेशन, विचरण और सहसंबंध आदि। गणितीय और सांख्यिकीय अवधारणाएं जीवविज्ञानियों को उनके डेटा की व्याख्या करने में सहायता कर सकती हैं और ये सही प्रश्न पूछने और जैविक कुशलता का विकल्प नहीं हैं। जीवविज्ञान में प्रयुक्त कुछ सामान्य सांख्यिकीय शब्दों के नाम बॉक्स 1 में दिए गए हैं।
बॉक्स 1
बॉक्स 1: जीव विज्ञान में प्रायः प्रयुक्त सांख्यिकीय पदों की शब्दावली
शून्य परिकल्पना (Null hypothesis)- एक कथन जिसमें दो मापी गई घटनाओं के बीच कोई संबंध नहीं होता है।
सांख्यिकीय महत्त्व (Statistical significance)- एक परिणाम तब सांख्यिकीय रूप से महत्वपूर्ण माना जाता है जब उसके घटित होने की संभावना बहुत कम हो।
p-मान (p-value)- अध्ययन प्रश्न की शून्य परिकल्पना सत्य होने पर प्रेक्षित परिणामों को पाने की प्रायिकता।
t-परीक्षण (t-test)- सांख्यिकीय परीक्षण के माध्यम से दो जनसंख्याओं के माध्यों का विश्लेषण।
बहिश्रेणी विश्लेषण (Multivariate analysis): डेटा के विश्लेषण हेतु तकनीकों का एक समूह जिसमें एक से अधिक चर होते हैं।
प्रतिगमन विश्लेषण (Regression analysis)- एक आश्रित और एक स्वतंत्र चर के बीच संबंध की जांच करने की तकनीक।
बहु परीक्षण सुधार (Multiple testing correction)- एक सांख्यिकीय परीक्षण जो कई परीक्षणों के लिए सुधार करता है ताकि समग्र त्रुटि दर उपयोगकर्ता-निर्दिष्ट P-मान कटऑफ से कम या बराबर रहे।
प्रसरण विश्लेषण या ANOVA (Analysis of Variance or ANOVA)- सांख्यिकीय मॉडलों का एक समूह जो एक नमूने में समूह माध्यों के बीच अंतर का विश्लेषण करने के लिए प्रयोग किया जाता है।
आइए विशिष्ट उदाहरणों के साथ परीक्षण करें कि कंप्यूटिंग और सांख्यिकी का ज्ञान जैविक घटनाओं को बेहतर ढंग से समझने में कैसे मदद कर सकता है। उदाहरण के लिए, हम दस रोगियों में रक्तचाप और हृदय गति के बीच संबंध, यदि कोई हो, को समझना चाहते हैं (तालिका 9.1)। नीचे दी गई तालिका में दिया गया है कि एक सरल दृश्य अनुमान (चित्र 9.1) दो चरों के बीच संबंध (सहसंबंध) को सटीक रूप से निर्धारित करने के लिए पर्याप्त नहीं है। इसके लिए, एक को एक प्रतिगमन रेखा खींचनी होती है। सहसंबंध और प्रतिगमन भिन्न होते हैं, फिर भी सहसंबद्ध होते हैं। सहसंबंध यह मात्रा देता है कि चर किस प्रकार जुड़े हुए हैं, लेकिन प्रतिगमन दो या अधिक चरों के बीच एक सांख्यिकीय संबंध को परिभाषित करता है जहां एक चर में परिवर्तन दूसरे चर में परिवर्तन से जुड़ा होता है। इसलिए, उपरोक्त उदाहरण में एक सरल प्रतिगमन परीक्षण यह बताएगा कि क्या हृदय गति और रक्तचाप के बीच कोई प्रत्यक्ष संबंध है। रैखिक प्रतिगमन विश्लेषण का आउटपुट $\mathrm{R}^{2}$-मान है, एक सांख्यिकीय माप जो दिखाता है कि डेटा प्रतिगमन रेखा के कितना करीब है। $R^{2}$ मान 0 (चरों के बीच कोई सहसंबंध नहीं) से 1 (चरों के बीच पूर्ण सहसंबंध) तक होता है। जैसा कि चित्र 9.1 में दिखाया गया है, $R^{2}$ मान सुझाव देता है कि दो चरों के बीच एक अच्छा सहसंबंध है। इसलिए, इस मामले में नल-हाइपोथीसिस को अस्वीकार कर दिया जाता है।
तालिका 9.1: दस रोगियों में दर्ज की गई हृदय गति और रक्तचाप
| रोगी | हृदय गति | रक्तचाप (सिस्टोलिक) |
|---|---|---|
| 1 | 112 | 189 |
| 2 | 83 | 140 |
| 3 | 92 | 153 |
| 4 | 121 | 192 |
| 5 | 85 | 147 |
| 6 | 111 | 178 |
| 7 | 94 | 135 |
| 8 | 88 | 143 |
| 9 | 102 | 177 |
| 10 | 111 | 189 |
चित्र 9.1: दो चरों के बीच सहसंबंध एक सरल रैखिक प्रतिगमन रेखा के साथ
जीव विज्ञान के कई क्षेत्रों में प्रायिकता की बुनियादी समझ आवश्यक होती है। जटिल प्रणालीगत घटनाओं जैसे कि कोशिकीय तंत्रों के गणितीय मॉडलिंग से व्यक्ति प्रणाली के महत्वपूर्ण पैरामीटरों और उसकी गतिकी को समझ सकता है। वंशावली पुनर्निर्माण, पूर्वज अनुक्रमों का निर्धारण और विद्यमान अनुक्रमों के समूह से विकास की दरों का मॉडलिंग करने के लिए प्रायिकता का ज्ञान आवश्यक होता है। जीवविज्ञानियों को प्रयोग करने से पहले सांख्यिकीय मुद्दों को ध्यान में रखना होता है। उदाहरण के लिए, प्रयोग के लिए नमूनों और पुनरावृत्तियों की पर्याप्त संख्या — जैविक और तकनीकी दोनों — चुनने के लिए सांख्यिकी का ज्ञान आवश्यक होता है। एक प्रयोग को परिणामों में विश्वास सुनिश्चित करने और यह जानने के लिए कि वे वास्तविक हैं या नकली, कई बार स्वतंत्र रूप से दोहराया जाना चाहिए। सांख्यिकीय यादृच्छिकता और बड़ी संख्या के नियम की आवश्यक पृष्ठभूमि व्यक्ति को इस समस्या से निपटने के लिए सुसज्जित करती है। बड़ी संख्या से यादृच्छिक नमूling करने से पक्षपाती परिणाम प्राप्त करने की संभावना कम हो जाती है। जीवविज्ञानी को यह सुनिश्चित करना होता है कि परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं। इस चरण के लिए विभिन्न परीक्षणों और सांख्यिकीय महत्व के मापों से परिचित होना और प्रश्न में दी गई समस्या के लिए सही परीक्षण(ों) को लागू करना आवश्यक होता है। समस्या के आधार पर, जीवविज्ञानी को एकाधिक परीक्षण के लिए महत्व के माप को सही और समायोजित करना पड़ सकता है।
उच्च स्तर की कंप्यूटिंग, विश्लेषण और दृश्यपट्ट के लिए, एक जीवविज्ञानी अंतर्निहित फ्रेमवर्क्स का उपयोग कर सकता है। जैसे MATLAB (वाणिज्यिक) और R (ओपन सोर्स), आदि।
जीवविज्ञानियों के लिए नियोजित सांख्यिकीय विश्लेषण का चयन सही उत्तर निर्धारित करने की कुंजी है। एक कमजोर या गलत सांख्यिकीय मानक गलत धारणाओं की ओर ले जाता है और इसलिए अप्रतिलिप्य परिणामों का कारण बन सकता है। उदाहरणार्थ, सांख्यिकी में सामान्यतः प्रयुक्त अवधारणा $\mathrm{P}$ मान है जो किसी परिकल्पना के समर्थन के प्रमाण के रूप में कार्य करता है। $\mathrm{P}$ मान जितना छोटा होगा, परीक्षण का परिणाम उतना ही अधिक महत्वपूर्ण होने की संभावना होगी। 0.05 (95% महत्व) या उससे कम का P मान कटऑफ महत्वपूर्ण माना जाता है। हालांकि, 0.05 की सीमा ने वैज्ञानिक साहित्य में बहुत सारे झूठे सकारात्मक परिणामों को प्रकट किया है। इसलिए, 0.05 के $P$ मान कटऑफ की पुनः जांच की आवश्यकता है। छोटे नमूना आकारों के साथ, भ्रामक औसत और मानक विचलन के साथ दृश्य को विकृत करने की बजाय सभी स्वतंत्र डेटा बिंदुओं को दिखाना बेहतर होता है। नकारात्मक परिणाम का सामना करने पर जिस सांख्यिकीय शक्ति पर विचार किया जाता है, उसे सकारात्मक परिणामों की स्थिति में भी ध्यान में रखना चाहिए। डेटा की गलत प्रकार पर कुछ स्थापित सांख्यिकीय मॉडलों और वितरणों की धारणाएँ, इसलिए, एक सामान्य दुरुपयोग है। उदाहरण के लिए, गैसीयन वितरण की धारणा को गैर-रैखिक गतिशील प्रणालियों पर लगाना, जिससे झूठे सकारात्मक परिणाम उत्पन्न होते हैं। अवास्तविक पैरामीटर भारों के साथ निर्मित असंतुलित गणितीय मॉडल एक और सामान्य दुरुपयोग हैं और यह एक ऐसा दुरुपयोग है जिसका पता लगाना कठिन होता है। इन चेतावनियों के उचित विचार के साथ, जीव विज्ञान में गणित और सांख्यिकी के अनुप्रयोग से नए अनुसंधान क्षेत्रों को खोलने में मदद मिल सकती है जो अधिक जटिल जैविक समस्याओं से निपटने के लिए अंतःविषयक प्रकृति के होते हैं।
9.2 परिचय
बायोइन्फॉर्मेटिक्स एक अंतःविषयी क्षेत्र है जो जैविक समस्याओं के समाधान के लिए जैविक सूचना के विश्लेषण में कम्प्यूटेशनल, गणितीय, सांख्यिकीय और कभी-कभी अभियांत्रिकीय दृष्टिकोणों का उपयोग करता है (चित्र 9.2)। इस प्रकार, बायोइन्फॉर्मेटिक्स कम्प्यूटर आधारित सॉफ्टवेयर और उपकरणों का उपयोग करके जैविक डेटा के भंडारण, पुनःप्राप्ति, विश्लेषण और व्याख्या से संबंधित है। यद्यपि कुछ अंतर हैं, इसे ‘कम्प्यूटेशनल बायोलॉजी,’ ‘गणितीय जीव विज्ञान,’ ‘मात्रात्मक जीव विज्ञान’ और ‘बायो-स्टैटिस्टिक्स’ जैसे अन्य पदों के साथ वैकल्पिक रूप से और परस्पर प्रयुक्त किया जाता है, जो प्रमुख अनुशासनात्मक घटकों पर निर्भर करता है। यह ध्यान देना चाहिए, हालांकि, कि इन परिभाषाओं का उपयोग विशेषज्ञों और अभ्यासियों के बीच भिन्न होता है, और समय के साथ बदला है।
चित्र 9.2: बायोइन्फॉर्मेटिक्स की अंतःविषयी प्रकृति: जीव विज्ञान का कम्प्यूटर विज्ञान, गणित, अभियांत्रिकी और सांख्यिकी जैसे एक या अधिक अन्य अनुशासनों के साथ प्रतिच्छेदन
9.2.1. ऐतिहासिक परिप्रेक्ष्य
बायोइनफॉर्मेटिक्स डेटा माइनिंग के माध्यम से नए खोजों और नए परिकल्पनाओं के निर्माण में सहायता करता है। यह अणु डेटा के मॉडलिंग या विश्लेषण के जरिए किया जाता है। अधिकांश बायोइनफॉर्मेटिक्स उपकरण या तो अनुक्रम और संरचना डेटाबेसों से पूर्व-मौजूद न्यूक्लियोटाइड और प्रोटीन डेटा का उपयोग करते हैं, या उच्च-थ्रूपुट उपकरणों जैसे नेक्स्ट-जनरेशन सीक्वेंसर और डीएनए माइक्रोअरे के माध्यम से नवनिर्मित डेटा का उपयोग करते हैं। अमेरिका में नेशनल सेंटर फॉर बायोटेक्नोलॉजी इन्फॉर्मेशन (NCBI) को बायोइनफॉर्मेटिक्स उपकरणों और सेवाओं के संसाधन के रूप में बनाया गया था। यह न्यूक्लियोटाइड और ग्रंथसूची डेटाबेसों को संग्रहीत करता है। जीनबैंक, एक व्यापक रूप से उपयोग किया जाने वाला डेटाबेस जो सभी सार्वजनिक रूप से उपलब्ध डीएनए अनुक्रमों को संग्रहीत करता है, 1982 में लॉन्च किया गया था। यद्यपि बायोइनफॉर्मेटिक्स का अभ्यास इस शब्द के व्यापक उपयोग से बहुत पहले किया जाता रहा है, लेकिन यह साहित्य में 1991 तक प्रकट नहीं हुआ। मानव जीनोम परियोजना की शुरुआत के बाद इस नाम को व्यापक स्वीकृति मिली और अनुक्रम डेटा के विश्लेषण के लिए बायोइनफॉर्मेटिक्स उपकरणों का व्यापक रूप से उपयोग किया गया। इसलिए, साहित्य में बायोइनफॉर्मेटिक्स शब्द का उपयोग 30 वर्षों से अधिक पुराना नहीं है। बायोइनफॉर्मेटिक्स ने जीनोम सीक्वेंसिंग और उच्च-प्रदर्शन कंप्यूटिंग युग में व्यापक आकर्षण प्राप्त किया है, जो बायोटेक्नोलॉजी और कंप्यूटिंग तकनीक में प्रगति और पहुंच के बाद हुआ है। इससे पहले, जब ध्यान कम थ्रूपुट परीक्षणों पर केंद्रित था, जैसे किसी एकल जीन की क्रिया का अध्ययन या सूक्ष्मदर्शी के तहत आकृति विज्ञान का अध्ययन, बायोइनफॉर्मेटिक्स का उपयोग किया जाता था लेकिन छोटे पैमाने पर।
संरचनात्मक जैवसूचना विज्ञान उच्च-थ्रूपुट जीनोम-व्यापी परीक्षणों जैसे अनुक्रमण और डीएनए सूक्ष्म-श्रेणिकाओं पर आधारित सूचना विज्ञान से पहले आता है। ऐसा इसलिए है क्योंकि 1900 के दशक की शुरुआत में एनएमआर स्पेक्ट्रोस्कोपी और एक्स-रे क्रिस्टलोग्राफी का उपयोग कर प्रोटीनों की त्रि-आयामी संरचनाओं पर किए गए अध्ययन, 2000 के दशक की शुरुआत में पेश किए गए जीनोम और अन्य -ओम सूचना विज्ञान से पहले के हैं और आज तक जारी हैं। प्रोटीन डेटा बैंक (पीडीबी) संरचनाओं और जीनबैंक प्रविष्टियों की संख्या हर साल बढ़ रही है। जैवसूचना विज्ञान में प्राथमिक चिंता अनुक्रम और संरचनात्मक डेटा को डेटाबेस के रूप में प्रबंधित करना और इन डेटाबेसों से जैविक अर्थ प्राप्त करने के लिए डेटा खनन करना है। एनसीबीआई विभिन्न श्रेणियों (जीन, जीनोम, संरचना, अनुक्रम आदि) के तहत न्यूक्लियोटाइड और प्रोटीन डेटा की मेजबानी करता है। वर्तमान में, अभूतपूर्व दर पर उत्पन्न हो रहे जैविक डेटा और उनके विश्लेषण तथा व्याख्या से प्राप्त होने वाले महत्वपूर्ण जैविक अंतर्दृष्टि को उच्च प्राथमिकता मिली है। इसे प्राप्त करने के लिए सांख्यिकीय अनुकूलन और कई क्षेत्रों से संश्लेषण के साथ नए, अनुकूलित और श्रेष्ठ एल्गोरिद्म और उपकरण विकसित और कार्यान्वित किए जा रहे हैं। द्वितीय और तृतीय स्तर की सूचना पर आधारित डेटाबेस जैसे कि आण्विक पथ, जीन अभिव्यक्ति, प्रोटीन संरचना और कार्य, अंतःक्रिया नेटवर्क, रोग-संबंधी परिवर्तन, जीव-विशिष्टता और नियामक नेटवर्क तब से विकसित और उपयोग किए जा रहे हैं। जैवसूचना विज्ञान एक विकसित होता हुआ क्षेत्र है। जैविक डेटा की गतिशील प्रकृति के कारण, जीन और एक्सॉन-इंट्रॉन सीमाएं, अनुक्रमों में संदूषण और विसंगतियां, इन सिलिको अनुवाद त्रुटियां जैसे फ्रेमशिफ्ट त्रुटियां, एनोटेशन त्रुटियां, असेंबली त्रुटियां और सरल वर्तनी की गलतियां लगातार अद्यतन की जा रही हैं।
अब हम जैविक अणुओं के विभिन्न प्रकारों, इन तकनीकों द्वारा उत्पन्न डेटा के प्रकारों, और डेटा की व्याख्या तथा दृश्यकरण के लिए प्रयुक्त सामान्य विश्लेषणात्मक और सांख्यिकीय कार्यप्रवाहों के बारे में सीखेंगे (चित्र 9.3)। जीनोमिक डेटा के उत्पादन के लिए प्रयुक्त प्रयोगात्मक तकनीकों का विवरण इकाई V में वर्णित है।
चित्र 9.3. जैवअणुओं से कार्य तक
9.2.2. जैवअणुओं के विश्लेषण के लिए प्रयोगात्मक तकनीकों के प्रकार
जैवअणुओं की पहचान और/या मात्रात्मक निर्धारण के लिए प्रयुक्त कुछ महत्वपूर्ण प्रयोगात्मक तकनीकें सारणी 9.2 में दी गई हैं। इनमें से कुछ तकनीकों का विवरण इकाई V में वर्णित है।
सारणी 9.2: तकनीक का नाम, परीक्षित जैवअणु और तकनीक का उद्देश्य
| प्रौद्योगिकी | जैव-अणु | उद्देश्य |
|---|---|---|
| PCR (पॉलिमरेज़ चेन रिएक्शन) | DNA | रुचि के क्षेत्र को प्रवर्धित करना |
| RT (रियल-टाइम)-PCR/qPCR (मात्रात्मक PCR) | RNA | RNA अभिव्यक्ति का पता लगाना |
| नेक्स्ट-जनरेशन सीक्वेंसिंग | DNA/RNA | जीन/जीनोम और RNA का क्रम निर्धारण करना |
| जेल इलेक्ट्रोफोरेसिस | DNA, RNA और प्रोटीन | आकार और आवेश के आधार पर खंडों का पृथक्करण |
| HPLC (हाई-परफॉर्मेंस लिक्विड क्रोमैटोग्राफी) | उपापचयक | उपापचयकों का पृथक्करण, पहचान और मात्रा निर्धारण |
| MS (मास स्पेक्ट्रोमेट्री) | DNA, प्रोटीन, उपापचयक | खंडन, समस्थानिक संघटन का मापन और द्रव्यमान निर्धारण |
| EM (इलेक्ट्रॉन माइक्रोस्कोप) | DNA, RNA या प्रोटीन | संरचना और क्रम निर्धारण |
9.2.3 आणविक डेटा के प्रकार
विभिन्न प्रौद्योगिकियाँ विभिन्न जैव-अणुओं का परीक्षण करती हैं और विभिन्न प्रारूपों में विभिन्न प्रकार के डेटा आउटपुट उत्पन्न करती हैं (तालिका 9.3)। दो सामान्यतः प्रयुक्त DNA डेटा प्रारूपों (FASTQ और FASTA) का वर्णन इस अध्याय के बाद में दिया गया है (जीनोम इनफॉर्मेटिक्स)।
9.2.4 सामान्यतः प्रयुक्त विश्लेषणात्मक और सांख्यिकीय कार्यप्रवाह
जैविक ज्ञान का होना ओपन सोर्स या अन्य मालिकाना उपकरणों के कार्यान्वयन के लिए अनिवार्य नहीं हो सकता है। हालाँकि, प्रासंगिक प्रश्न पूछने और जैविक परिणामों की व्याख्या के लिए यह अनिवार्य है जैसा कि इस अध्याय की शुरुआत में उल्लेख किया गया है। किसी भी उपकरण के कार्य करने के पीछे तर्क और सिद्धांत को समझना चाहिए और अंतर्निहित मान्यताओं से अवगत रहना चाहिए।
तालिका 9.3: आणविक डेटा के प्रकार और उनके प्रारूप
कुछ सामान्यतः प्रयुक्त विश्लेषण उपकरण इस प्रकार हैं:
-
समोलोजी खोज (बेसिक लोकल अलाइनमेंट सर्च टूल (BLAST) - blastn, blastp)
-
अनुक्रम संरेखण (CLUSTAL, MAFFT, MUSCLE)
-
वंशावली (PHYLIP, PAUP)
-
जीन भविष्यवाणी (GlimmerHMM, GenScan)
-
कार्यात्मक समोलोजी खोज (HMMER)
-
आरएनए संरचना (mfold, sFold, uniFold)
-
नियामक क्षेत्र विश्लेषण (MatInspector, BEARR, RSAT)
-
प्रोटीन संरचना (Phyre2, Jpred)
बायोइनफॉर्मेटिक्स उपकरण विभिन्न सांख्यिकीय और कम्प्यूटेशनल एल्गोरिदम और दृष्टिकोणों का उपयोग करते हैं। कुछ सामान्यतः प्रयुक्त सांख्यिकीय पैकेज हैं:
-
स्टेटिस्टिकल पैकेज फॉर द सोशल साइंसेज (SPSS)
-
स्टेटिस्टिकल एनालिसिस सिस्टम (SAS)
-
$\mathrm{R}$
-
माइक्रोसॉफ्ट एक्सेल
जैविक डेटा विश्लेषण के अंतिम चरणों में, जीन और प्रोटीन स्तर के निष्कर्षों को कुछ कार्यों से जोड़ा जाता है। इन कार्यात्मक व्याख्याओं को सामान्यतः प्रयुक्त जैविक परीक्षणों जैसे लॉस- या गेन-ऑफ-फंक्शन परीक्षण, जीन नॉकआउट और जीन एडिटिंग का उपयोग करके बनाया जा सकता है। इसके अतिरिक्त, कम्प्यूटेशनल उपकरणों का उपयोग करके प्रभावित नेटवर्क और पथों का अनुमान लगाकर, किसी जीन और उसके प्रोटीन उत्पाद को कार्यात्मक महत्व सौंपा जा सकता है।
9.3 जैविक डेटाबेस
एक जैविक डेटाबेस एक ऐसा भंडार है जिसमें जैविक डेटा का एक संगठित, संरचित और खोज योग्य संग्रह होता है। दूसरे शब्दों में, यह जैविक सूचना का एक पुस्तकालय है, जिसे आसानी से एक्सेस और खोजा जा सकता है। एक जैविक डेटाबेस सभी संबंधित डेटा को उनके मूल निर्माताओं या किसी संदर्भ से जोड़ता है जो अंतर्निहित डेटा का वर्णन करता है। डेटाबेस में सूचना प्रयोगों और गणनात्मक दृष्टिकोणों के माध्यम से एकत्र की जाती है। उदाहरण के लिए, मानव जीनों का एक डेटाबेस सभी जीनों की वास्तविक न्यूक्लियोटाइड अनुक्रम और उनके गुण दोनों को समाहित करता है। डेटाबेस एकल शोधकर्ताओं के समूह द्वारा विभिन्न सार्वजनिक स्रोतों से सूचना एकत्र करके बनाया जा सकता है या कई शोध टीमों द्वारा एकल भंडार में डेटा जोड़कर बनाया जा सकता है। एक जैविक डेटाबेस केवल एक प्रकार की सूचना, उदाहरण के लिए, डीएनए अनुक्रम सूचना, या कई प्रकार की सूचना, उदाहरण के लिए, किसी जीन का प्राथमिक न्यूक्लियोटाइड अनुक्रम; किसी दिए गए जीन में किसी रोग विशिष्ट उत्परिवर्तन और विभिन्न जनसंख्याओं में सिंगल न्यूक्लियोटाइड पॉलिमॉर्फिज्म (SNP) की आवृत्ति; जीनों का अनुवादित प्रोटीन अनुक्रम, प्रोटीन और डोमेन की 3डी संरचनाएं, और एक प्रोटीन का अन्य प्रोटीनों के साथ कार्यात्मक अन्योन्यक्रिया संग्रहीत कर सकता है। एक अच्छे जैविक डेटाबेस की विशेषताएं हैं कि वह आसानी से एक्सेस और उपयोग में आए, उपयोगकर्ता के अनुकूल इंटरफेस हो, उत्कृष्ट दस्तावेजीकरण हो, सहायता कर्मचारी हों जो उपयोगकर्ताओं के किसी भी प्रश्न का उत्तर दे सकें, अंतर्निहित डेटा में त्रुटियों की अनुपस्थिति हो, क्रॉस-संदर्भित हो, और प्राथमिक स्रोत के अद्यतन होते ही सूचना को निरंतर अद्यतन करता रहे। दो मुख्य प्रकार के डेटाबेस होते हैं, रिलेशनल और नॉन-रिलेशनल। डेटाबेस को एक सॉफ्टवेयर सिस्टम जिसे डेटाबेस प्रबंधन प्रणाली (DBMS) कहा जाता है, के माध्यम से प्रबंधित किया जाता है जिसे डेटा को हेरफेर, पुनः प्राप्त और प्रबंधित करने के लिए उपयोग किया जाता है। संरचित क्वेरी भाषा (SQL) एक रिलेशनल डेटाबेस के लिए मानक अनुप्रयोग प्रोग्राम इंटरफेस है। एक नॉन-रिलेशनल या NoSQL डेटाबेस रिलेशनल डेटाबेस के क्रम का अनुसरण नहीं करता है और इसका उपयोग वितरित और असंरचित डेटा के बड़े समूहों के लिए किया जाता है।
9.3.1 जैविक डेटाबेस की आवश्यकता क्यों है?
कल्पना कीजिए कि आप अपने स्कूल लाइब्रेरी में जाते हैं और लाइब्रेरियन से एक किताब के बारे में पूछते हैं। क्या होगा अगर लाइब्रेरियन को physically सभी शेल्फ़ पर जाकर किताब ढूंढनी पड़े? इसमें समय लगेगा और कोई गारंटी नहीं कि किताब शेल्फ़ पर मिलेगी। इसके बजाय, अगर लाइब्रेरियन कंप्यूटर पर डेटाबेस में किताब का शीर्षक, लेखक या दोनों से keyword खोजकर ढूंढे, तो काम बहुत आसान हो जाएगा। इसीलिए हमें डेटाबेस की जरूरत होती है — खोज प्रक्रिया को आसान और भरोसेमंद बनाने के लिए। लाइब्रेरी में किताबें जैसी physical चीज़ें आंखों से दिखाई देती हैं, लेकिन न्यूक्लिओटाइड अनुक्रम, जीन या प्रोटीन संरचनाएं इतनी सूक्ष्म होती हैं कि इन्हें physically नहीं ढूंढा जा सकता। इसलिए, इन जानकारियों को मशीन-पठनीय प्रारूप में encode करके डेटाबेस में संग्रहित करना होता है, ताकि यूज़र इंटरफेस के ज़रिए आसानी से खोजी जा सकें। जैविक डेटा, विशेषकर विभिन्न जीवों के जीनोम डेटा और उनके कार्यों व परस्पर क्रियाओं, में exponential वृद्धि के साथ, जैविक सूचनाओं को डेटाबेस में संग्रहित करना अनिवार्य हो गया है।
कुछ सामान्यतः प्रयुक्त जैविक डेटाबेस हैं—
-
GenBank (https://www.ncbi.nlm.nih.gov/genbank/): एनोटेटेड सार्वजनिक रूप से उपलब्ध DNA अनुक्रमों का संग्रह।
-
PDB (https://www.wwpdb.org): प्रोटीन, न्यूक्लिक अम्ल और जटिल समुच्चयों की 3D संरचनाओं का संग्रह।
-
UniProt (https:/www.uniprot.org): प्रोटीन अनुक्रमों और कार्यों का एक संग्रह।
-
PubMed (https:/www.ncbi.nlm.nih.gov/pubmed/): जैव-चिकित्सीय साहित्य का एक संग्रह।
-
KEGG (https:/www.kegg.jp): जैविक पथों, रोगों, औषधियों और रासायनिक पदार्थों का एक संग्रह।
-
OMIM (https:/www.omim.org): मानव जीनों और आनुवंशिक विकारों की एक सूची।
उपरोक्त के अतिरिक्त, जीव-विशिष्ट, रोग-विशिष्ट और द्वितीयक डेटाबेस भी हैं जिनका जीवविज्ञानी नियमित रूप से उपयोग करते हैं।
9.3.2 डेटा दृश्यावली
जैविक डेटा दृश्यावली जैवसूचना विज्ञान का एक अनिवार्य पहलू है। इसमें ग्राफिक्स और डेटा निरूपण का उपयोग होता है और इसमें अनुक्रम, जीनोम, संरेखण, विकासवृक्ष, बृहदाणुकण संरचनाएँ, सूक्ष्मदर्शन और अन्य इमेजिंग सूचनाएँ शामिल होती हैं। डेटा दृश्यावली उपकरणों और उनके उपयोग के कुछ उदाहरण तालिका 9.4 में दिए गए हैं।
तालिका 9.4. डेटा दृश्यावली उपकरण और उनके उपयोग
| दृश्यावली उपकरण | उपयोग |
|---|---|
| UCSC Genome browser | |
| (https://genome.ucsc.edu/) | कशेरुकी और अकशेरुकी प्रजातियों पर मैक्रो- और माइक्रो-स्तरीय जीनोम जानकारी को देखने के लिए एक ऑनलाइन इंटरैक्टिव वेबसाइट। |
| KEGG(http://www.genome.jp/kegg/pathway.html) Biocarta (http://www.biocarta.com) Reactome (https://reactome.org/) |
पथों का दृश्यावलीकरण। |
| CIRCOS (circos.ca/) | वृत्ताकार लेआउट में डेटा का दृश्यावलीकरण। |
| EXCEL | हिस्टोग्राम, स्कैटर प्लॉट, बबल चार्ट, हीट मैप |
| R (https://www.r-project.org/) | सांख्यिकीय कम्प्यूटिंग और ग्राफ़िक्स उत्पन्न करने के लिए एक सॉफ़्टवेयर वातावरण। |
| D3.js (https://d3js.org/) | वेब ब्राउज़रों में गतिशील, इंटरैक्टिव डेटा दृश्यावली उत्पन्न करने के लिए एक जावास्क्रिप्ट लाइब्रेरी। |
| Phinch (phinch.org/) | जैविक डेटा को देखने के लिए एक इंटरैक्टिव, अन्वेषणात्मक ढांचा। |
| Integrative Genomics Viewer (IGV, http://software. broadinstitute.org/software/igv/) | बड़े, एकीकृत जीनोमिक डेटासेट्स की इंटरैक्टिव खोज के लिए एक दृश्यावली उपकरण। |
9.4 जीनोम इनफॉर्मेटिक्स
जीनोम
जीनोम किसी जीव का डीएनए का पूर्ण समुच्चय होता है, जिसमें उसके जीन और अंतरजीनिक क्षेत्र दोनों सम्मिलित होते हैं। जीनोमिक्स विज्ञान का एक क्षेत्र है जो जीनोम की संरचना, कार्य, विकास, मानचित्रण और संशोधन से संबंधित है। जीनोम इनफॉर्मेटिक्स जीनोम-व्यापी परीक्षणों और प्रौद्योगिकियों के उत्पादों को संसाधित करने के लिए जैव-सूचना-विज्ञान उपकरणों का अनुप्रयोग है, जो आंकड़ों की व्याख्या को सरल बनाता है और उन्हें कार्य से जोड़ता है। जीनोमिक्स ओमिक्स क्षेत्रों में से एक है (अन्य सामान्यतः प्रयुक्त पद हैं ट्रांसक्रिप्टोमिक्स, प्रोटियोमिक्स, मेटाबोलोमिक्स) जो पिछले दशक में तीव्रता से विकसित हुआ है।
जीनोम की जानकारी हाई-थ्रूपुट विधियों या ऐसे परीक्षणों द्वारा प्राप्त की जाती है जो DNA/RNA के न्यूक्लियोटाइड अनुक्रम, जीनोम में विभिन्नताओं, जीन अभिव्यक्ति में बदलावों, नियामक प्रोटीनों के DNA/RNA से बंधने के प्रोफाइल, तथा DNA/RNA मेथिलेशन और अन्य प्रोफाइल परिवर्तनों पर सूचना देते हैं। इन विधियों का विवरण इकाई V में दिया गया है। ‘हाई-थ्रूपुट’ शब्द उस प्रक्रिया से सम्बद्ध है जो बड़ी मात्रा में डेटा उत्पन्न करती है। जीनोम अनुक्रमण से उत्पन्न डेटा की मात्रा काफी अधिक होती है। एक तुलना के तौर पर, यदि आपके व्यक्तिगत कंप्यूटर में 1TB हार्डडिस्क स्थान है, तो दुनिया के कुछ बड़े जीनोम केंद्र—जैसे मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) और हार्वर्ड का ब्रॉड इंस्टीट्यूट—प्रतिदिन लगभग 24 TB जीनोम डेटा उत्पन्न करते हैं (2018 की शुरुआत के अनुसार)। यह लगभग 5000 व्यक्तिगत कंप्यूटरों के बराबर वार्षिक डेटा है (मान लीजिए कि एक वर्ष में 200 कार्य दिन हैं)। यद्यपि ब्रॉड जैसे बड़े जीनोम संस्थान बहुत कम हैं, फिर भी यह आपको आज उत्पन्न होने वाले जीनोम डेटा की विशालता का अनुमान देता है। वास्तव में, यह अनुमान लगाया गया है कि जीनोम डेटा को संभालने के लिए आवश्यक कम्प्यूटिंग संसाधन ट्विटर और यूट्यूब के डेटा को प्रोसेस करने वाले संसाधनों से भी अधिक हो जाएंगे। चूँकि डेटा की मात्रा बहुत अधिक है, जीनोम डेटा को अंतर्निहित जटिलता, पैटर्न और अर्थ को समझने के लिए कंप्यूटर विज्ञान, सूचना प्रौद्योगिकी, मात्रात्मक विधियाँ और विश्लेषण, तथा सांख्यिकी की शक्ति की आवश्यकता होती है।
9.4.1 मानव जीनोम परियोजना
मानव कोशिकाओं में सम्पूर्ण न्यूक्लिओटाइड सामग्री को क्रमबद्ध करने की एक पहल 1990 के दशक की शुरुआत में शुरू हुई। इस पहल को ह्यूमन जीनोम प्रोजेक्ट के नाम से जाना जाता है। फ्रेड सेंगर द्वारा प्रस्तावित और प्रयुक्त विधि को संशोधनों के साथ दोनों—यूएसए के नेशनल इंस्टीट्यूट्स ऑफ हेल्थ के नेशनल ह्यूमन जीनोम रिसर्च इंस्टीट्यूट (NHGRI) के नेतृत्व वाले सार्वजनिक रूप से वित्तपोषित प्रयास और निजी कंपनी सेलेरा जीनोमिक्स—द्वारा प्रयोग किया गया। दोनों प्रयासों ने डीएनए को क्रमबद्ध करने के लिए भिन्न-भिन्न विधियाँ अपनाईं। सार्वजनिक रूप से वित्तपोषित पहल ने बैक्टीरियल आर्टिफिशियल क्रोमोसोम्स में क्लोन किए गए मानव डीएनए को क्रमबद्ध किया, जबकि सेलेरा जीनोमिक्स ने यादृच्छिक रूप से काटे गए मानव डीएनए को क्रमबद्ध किया, जिसे होल-जीनोम शॉटगन सीक्वेंसिंग विधि कहा जाता है।
पहला सम्पूर्ण प्रारूपिक मानव जीनोम 2001 में प्रकाशित हुआ। यद्यपि यह परियोजना, जिसने 2003 में सम्पूर्ण मानव जीनोम की रिलीज़ की घोषणा की, आज भी एक अधूरी कार्यवाही है, क्योंकि आज उपलब्ध मानव जीनोम अनुक्रम में कई ऐसे रिक्त स्थान हैं जहाँ अनुक्रम की जानकारी अज्ञात है। जीनोम का अधिकांश क्रमबद्ध भाग क्रोमोसोम्स के यूक्रोमैटिक क्षेत्र में है और हेट्रोक्रोमैटिक क्षेत्रों की न्यूनतम प्रतिनिधित्व है। हेट्रोक्रोमैटिक क्षेत्र मुख्यतः पुनरावृत्त तत्वों से बने होते हैं, जो प्रायः क्रोमोसोम्स के सेंट्रोमेरिक और टेलोमेरिक क्षेत्रों में स्थित होते हैं और वर्तमान सीक्वेंसिंग तकनीक से विश्लेषण करना कठिन होता है। इसके अतिरिक्त, डीएनए की पुनरावृत्त प्रकृति के कारण उन्हें क्रोमोसोम में एक ही स्थान पर असंदिग्ध रूप से जोड़ना कठिन होता है।
9.4.2 सामान्यतः प्रयुक्त डेटा प्रारूप
जैवसूचना विज्ञान की एक चुनौती परिणामी डेटा के विभिन्न प्रारूपों के साथ काम करना है। जैवसूचना विज्ञान समुदाय समान एनालाइट्स के लिए डेटा का एक मानक डेटा प्रारूप अपनाता है। उदाहरण के लिए, अधिकांश डीएनए अनुक्रमण डेटा (कुछ अपवादों के साथ) उच्च-थ्रूपुट डीएनए सीक्वेंसरों से फास्टक्यू प्रारूप में प्रस्तुत किया जाता है। यह एक टेक्स्ट-आधारित प्रारूप है जो अनुक्रम जानकारी को उसके संगत गुणवत्ता स्कोर के साथ संग्रहित करता है। अनुक्रम अक्षर और उसका संगत गुणवत्ता स्कोर दोनों को एक एकल ASCII वर्ण से एन्कोड किया जाता है। फास्टक्यू अनुक्रम में अनुक्रम जानकारी फास्टा प्रारूप का उपयोग करती है, जो एकल-अक्षर कोड में अनुक्रम जानकारी को दर्शाने के लिए एक टेक्स्ट-आधारित प्रारूप है (चित्र 9.4B)।
एक FASTA फ़ाइल और FASTQ फ़ाइल का उदाहरण तालिका 9.3 में दिया गया है। FASTA फ़ाइल की पहली पंक्ति आमतौर पर “>” (greater-than) प्रतीक से शुरू होती है और अनुक्रम का सारांश विवरण रखती है, अक्सर एक अद्वितीय लाइब्रेरी एक्सेशन संख्या या जीन का नाम। एक FASTQ फ़ाइल आमतौर पर प्रत्येक अनुक्रम के लिए चार पंक्तियाँ उपयोग करती है। पहली पंक्ति ‘$a$’ वर्ण से शुरू होती है, जिसके बाद अनुक्रम विवरण होता है; पंक्ति 2 में कच्चे अनुक्रम अक्षर होते हैं, पंक्ति 3 ‘+’ वर्ण से शुरू होती है, और पंक्ति 4 में पंक्ति 2 में दिए गए अनुक्रम के लिए गुणवत्ता मान दिखाए जाते हैं। पंक्ति 4 में गुणवत्ता मान उतने ही प्रतीकों में होते हैं जितने अक्षर पंक्ति 2 में दिए गए अनुक्रम में हैं। इसके अतिरिक्त, पंक्ति 1 और पंक्ति 3 दोनों में वैकल्पिक अनुक्रम पहचानकर्ता शामिल हो सकते हैं। पंक्ति 4 में गुणवत्ता मान दर्शाते समय, ‘!’ और ‘$\sim$’ वर्ण क्रमशः सबसे निम्न और सबसे उच्च गुणवत्ता को दर्शाते हैं।
9.4.3 जीनोम इनफॉर्मेटिक उपकरण
जीनोम इनफॉर्मेटिक्स उपकरण अनुक्रमण प्रौद्योगिकी के विकास के समानांतर उभरे ताकि उत्पन्न डेटा का विश्लेषण किया जा सके। उच्च-थ्रूपुट अनुक्रमण यंत्र अनुक्रम रीड्स उत्पन्न करते हैं, जो लक्ष्य आकार और प्रयुक्त यंत्र के आधार पर या तो छोटे (लगभग 100-150 न्यूक्लियोटाइड) या लंबे (कुछ किलोबेस) होते हैं। परिणामी अनुक्रमित रीड्स को या तो किसी जीनोम में असेंबल किया जाता है (जहाँ पूर्व में कोई जीनोम जानकारी नहीं है) या किसी संदर्भ जीनोम से संरेखित किया जाता है (री-सीक्वेंसिंग के मामले में)। व्यापक रूप से दो संभावित विश्लेषणात्मक कार्यप्रवाह हैं—एक संदर्भ अनुक्रम (जैसे जीनोम) से रीड्स को संरेखित करने पर आधारित और दूसरा रीड्स को ड्राफ्ट संदर्भ जीनोम अनुक्रम में डी नोवो असेंबली पर आधारित। दोनों परिदृश्यों में अनुक्रमण डेटा को पूर्व-प्रक्रमित किया जाता है और गुणवत्ता की जाँच की जाती है (तालिका 9.6)।
तालिका 9.6: कच्चे अनुक्रमण डेटा के पूर्व-प्रक्रमन हेतु गुणवत्ता नियंत्रण उपकरण
| उपकरण श्रेणी | उपकरणों के उदाहरण | कार्य |
|---|---|---|
| QC (गुणवत्ता नियंत्रण) | FastQC | उच्च-थ्रूपुट अनुक्रम डेटा का QC करना |
| Trimmomatic | गुणवत्ता और अडाप्टर ट्रिमिंग |
संरेखण-आधारित वर्कफ़्लो के लिए उपयुक्त लघु या दीर्घ रीड संरेखक चुनना आवश्यक होता है, जिसके बाद एक या अधिक वेरिएंट कॉलर और फ़िल्टर किए गए वेरिएंट्स की पोस्ट-प्रोसेसिंग तथा व्याख्या की जाती है। संदर्भ जीनोम पर लघु अनुक्रम रीड्स का संरेखण और तीन प्रमुख प्रकारों के वेरिएंट्स—सिंगल न्यूक्लियोटाइड वेरिएंट्स (SNVs), इन्सर्शन और डिलीशन (InDels), तथा कॉपी नंबर वेरिएंशन (CNVs)—का विज़ुअलाइज़ेशन आकृति 9.4A में दिखाया गया है।
<img src="
आकृति 9.4: (A) रीड से संदर्भ संरेखण पर SNVs, InDels और CNVs का विज़ुअलाइज़ेशन
(B) FASTA प्रारूप
जैवसूचना विज्ञान का परिचय
आकृति 9.5: रीड्स का एक निरंतर खंड (कॉन्टिग) में असेंबली
डी नोवो असेंबली आधारित वर्कफ़्लो ओवरलैप्स और इनसर्ट साइज़ (पेयर्ड-एंड रीड्स के बीच की दूरी) के आधार पर रीड्स को जोड़कर जीनोम की असेंबली करता है। इस असेंबली पर आगे एनोटेशन और प्रोसेसिंग की जाती है, अर्थात् नवीन जीनों की भविष्यवाणी, ज्ञात जीनों से समानता के आधार पर जीनों की पहचान, जीन अभिव्यक्ति की मात्रा निर्धारण, स्प्लाइस वेरिएंट्स, नवीन आइसोफ़ॉर्म्स और फ्यूज़्ड ट्रांसक्रिप्ट्स की पहचान।
एक सरलीकृत प्रदर्शन जिसमें रीड्स को एक निरंतर खंड (कॉन्टिग) में जोड़ा जाता है, चित्र 9.5 में दिया गया है। असेंबलर की गुणवत्ता इस बात पर निर्भर करती है कि वह इन कॉन्टिग्स और स्कैफोल्ड्स (खाली स्थानों द्वारा जुड़े कॉन्टिग्स) को कितनी अच्छी तरह और कम त्रुटि दर के साथ जोड़ता है। असेंबली की अखंडता और निरंतरता को मापने के लिए कई मापदंड होते हैं। एक ऐसा ही मापदंड $\mathrm{N} 5 \mathrm{O}$ कहलाता है, जो न्यूनतम कॉन्टिग लंबाई है जो कम से कम जीनोम के $50 %$ को कवर करने के लिए आवश्यक होती है। दूसरे शब्दों में, N50 वह कॉन्टिग लंबाई है जिस पर और जिससे ऊपर के सभी कॉन्टिग्स मिलकर जीनोम के $50 %$ को बनाते हैं। हालांकि, इन मात्रात्मक आँकड़ों पर अकेले भरोसा नहीं किया जा सकता क्योंकि ये असेंबली की गुणवत्ता और त्रुटिरहित होने की स्थिति को ध्यान में नहीं रखते। माइक्रोएरे के संदर्भ में, पूर्व-प्रक्रिया और विश्लेषण के लिए विशेष उपकरण होते हैं। पूर्व-प्रक्रिया सिस्टेमिक शोर विचरण और बैच प्रभावों को हटाने के लिए की जाती है और डेटा को व्यापक रूप से तुलनात्मक बनाती है।
जीनोम डेटा के डाउनस्ट्रीम विश्लेषण के लिए कई रूपांतरण और सहायक उपकरण हैं। नीचे दी गई तालिका 9.7 में इनमें से कुछ उपकरणों को दर्शाया गया है।
तालिका 9.7: विश्लेषणात्मक कार्यप्रवाह में प्रयुक्त रूपांतरण और सहायक उपकरण
| अलाइनर्स |
|
|
|
|||||||||
|
|
|||||||||||
|
BLAST (bl2seq) |
|
||||||||||
| CLUSTAL | बहु-अनुक्रम अलाइनमेंट प्रोग्रामों की श्रृंखला | |||||||||||
|
|
|||||||||||
|
|
|||||||||||
|
SAMtools |
|
||||||||||
|
|
9.4.4 डाउनस्ट्रीम विश्लेषण, डेटा की व्याख्या और फंक्शन से लिंकिंग
जीनोम एनोटेशन
जीनोम एनोटेशन जीनोम में मौजूद सभी विशेषताओं की पहचान और वर्गीकरण की प्रक्रिया है। एक बार जब कोई जीनोम असेंबल हो जाता है, तो इसका विश्लेषण कोडिंग जीन के हिस्सों, एक्सॉन-इंट्रॉन जंक्शन, रिपीट एलिमेंट्स, नॉन-कोडिंग एलिमेंट्स और स्यूडोजीन के स्थानों की भविष्यवाणी और पहचान के लिए किया जाता है। यह एक महत्वपूर्ण प्रक्रिया है क्योंकि सभी डाउनस्ट्रीम विश्लेषण इसके आउटपुट पर निर्भर करते हैं। रिपीट्स किसी भी यूकैरियोटिक जीनोम का एक महत्वपूर्ण घटक होते हैं। ये व्यक्तिगत जीनोम को विविधता प्रदान करते हैं और उनके विकास में एक महत्वपूर्ण भूमिका निभा सकते हैं। जीनोम में रिपीट्स को तीन प्रमुख श्रेणियों में वर्गीकृत किया जाता है - ट्रांसपोज़ॉन, सैटेलाइट और लो कॉम्प्लेक्सिटी रीजन। इनमें से, ट्रांसपोज़ॉन रिपीट एलिमेंट्स का सबसे बड़ा हिस्सा बनाते हैं। रिपीट विश्लेषण का सबसे सरल रूप एक टूल RepeatMasker का उपयोग करके किया जा सकता है यदि सैंपल किसी मॉडल जीव के करीब है। यदि कोई निकट संबंधी ज्ञात नहीं है, तो पहले RepeatModeler टूल का उपयोग करके सैंपल के लिए रिपीट्स की एक लाइब्रेरी बनाई जा सकती है, और इस लाइब्रेरी को बाद में RepeatMasker द्वारा उपयोग किया जा सकता है।
वेरिएंट पहचान और वर्गीकरण
सभी वेरिएंट जिन्हें वेरिएंट कॉलर्स द्वारा कॉल किया जाता है, वे अनिवार्य रूप से अध्ययन किए जा रहे कार्य या रोग से जुड़े नहीं होते हैं। वेरिएंटों की संख्या को कार्यात्मक फिल्टरों द्वारा घटाया जाता है, जैसे कि वे जो प्रोटीन अनुक्रम को प्रभावित करते हैं, स्प्लाइस वेरिएंट, और स्टॉप कोडन रीड थ्रू। इन फिल्टरों में दूसरा सोमैटिक फिल्टर है और यह आमतौर पर तब लगाया जाता है जब कोई रोग-विशिष्ट वेरिएंटों की तलाश कर रहा हो। इसके बाद, नियंत्रण नमूने और रोग नमूने के बीच सामान्य वेरिएंटों को घटाया जाता है, जिससे केवल संभावित रोग-विशिष्ट या सोमैटिक वेरिएंट शेष रहते हैं। एक बार जब वेरिएंटों को सीमित कर दिया जाता है; तो उन्हें अतिरिक्त नमूनों में वैकल्पिक कम-थ्रूपुट और ऑर्थोगोनल तकनीकों का उपयोग करके मान्य किया जाना चाहिए इससे पहले कि उनके कार्यात्मक प्रभावों की व्याख्या की जाए।
जीन भविष्यवाणी
जीन भविष्यवाणी में जीनोम में सभी कोडिंग तत्वों की पहचान शामिल होती है। जीन भविष्यवाणी के लिए उपयोग किए जाने वाले उपकरण या तो $a b$ initio, समानता-आधारित या एकीकृत मॉडल का अनुसरण कर सकते हैं। समानता-आधारित दृष्टिकोण कोडिंग क्षेत्रों की पहचान के लिए अनुक्रम समानता का उपयोग करता है। BLAST और इसके उप-पैकेज जैसे प्रोग्राम मौजूदा अनुक्रमों का उपयोग करके एक विस्तृत तुलनात्मक खोज करने के लिए उपयोग किए जाते हैं। जीनों की पहचान करने के लिए अंतिम दृष्टिकोण दोनों रणनीतियों का उपयोग करता है, और इन दोनों विधियों से प्राप्त जीन भविष्यवाणी परिणामों को एकीकृत करता है।
जीन ऑन्टोलॉजी
जीन भविष्यवाणी के बाद, जीन उत्पादों और उनसे जुड़े कार्यों को बिना किसी अस्पष्टता के एकीकृत और निरूपित करने की आवश्यकता होती है। जीन ऑन्टोलॉजी परियोजना इस उद्देश्य को पूरा करती है और तीन शब्दावलियाँ या ऑन्टोलॉजी प्रदान करती है जो जीन उत्पादों को उनसे जुड़े जैविक प्रक्रियाओं, कोशिकीय घटकों और आणविक कार्यों के संदर्भ में वर्णित कर सकती हैं।
ट्रांसक्रिप्ट भविष्यवाणी
ट्रांसक्रिप्ट्स (कोडिंग और नॉन-कोडिंग दोनों) की भविष्यवाणी अकथित जीनों/ट्रांसक्रिप्ट्स की पहचान को समझने के लिए महत्वपूर्ण है। इसके लिए कई उपकरण उपलब्ध हैं। उदाहरण के लिए, Cufflinks, cuffmerge और cuffcompare एक सूट का हिस्सा हैं जो ट्रांसक्रिप्ट्स की पहचान में सहायता करते हैं।
जैविक विकासवाद विश्लेषण
जैविक विकासवाद विश्लेषण किसी जीव की अन्य जीवों के साथ विकासवादी संबंध (विकासक्रम) को निर्धारित करने के लिए किया जाता है। यह संबंध एक आरेख के रूप में व्यक्त किया जा सकता है जिसे क्लैडोग्राम या विकासवादीय वृक्ष कहा जाता है, और आरेख पर किसी जीव की दूरी यह दर्शाती है कि वह जीव विकासवादी पैमाने पर अन्य जीवों से कितना निकट संबंधित है। विकासवादी दूरियों की गणना के लिए विभिन्न विधियाँ हैं जिनका उपयोग PHYLIP और PAUP जैसे विकासवाद विश्लेषण उपकरण करते हैं।
9.4.5 मानव आनुवंशिक रोगों से संबंधित डेटा का विश्लेषण
जीनोम में जेनेटिक असामान्यताएं कई मानव रोगों का कारण बनती हैं। इन विकारों की आवृत्ति सामान्य से लेकर दुर्लभ तक हो सकती है, जो जेनेटिक विचलन की एलील आवृत्ति पर निर्भर करती है। विकार जो एकल जीन की एक या दोनों प्रतियों में उत्परिवर्तन के कारण होते हैं, उन्हें मोनोजेनिक (एकल जीन) विकारों के रूप में वर्गीकृत किया जाता है। इनके उदाहरण हैं सिकल सेल एनीमिया और सिस्टिक फाइब्रोसिस। यदि रोग ऑटोसोम (क्रोमोसोम 1-22, क्रोमोसोम X और Y को छोड़कर) में किसी जीन के विचलन के कारण हो रहा है, तो इसे ऑटोसोमल विकार कहा जाता है। रिसेसिव लक्षण या रोग उन दोनों एलील्स में विचलन के कारण होते हैं, जहाँ दोनों माता-पिता रोग के वाहक होते हैं, यदि वे स्वयं प्रभावित नहीं भी हों। दूसरी ओर, डॉमिनेंट लक्षण एक एलील में विचलन के कारण हो सकते हैं, जहाँ कम से कम एक माता-पिता प्रभावित होता है। लिंग क्रोमोसोम से जुड़े लक्षणों में, X-लिंक्ड लक्षण या तो डॉमिनेंट या रिसेसिव हो सकते हैं, लेकिन Y-लिंक्ड लक्षण अनिवार्य रूप से डॉमिनेंट होते हैं क्योंकि केवल एक Y एलील होता है। वंशानुक्रम की तीसरी श्रेणी को कहा जाता है
चित्र 9.6: उच्च-थ्रूपुट सीक्वेंसरों से उत्पन्न डेटा के लिए एक विशिष्ट मानव जेनेटिक्स विश्लेषण वर्कफ़्लो
अपूर्ण प्रभुत्व या सहप्रभुत्व मौजूद होता है, जहाँ एक ऐलील दूसरे ऐलील पर पूरी तरह से अभिव्यक्त नहीं होता, जिससे एक मध्यवर्ती फ़नोटाइप उत्पन्न होता है। सिकल सेल एनीमिया अपूर्ण प्रभुत्व का एक उदाहरण है, जहाँ सिकल सेल एनीमिया के लिए रिसेसिव ऐलील और सामान्य कोशिकाओं के लिए डॉमिनेंट ऐलील दोनों एक साथ अभिव्यक्त होते हैं। बड़े सगे-संबंधी (सगे-संबंधी विवाह तब होते हैं जब निकट संबंधित व्यक्ति विवाह करते हैं) परिवारों में, ऑटोसोमल रिसेसिव विचलन आमतौर पर ऑटोज़ाइगोसिटी के लंबे हिस्सों (1 MB या उससे बड़े) में रहते हैं। ये हिस्से सार्थक और रोग-प्रासंगिक विचलनों को सीमित करने में सक्षम बनाते हैं। गैर-सगे-संबंधी परिवारों में ऑटोसोमल रिसेसिव और दुर्लभ बीमारियों की स्थिति में संभावित वंशानुक्रम मॉडल यौगिक विषमजाइगोसिटी है, जो दो प्रभावी उत्परिवर्तनों के कारण होता है, एक प्रत्येक ऐलील पर।
मानव आनुवंशिक प्रयोग के लिए विश्लेषणात्मक कार्यप्रवाह को चित्र 9.6 में दिखाया गया है। अनुक्रमण रीड्स को एक श्रृंखला में ले जाया जाता है जब तक कि कारणकारी विचलन नहीं मिल जाता। एक बार जब टिप्पणीकृत विचलनों की सूची मिल जाती है, प्रारंभिक जैवसूचना विश्लेषण के बाद, चुनौती यह होती है कि वास्तविक रोग-संबद्ध विचलन को आबादी में सामान्य बहुरूपता और अनुक्रमण त्रुटियों से उत्पन्न हुए विचलनों से अलग किया जाए। कारणकारी विचलन की पहचान के लिए विभिन्न निस्पंदन चरणों को शामिल करना आवश्यक होता है। प्रारंभिक प्राथमिकता के लिए, वे विचलन जो सामान्यतः कोडिंग क्षेत्रों के बाहर मौजूद होते हैं, उन्हें बाहर किया जाता है, साथ ही समानार्थक कोडिंग विचलन (वे जो अमीनो अम्ल को नहीं बदलते) को भी, इस आधार पर कि कोडिंग क्षेत्र जीनोम के बेहतर समझे गए क्षेत्र हैं, और समानार्थक विचलनों का रोग फ़ीनोटाइप पर न्यूनतम प्रभाव पड़ेगा। अगला निस्पंदन चरण उन विचलनों को बाहर करना शामिल करता है जो सार्वजनिक डेटाबेस जैसे dbSNP, HapMap, 1000 Genome project, ExAC और GnomAD में मौजूद हैं, चूंकि ये विचलन आबादी में अधिक सामान्य रूप से मौजूद होते हैं, वे सामान्यतः किसी दुर्लभ रोग से संबद्ध नहीं होंगे। यह निस्पंदन नए उम्मीदवार विचलनों की संख्या को काफी कम कर देता है जिन्हें in silico और कार्यात्मक विश्लेषणों द्वारा कारणकारी विचलन की पहचान के लिए स्क्रीन करने की आवश्यकता होती है। विचलन खोज को सामान्यतः उन जीनों तक सीमित किया जाता है जो प्रभावी वंशानुक्रम मॉडल के मामले में विषमयुग्मज उत्परिवर्तन रखते हैं। समयुग्मज या यौगिक विषमयुग्मज के मामले में, कम से कम दो नए विचलन रखने वाले जीनों को ध्यान में लिया जाता है।
एग्ज़ोम सीक्वेंसिंग का उपयोग पिछले 5 वर्षों में मानव रोग जीनों की खोज के लिए व्यापक रूप से किया गया है। पूर्ण-जीनोम सीक्वेंसिंग की तुलना में यह सस्ता है, डेटा विश्लेषण के लिए काफी कम प्रयास की आवश्यकता होती है और डेटा की व्याख्या करना आसान होता है। एग्ज़ोम सीक्वेंसिंग तकनीकों के आगमन से पहले किसी वंशानुगत आनुवंशिक रोग के लिए दुर्लभ कारण जीन को खोजना या खोजना एक कठिन कार्य था। जीनोम में किसी रोग जीन को सफलतापूर्वक मैप करने में वर्षों लग जाते थे। लिंकेज मैपिंग और उम्मीदवार जीन विश्लेषण, दोनों समय लेने वाले और श्रम-गहन थे, और दशकों तक एग्ज़ोम और पूर्ण-जीनोम सीक्वेंसिंग तकनीकों के आगमन से पहले रोग जीनों को मैप करने के प्राथमिक उपकरण थे। रोग जीन खोज की पारंपरिक विधियां विस्तृत वंशावली जानकारी पर निर्भर करती थीं, जिसमें रोगग्रस्त व्यक्ति को गैर-रोगग्रस्त व्यक्तियों से महत्वपूर्ण रूप से वर्गीकृत करना शामिल था। वंशावली जितनी अधिक सूचनात्मक होती थी, मेंडेलियन पैटर्न खोजने की संभावना उतनी ही अधिक होती थी। pVAAST (Pedigree Variant Annotation, Analysis, and Search Tool) और PLINK जैसे उपकरण रोग से जुड़े आनुवंशिक विचलनों की पहचान में सक्षम बनाते हैं। OMIM (Online Mendelian Inheritance in Man) एक आनुवंशिक रोगों का डेटाबेस है जिसका उपयोग मानव आनुवंशिकता शोधकर्ता व्यापक रूप से करते हैं। इसके अतिरिक्त Clinvar और Orphanet जैसे डेटाबेस मानव मेंडेलियन, जटिल और पर्यावरणीय रोगों से जुड़े क्यूरेटेड जीनों की सूची बनाते हैं। दुर्लभ आनुवंशिक विकारों के लिए, ExAC (Exome Aggregation Consortium) और gnomAD (Genome Aggregation Database) डेटाबेस क्रमशः एग्ज़ोम और जीनोम में सामान्य विचलनों को फ़िल्टर करने में मदद करते हैं।
हालांकि एक्सोम सीक्वेंसिंग तकनीकों का मैंडेलियन जेनेटिक रोगों के अध्ययन में व्यापक रूप से उपयोग किया गया है, इस तकनीक की कुछ कमियाँ हैं। यह तकनीक जीनोम के प्रोटीन कोडिंग क्षेत्रों पर केंद्रित होती है, इसलिए यह नॉन-कोडिंग क्षेत्रों में वेरिएंट्स को छोड़ देती है। इसके अतिरिक्त, जीनोम के कोडिंग हिस्सों को कैप्चर करने और विकासवादी रूप से संरक्षित क्षेत्रों तथा रेगुलेटरी क्षेत्रों में कवरेज के लिए उपयोग की जाने वाली प्रक्रिया अक्सर पूरी नहीं होती। इसके अतिरिक्त, हाई-थ्रूपुट सीक्वेंसिंग तकनीकों में सैंजर सीक्वेंसिंग की तुलना में उच्च बेस कॉलिंग एरर रेट होता है। हाई-थ्रूपुट सीक्वेंसिंग तकनीक के उपयोग की एक अन्य प्रमुख सीमा डेटा विश्लेषण है। अधिकांश छोटे प्रयोगशालाएं महत्वपूर्ण मात्रा में डेटा को संभालने के लिए सुसज्जित या प्रशिक्षित नहीं हैं। कई जेनेटिक विकार अत्यंत दुर्लभ होते हैं और इसलिए, कारणकारी एलील की जनसंख्या में बहुत कम आवृत्ति होती है जिसके लिए बड़ी संख्या में प्रभावित व्यक्तियों को सीक्वेंस किया जाना आवश्यक होता है जिससे अध्ययन बहुत महंगा हो जाता है। इसके अतिरिक्त, कुछ वेरिएंट्स जनसंख्या विशिष्ट हो सकते हैं और आवश्यक रूप से रोग से संबद्ध नहीं हो सकते। इसलिए, कई मानव जेनेटिक अध्ययनों के लिए समान जातीयता के स्वस्थ नियंत्रणों का सावधानीपूर्वक चयन आवश्यक है। होल जीनोम सीक्वेंसिंग एक्सोम सीक्वेंसिंग की कुछ सीमाओं को दरकिनार करता है, सबसे कम पक्षपाती और सबसे व्यापक विधि प्रदान करता है जो उन वेरिएंट्स की पहचान करने के लिए की जा सकती है जिन्हें एक्सोम सीक्वेंसिंग से पहचाना नहीं जा सकता, उदाहरण के लिए, बड़े संरचनात्मक परिवर्तन जैसे कॉपी नंबर वेरिएंशन्स, ट्रांसलोकेशन्स, और फ्यूजन इवेंट्स।
9.4.6 भविष्य में कृत्रिम बुद्धिमत्ता (AI) की भूमिका
हम एक ऐसे युग में प्रवेश कर रहे हैं जहाँ कृत्रिम बुद्धिमत्ता (AI) की संभावना धीरे-धीरे साकार होने लगी है। Libratus और AlphaGo जैसे बॉट्स पहले ही पोकर और गो जैसे खेलों में वास्तविक जीवन के विशेषज्ञों पर विजय प्राप्त कर चुके हैं। मशीन लर्निंग भी खेती में सुधार और स्वास्थ्य सेवा के विकल्पों को विस्तृत करने में अपनी उपस्थिति दर्ज कराने लगी है। उदाहरण के लिए, अमेरिका में आधारित AI-आधारित उपकरणों का उपयोग आँखों की बीमारियों का निदान करने के लिए किया जाता है जो आँखों के हजारों संग्रहित चित्रों पर आधारित होते हैं। यह संभव है कि हमारे पास अस्पतालों में कंप्यूटर होंगे जो नियमित रूप से $\mathrm{X}$-रे और पैथोलॉजी स्लाइड पढ़ेंगे और रेडियोलॉजिस्टों और पैथोलॉजिस्टों को मानव रोगों का सही और तेज़ निदान करने में सहायता करेंगे। AI में यह भी महत्वपूर्ण संभावना है कि यह हमारे किसानों को उनकी पैदावार में सुधार करने और फसलों के चयन में सहायता कर सके। कई मौजूदा जैवसूचना विज्ञान उपकरण पहले से ही जीनोमिक विचलनों को बुलाने और उनके महत्व स्तर का आकलन करने के लिए मशीन लर्निंग एल्गोरिदमों का उपयोग कर रहे हैं। हालांकि, अन्य वास्तविक जीवन की स्थितियों की तरह जहाँ सिरी (Apple से) या एलेक्सा (Amazon से) जैसे व्यक्तिगत सहायक पूर्णतः सही नहीं हैं और सब कुछ नहीं कर सकते, $\mathrm{AI}$ और जैवसूचना विज्ञान के बीच एक सफल संगम को सफल परिणाम देने के लिए समय और बहु-विषयक प्रयासों की आवश्यकता होगी। ऐसे संगम के लिए उपकरणों में पर्याप्त बुद्धिमत्ता विकसित करनी होगी ताकि वे डेटा की व्याख्या कर सकें और परिकल्पनाएँ उत्पन्न कर सकें। विश्लेषण के लिए विकसित किए जा रहे उपकरणों की क्षमता अभी भी उस तेज़ गति के समकक्ष नहीं है जिस गति से डेटा उत्पन्न हो रहा है। जीव विज्ञान, कंप्यूटर विज्ञान, जैवसूचना विज्ञान, सांख्यिकी और कृत्रिम बुद्धिमत्ता में कार्यरत शोधकर्ताओं के बीच सहयोग भविष्य में जैविक डेटा विश्लेषण के लिए सफल उपकरणों का निर्माण करेगा।
सारांश
- इस अध्याय में हमने जैवसूचना विज्ञान के रोमांचक और विस्तारित क्षेत्र के बारे में सीखा। हमने इसके विकास और दायरे की एक झलक पाई। हमने विभिन्न प्रकार के जैविक अणुओं, अंतर्निहित प्रौद्योगिकियों और जैवअणुओं के विश्लेषण के लिए प्रगति, जैविक डेटाबेस, डेटा विश्लेषण और दृश्यता, और परिणामों को कार्यात्मक व्याख्याओं में अनुवाद करने के बारे में सीखा।
अभ्यास
1. अनुक्रमण के बाद विश्लेषण की दो विधियों के नाम बताइए।
2. विचलनों के किन्हीं तीन प्रमुख प्रकारों के नाम बताइए।
3. रोग-विशिष्ट विचलनों को क्या कहा जाता है?
(a) सोमैटिक
(b) जर्मलाइन
4. ट्रांसक्रिप्टोम विधान के लिए de novo और जीनोम-निर्देशित विधियों में कौन-सा उपकरण वरीयता प्राप्त है?
(a) Tophat2
(b) Trinity
5. BLAT और BLAST में क्या अंतर है?
6. क्या पहले आया? संरचनात्मक जैवसूचना विज्ञान या जीनोम सूचना विज्ञान?
7. जैविक बृहदाणुओं की किन्हीं दो प्रमुख श्रेणियों के नाम बताइए।
8. डीएनए अनुक्रमों को निम्नलिखित में से किस डेटा प्रारूप में दर्शाया जा सकता है?
(a) FASTQ
(b) FASTA
(c) AB1
(d) उपरोक्त सभी
9. क्या एक बहु-फास्टा फ़ाइल से सीधे वंशावली उत्पन्न की जा सकती है? अपने उत्तर का औचित्य दीजिए।
10. कौन-सा उपकरण आपको वृत्ताकार रूप में विचलनों को देखने में मदद करता है?
(a) UCSC Genome Browser
(b) CIRCOS
(c) IGV
11. निम्नलिखित में से कौन-सा दृष्टिकोण किसी जीव की जीव विज्ञान की व्यापक समझ प्राप्त करने में सहायक हो सकता है?
(a) एकल परीक्षण कई व्यक्तियों में।
(ब) कम व्यक्तियों पर कई गुना उन्मुख परीक्षण।
12. हमें न्यूक्लिक अम्लों का अनुक्रमण क्यों करना पड़ता है? न्यूक्लिक अम्ल के अनुक्रम को समझकर क्या लाभ मिल सकता है?