अध्याय 10 प्रोटीन सूचना विज्ञान और रसायन सूचना विज्ञान

10.1 प्रोटीन सूचना

10.1.1 परिचय

किसी भी प्रोटीन के बारे में सूचना प्रौद्योगिकी की तकनीकों का उपयोग करके सूचना एकत्र करना प्रोटीन इनफॉर्मेटिक्स के अंतर्गत आता है। प्रोटीन इनफॉर्मेटिक्स ने काल्पनिक प्रोटीनों के कार्यात्मक स्थल की ज्यामितीय स्थिति, जैव रासायनिक कार्य और जैविक कार्य को जानने में अत्यधिक सहायता प्रदान की है। इसके अतिरिक्त, इसने कई ऐसे काल्पनिक प्रोटीनों की तृतीयक संरचनाओं का निर्धारण करने में सहायता की है, जिनके अणुकार्य पारंपरिक विधियों से समझे नहीं जा सके थे। विषम डेटाबेस और अमीनो अम्ल अनुक्रमों, तृतीयक संरचनाओं और प्रोटियोम स्तर पर पथों के विभिन्न विवरणकर्ता भी प्रोटीन इनफॉर्मेटिक्स के विकास में सहायक रहे हैं।

10.1.2 प्रोटीन डेटा प्रकार

सूचना निष्कर्षण की गणना प्रक्रिया के लिए प्रोटीन का कच्चा डेटा आवश्यक होता है। यह प्रोटीन डेटा निम्नलिखित प्रकारों का हो सकता है -

(i) ऊष्मा-विकृत प्रोटीन समुच्चय का सूक्ष्मदर्शी चित्र

(ii) विलयन रूप में प्रोटीन

(iii) मैट्रिक्स सहायित लेजर विसर्जन/आयनन (MALDI) के आउटपुट के रूप में प्रोटीन अनुक्रम

(iv) संयुक्त प्रोटीन अनुक्रम

(v) प्रोटीन डेटा बैंक (PDB) प्रारूप में प्रोटीन क्रिस्टल संरचना

(vi) प्रोटीन-प्रोटीन, प्रोटीन-लिगेंड या प्रोटीन-न्यूक्लियोटाइड अन्योन्यक्रिया फ़ाइल

(vii) न्यूक्लियर चुंबकीय अनुनाद (NMR) डेटा, द्रव्यमान स्पेक्ट्रोमेट्री (MS) डेटा

(viii) जीनोमिक अनुक्रमों से सीधे प्राप्त प्रोटीन अनुक्रम, जिनमें अस्तित्व के ज्ञात प्रमाण नहीं होते (काल्पनिक प्रोटीन)

ऊपर उल्लिखित प्रकार के प्रोटीन डेटा का उपयोग उपयोगी जानकारी प्राप्त करने के लिए किया जा सकता है जैसे

(i) ऊष्मा-विकृत प्रोटीन समुच्चय के सूक्ष्म प्रतिबिंब की बहु-फ्रैक्टल संपत्ति का उपयोग प्रोटीन-मार्कर के डिज़ाइन के लिए किया जाता है।

(ii) विलयन में प्रोटीन डेटा भौतिक-रासायनिक गुणों और गतिकी संबंधी जानकारी के विश्लेषण के लिए उपयोगी होते हैं।

(iii) MALDI से प्राप्त प्रोटीनों के खंडित लघु अनुक्रमों का उपयोग पूर्ण लंबाई के अनुक्रम का पता लगाने के लिए किया जाता है।

(iv) प्रोटीन क्रिस्टल संरचनाओं का उपयोग उत्परिवर्तन और अन्योन्यक्रियाओं का अध्ययन करने के लिए किया जाता है।

(v) PDB, NMR और MS डेटा का उपयोग अक्रिस्टलीकृत प्रोटीन की संरचना की भविष्यवाणी (सीधे अनुक्रम से) के लिए भी किया जाता है।

(vi) कुछ प्रोटीन ऐसे होते हैं जिनकी ज्ञात अस्तित्व नहीं होता (जिन्हें काल्पनिक प्रोटीन कहा जाता है) जिन्हें जीनोमिक अनुक्रमों से पहचाना जा सकता है।

(vii) प्रोटीन का नेटवर्क मानचित्रण विभिन्न रोगों के उपचार के संभावित लक्ष्य के बारे में जानकारी प्रदान करता है।

प्रोटीन इनफॉर्मेटिक्स विश्लेषण को आगे बढ़ाने के लिए निम्नलिखित दो बुनियादी सुविधाओं की आवश्यकता होती है:

(i) विभिन्न डेटाबेसों जैसे NCBI, PDB, CHEMBL, BIOMODELS आदि से कच्चे डेटा की उपलब्धता।

(ii) विश्लेषणों के लिए प्रयुक्त इनफॉर्मेटिक्स उपकरण और तकनीकें। कुछ प्रसिद्ध तकनीकें हैं: (a) वेवलेट तकनीकों द्वारा इमेज विश्लेषण, (b) अनुक्रम समानता और समजातता गणनाएँ, (c) संरचना अनुकूलन तकनीकें, (d) सांख्यिकीय और मशीन लर्निंग तकनीकों—जैसे कृत्रिम न्यूरल नेटवर्क (ANN), सपोर्ट वेक्टर मशीन (SVM) और हिडन मार्कोव मॉडल (HMM)—द्वारा डेटा विश्लेषण, (e) नेटवर्क मैपिंग तकनीक, और (f) सिस्टम्स बायोलॉजी मार्क-अप लैंग्वेज (SBML)।

10.1.3 प्रोटीन संरचनाओं की गणनात्मक भविष्यवाणी

बायोइनफॉर्मेटिक्स उपकरणों का उपयोग करके प्रोटीन संरचना की भविष्यवाणी इस बात की खोज करने के उद्देश्य से की जाती है कि अमीनो अम्ल अनुक्रम प्रोटीन की संरचना को कैसे निर्धारित करते हैं और ये प्रोटीन अपने कार्यों को निष्पादित करने के लिए सब्सट्रेट्स और अन्य अणुओं से कैसे बंधते हैं। प्रोटीन की संरचना की भविष्यवाणी (काल्पनिक प्रोटीनों सहित) का यह कार्य बायोइनफॉर्मेटिक्स उपकरणों का उपयोग करके तब भी संभव है जब केवल जीन अनुक्रम ज्ञात हो, अर्थात् प्रोटीन अनुक्रम की अनुपस्थिति में भी। प्रोटीनों की संरचनात्मक और भौतिकरासायनिक गुणधर्मों की भविष्यवाणी करने के लिए विभिन्न स्रोतों से कई गणनात्मक उपकरण उपलब्ध हैं। गणनात्मक विधियों के प्रमुख लाभ समय-सीमा, उच्च लागत और उच्च थ्रूपुट स्क्रीनिंग की व्यवहार्यता हैं।

10.1.3.1 प्राथमिक संरचना की भविष्यवाणी

प्रोटीन की प्राथमिक संरचना की भविष्यवाणी में भौतिक-रासायनिक अभिलक्षण जैसे सम-विद्युत बिंदु, विलोपन गुणांक, अस्थिरता सूचकांक, ऐलिफैटिक सूचकांक और ग्रैंड औसत जलरोधिता शामिल होते हैं। इन सभी की गणना ExPASy प्रोटियोमिक्स सर्वर के ProtParam उपकरण की सहायता से की जा सकती है। प्रोटीनों के कुछ भौतिक-रासायनिक गुण निम्नलिखित खंड में संक्षेप में वर्णित हैं।

सम-विद्युत बिंदु- सम-विद्युत बिंदु (pI) वह pH है जिस पर प्रोटीन की सतह आवेश से ढकी होती है लेकिन प्रोटीन का कुल आवेश शून्य होता है। pI पर प्रोटीन स्थिर और संक्षिप्त होते हैं। यदि परिकलित pI मान 7 से कम है (pI<7), तो यह दर्शाता है कि प्रोटीन अम्लीय माना जाता है।

pI का 7 से अधिक होना (pI>7) बताता है कि प्रोटीन क्षारीय स्वभाव का है। परिकलित सम-विद्युत बिंदु (pI) सम-विद्युत केंद्रन विधि द्वारा शुद्धीकरण के लिए बफर प्रणाली विकसित करने में उपयोगी होगा।

ऐलिफैटिक सूचकांक- ऐलिफैटिक सूचकांक (AI), जिसे प्रोटीन के उस सापेक्ष आयतन के रूप में परिभाषित किया जाता है जो ऐलिफैटिक साइड चेनों (A, V, I और L) से घिरा होता है, गोलाकार प्रोटीनों की ऊष्मीय स्थिरता में वृद्धि के लिए एक सकारात्मक कारक माना जाता है। प्रोटीन अनुक्रमों का बहुत अधिक ऐलिफैटिक सूचकांक यह संकेत देता है कि प्रोटीन व्यापक तापमान सीमा के लिए स्थिर हो सकता है।

अस्थिरता सूचकांक — अस्थिरता सूचकांक एक टेस्ट-ट्यूब में प्रोटीन की स्थिरता का अनुमान देता है। कुछ विशिष्ट डाइपेप्टाइड्स होते हैं जिनकी उपस्थिति अस्थिर प्रोटीनों में स्थिर प्रोटीनों की तुलना में उल्लेखनीय रूप से भिन्न होती है। यह विधि अस्थिरता के लिए एक भार मान निर्धारित करती है। इन भार मानों का उपयोग करके एक अस्थिरता सूचकांक की गणना की जा सकती है। जिस प्रोटीन का अस्थिरता सूचकांक 40 से कम होता है, उसे स्थिर माना जाता है; 40 से ऊपर का मान यह भविष्यवाणी करता है कि प्रोटीन अस्थिर हो सकता है।

ग्रैंड औसत हाइड्रोपैथी (GRAVY) मान — किसी पेप्टाइड या प्रोटीन के लिए ग्रैंड औसत हाइड्रोपैथी (GRAVY) मान सभी अमीनो अम्लों के हाइड्रोपैथी मानों का योग करके अनुक्रम में मौजूद अवशेषों की संख्या से विभाजित करके परिकलित किया जाता है। GRAVY मान का निम्न परास जल के साथ बेहतर अन्योन्यक्रिया की संभावना को दर्शाता है।

10.1.3.2 द्वितीयक संरचना की भविष्यवाणी

प्रोटीन की द्वितीयक संरचना का गहन अध्ययन किया गया है, क्योंकि यह अज्ञात संरचना वाले प्रोटीन के कार्यों को उजागर करने में अत्यंत उपयोगी सिद्ध होती है। इसके अतिरिक्त, यह दिखाया गया है कि प्रोटीन की द्वितीयक संरचना की भविष्यवाणी प्रोटीन की त्रि-आयामी संरचना की भविष्यवाणी की ओर एक कदम है। APSSP, CFSSP, SOPMA और GOR सामान्य प्रोटीन द्वितीयक संरचना भविष्यवाणी उपकरण हैं।

10.1.3.3 त्रि-आयामी (3D) संरचना की भविष्यवाणी

प्रोटीन की 3D संरचना की भविष्यवाणी के लिए निम्नलिखित तीन गणनात्मक विधियाँ सामान्यतः प्रयुक्त होती हैं।

समानता आधारित मॉडलिंग-समानता आधारित मॉडलिंग के लिए, अज्ञात संरचना वाले प्रोटीन की अमीनो अम्ल अनुक्रम को ज्ञात संरचनाओं वाले प्रोटीनों की अनुक्रमों से संरेखित किया जाता है। उच्च समानता डिग्री (प्रोटीनों के भीतर और बीच बहुत समान अनुक्रम) का उपयोग अज्ञात संरचना वाले प्रोटीन की वैश्विक संरचना निर्धारित करने और उसे एक निश्चित फोल्ड श्रेणी में रखने के लिए किया जा सकता है। निम्न समानता डिग्री का उपयोग स्थानीय संरचनाओं को निर्धारित करने के लिए अभी भी किया जा सकता है, एक उदाहरण द्वितीयक संरचना की भविष्यवाणी के लिए चौ-फासमान विधि है। समानता आधारित मॉडलिंग विधियों का एक लाभ भौतिक निर्धारकों के ज्ञान पर निर्भरता की कमी है। MODELLER और SWISS-MODEL समानता आधारित मॉडलिंग के लिए सामान्यतः उपयोग किए जाने वाले उपकरण हैं।

फोल्ड भविष्यवाणी-फोल्ड पहचान विधियाँ एक पूरक दृष्टिकोण अपनाती हैं जहाँ संरचनाओं को संरेखित किया जाता है। ‘थ्रेडिंग’ नामक विधि के साथ, अज्ञात संरचना वाले प्रोटीन की अनुक्रम को ज्ञात संरचना वाले प्रोटीन की रीढ़ (प्रोटीन साइड चेन) की संरचना लेने के लिए मजबूर किया जाता है। प्रत्येक प्रयास के लिए भौतिक निर्धारकों की बेहतर माप, संरेखण के लिए बेहतर स्कोर देती है। ये विधियाँ समानता आधारित मॉडलिंग विधियों की तुलना में अधिक कम्प्यूट-गहन होती हैं, लेकिन वे परिणामों की भौतिक व्यवहार्यता में अधिक विश्वास देती हैं। LIBELLULA और Threader इस विधि के लिए सामान्यतः उपयोग किए जाने वाले उपकरण हैं।

डी नोवो प्रोटीन संरचना भविष्यवाणी: यह एक एल्गोरिदमिक प्रक्रिया है जिसके द्वारा प्रोटीन की तृतीयक संरचना को इसके अमीनो अम्ल प्राथमिक अनुक्रम से भविष्यवाणी की जाती है। QUARK $a b$ इनिशियो प्रोटीन संरचना भविष्यवाणी और प्रोटीन पेप्टाइड फोल्डिंग के लिए एक कंप्यूटर एल्गोरिद्म है, जिसका उद्देश्य केवल अमीनो अम्ल अनुक्रम से सही प्रोटीन 3D मॉडल का निर्माण करना है। QUARK मॉडल छोटे टुकड़ों (1-20 अवशेष लंबे) से रेप्लिका-एक्सचेंज मोंटे कार्लो सिमुलेशन के तहत एक परमाणु-स्तर के ज्ञान-आधारित बल क्षेत्र के मार्गदर्शन में बनाए जाते हैं।

एक प्रोटीन की गणनात्मक रूप से स्पष्ट की गई संरचना को प्रोटीन-डेटा-बैंक फाइलों में परमाणु निर्देशांक के रूप में दर्ज किया जाता है। त्रि-आयामी निर्देशांक एक प्रकार की टेक्स्ट-फाइल अर्थात् PDB-फाइल में संग्रहीत किए जाते हैं जिसका फाइल एक्सटेंशन .pdb होता है, प्रोटीन डेटा बैंक (PDB) डेटाबेस में। इसमें एक्स-रे क्रिस्टलोग्राफी, NMR और कुछ सैद्धांतिक संरचना मॉडलों से डेटा होता है। इसके अतिरिक्त, PDB डेटाबेस प्रोटीन डेटाबेसों से भी जुड़ा हुआ है, जिनका उपयोग समान अनुक्रम के साथ-साथ 3D-संरचना की खोज के लिए किया जाता है ताकि होमोलॉजी मॉडलिंग और थ्रेडिंग जैसी विधियों के माध्यम से संरचना भविष्यवाणी की जा सके। MODELLER प्रोटीन संरचना भविष्यवाणी के लिए उपलब्ध ज्ञात मुफ्त उपकरणों में से एक है।

डोमेन भविष्यवाणी - डोमेन प्रोटीन के पृथक कार्यात्मक और/या संरचनात्मक इकाइयाँ होती हैं। पॉलीपेप्टाइड श्रृंखला की स्वतंत्र फोल्डिंग इकाई विशिष्ट कार्य भी ले जाती है। इन्हें अक्सर आवर्ती (क्रम या संरचना) इकाइयों के रूप में पहचाना जाता है, जो विभिन्न संदर्भों में मौजूद हो सकती हैं। डोमेन प्रोटीन संरचना, कार्य, विकास और डिज़ाइन की भविष्यवाणी के लिए सबसे मूल्यवान जानकारी प्रदान करते हैं। डोमेन भविष्यवाणी के सबसे सामान्य उपकरण EMBL का InterPRO स्कैन और NCBI का CDD सर्च हैं।

प्रोटीन अनुक्रम से प्रोटीन संरचना भविष्यवाणी के विभिन्न संभावित तरीकों को दर्शाने वाला एक प्रवाह चित्र Fig. 10.1 में दिखाया गया है।

Fig. 10.1: प्रोटीन अनुक्रम से प्रोटीन संरचना भविष्यवाणी के सभी संभावित तरीकों का प्रवाह चित्र

10.2 रसायनिफॉर्मेटिक्स

10.2.1 परिचय

रसायन विज्ञान की समस्याओं को समझने के लिए संगणनात्मक और सूचनात्मक तकनीकों के प्रयोग को कैमिनिफॉर्मेटिक्स कहा जाता है। कैमिनिफॉर्मेटिक्स एक इंटरफेस विज्ञान है जो भौतिकी, रसायन विज्ञान, जीव विज्ञान, गणित, जैव-रसायन, सांख्यिकी और सूचना विज्ञान के सिद्धांतों को सम्मिलित करता है। कैमिनिफॉर्मेटिक्स के साथ-साथ केमोइनफॉर्मेटिक्स और रासायनिक सूचना विज्ञान जैसे पद भी उसी दृष्टिकोण को दर्शाने के लिए प्रयुक्त होते हैं। कैमिनिफॉर्मेटिक्स की रणनीतियाँ औषधि खोज में उपयोगी होती हैं जहाँ बड़ी संख्या में यौगिकों का लक्ष्य कोशिकीय अणुओं के साथ अन्योन्यक्रिया के लिए मूल्यांकन किया जाता है।

पिछले दो दशकों से, कैमिनिफॉर्मेटिक्स विज्ञान ने अवधारणात्मक और तकनीकी रूप से विकास किया है, और रासायनिक उद्योग, औषधीय और जैव-प्रौद्योगिकी अनुसंधान में व्यापक अनुप्रयोग पाए हैं, उदाहरणस्वरूप कंप्यूटर-सहायित औषधि डिज़ाइन (CADD) जहाँ विशिष्ट जैविक और चिकित्सीय गुणों वाले अणुओं की खोज की जाती है।

रसायन-सूचना विज्ञान विशेषज्ञ भौतिक गुणों, त्रि-आयामी आणविक और क्रिस्टल संरचनाओं, रासायनिक अभिक्रिया पथों आदि की जानकारी संभालते हैं। वास्तविक यौगिकों के अतिरिक्त, रसायन-सूचना विज्ञान शोधकर्ता मुख्यतः रासायनिक डेटाबेसों की आभासी लाइब्रेरी संभालते हैं जो काल्पनिक यौगिकों को सम्मिलित कर सकती हैं। आभासी लाइब्रेरी में संभावित संश्लेषण विधियों और अभिक्रिया उत्पादों की पूर्वानुमानित स्थिरता की जानकारी हो सकती है। आभासी स्क्रीनिंग रासायनिक और भौतिक सिद्धांतों का उपयोग करती है ताकि वास्तविक और आभासी अणुओं की बड़ी लाइब्रेरी से किसी विशेष गुण या अभिक्रिया के लिए सर्वोत्तम उम्मीदवारों की पहचान और मूल्यांकन किया जा सके। सबसे वांछनीय उम्मीदवारों की पुष्टि तत्पश्चात प्रयोगशाला अध्ययनों में की जा सकती है।

10.2.2 रासायनिक डेटा का संग्रहण और प्रबंधन

कई समूह और संगठन रासायनिक यौगिकों के डेटाबेस का रखरखाव करते हैं, इनमें से कुछ सार्वजनिक रूप से निःशुल्क उपलब्ध हैं और कुछ वाणिज्यिक रूप से उपलब्ध हैं। यद्यपि ये डेटाबेस लाखों रासायनिक यौगिकों, उनकी अभिक्रियाओं आदि को सम्मिलित करते हैं, परिकलन शक्ति और उपकरण इतने मजबूत हैं कि संपूर्ण संसाधन में खोज करना और अभिलेख प्राप्त करना केवल कुछ सेकंड लेता है।

विज्ञान इतना आगे बढ़ गया है कि अब हम आभासी अणुओं की लाइब्रेरी (अरबों प्रविष्टियों तक) की बात कर रहे हैं — ये ऐसे यौगिक हैं जो उपलब्ध साहित्य के अनुसार अस्तित्व में नहीं हैं, परंतु उन्नत संयोजन तकनीकों का उपयोग कर संश्लेषित किए जा सकते हैं।

CAS (Chemical Abstracts Service), जो कि American Chemical Society का एक विभाग है, रसायन विज्ञान के अंतर्दृष्टियों का विश्व का सबसे बड़ा संग्रह है। यह रासायनिक नामों और संरचनाओं का एक प्रामाणिक स्रोत है और रसायनज्ञों के लिए एक सार्वभौमिक मानक के रूप में कार्य करता है।

2018 तक, CAS रजिस्ट्री में पिछले 200 से अधिक वर्षों के साहित्य से लिए गए 142 मिलियन कार्बनिक और अकार्बनिक पदार्थ हैं। रजिस्ट्री में 67 मिलियन प्रोटीन और न्यूक्लिक एसिड अनुक्रम शामिल हैं। डेटाबेस में पदार्थों के 7.6 बिलियन से अधिक गुण मान हैं।

जैविक चिकित्सा विज्ञान, रसायन विज्ञान, इंजीनियरिंग, सामग्री विज्ञान आदि सहित विश्व की बड़ी संख्या में प्रकाशित साहित्य के डेटा को CAS डेटाबेस में हर दिन जोड़ा जाता है। 1800 के दशक से, डेटाबेस में 47 मिलियन से अधिक प्रकाशन शामिल हैं जिनमें 100 मिलियन से अधिक रासायनिक अभिक्रियाएँ हैं। यह अत्यधिक संसाधन चिकित्सीय और औद्योगिक महत्व के यौगिकों को खोजने के लिए एक खजाना है। कुछ लोकप्रिय रासायनिक डेटाबेस Table 10.1 में उल्लेख किए गए हैं।

Table 10.1: Popular Chemical Database

नाम विवरण
PubChem PubChem रासायनिक अणुओं का एक डेटाबेस है जो तीन प्रकार की जानकारी—substance, compound और BioAssay—को संरक्षित करता है।
ZINC ZINC डेटाबेस में आभासी स्क्रीनिंग के लिए उपलब्ध 21 मिलियन यौगिक हैं। इस डेटाबेस में अणु के विभिन्न गुण—जैसे आण्विक भार, log P आदि—शामिल हैं।
ChEMBL यह डेटाबेस 1 मिलियन जैव-सक्रिय (छोटे दवा-जैसे अणुओं) यौगिकों और 8200 दवा लक्ष्यों की व्यापक जानकारी देता है।
NCI NCI डेटाबेस में 2,75,000 से अधिक छोटे अणु संरचनाएँ हैं, जो कैंसर/एड्स के क्षेत्र में कार्यरत शोधकर्ताओं के लिए अत्यंत उपयोगी संसाधन है।
ChemDB यह पाँच मिलियन रसायनों का डेटाबेस है जिसमें रसायनों की जानकारी—जिसमें भविष्यवाणी या प्रयोगात्मक रूप से निर्धारित भौतिक-रासायनिक गुण जैसे 3D संरचना, गलनांक और विलेयता—शामिल हैं।
ChemSpider ChemSpider में 400 से अधिक विविध डेटा स्रोतों से संकलित 28 मिलियन से अधिक अद्वितीय रासायनिक संस्थाएँ हैं।
BindingDB यह छोटे अणुओं की बंधन सहिष्णुता डेटाबेस है जिसमें 6,263 प्रोटीन लक्ष्यों और 378,980 छोटे अणुओं के लिए 9,10,836 बंधन डेटा हैं।
DrugBank वह डेटाबेस जो विस्तृत दवा (अर्थात् रासायनिक, औषधीय और फार्मास्युटिकल) डेटा को व्यापक दवा लक्ष्य (अर्थात् अनुक्रम, संरचना और पथ) जानकारी के साथ जोड़ता है। डेटाबेस में 6712 दवा प्रविष्टियाँ हैं, जिनमें 1448 FDA-अनुमोदित छोटे अणु दवाएँ, 131 FDA-अनुमोदित बायोटेक (प्रोटीन/पेप्टाइड) दवाएँ, 85 न्यूट्रास्युटिकल्स और 5080 प्रायोगिक दवाएँ शामिल हैं।
PharmaGKB यह एक फार्माकोजीनोमिक्स ज्ञान संसाधन है जो दवा अणुओं की नैदानिक जानकारी को समाहित करता है।
SuperDrug इस डेटाबेस में लगभग 2500 आवश्यक विपणित दवाओं की सक्रिय सामग्रियों की 3D-संरचनाएँ हैं।

10.2.3 हमें काइमइन्फॉर्मेटिक्स की आवश्यकता क्यों है?

करोड़ों यौगिकों, गुणों, रासायनिक अभिक्रियाओं आदि के सामने सवाल यह है कि इस विशाल संसाधन में कैसे नेविगेट किया जाए और वह सही रासायनिक यौगिक कैसे खोजा जाए जो हमारी आवश्यकता को पूरा करता है?

काइमइन्फॉर्मेटिक्स उपकरण हमें विशाल साहित्यिक संग्रह में ब्राउज़ करने और पैटर्न खोजने में मदद करते हैं। फार्मा कंपनियां नए ड्रग्स के इन-सिलिको डिज़ाइन के लिए काइमइन्फॉर्मेटिक्स संसाधनों और उपकरणों का उपयोग करती हैं, जिसके बाद संश्लेषण और परीक्षण किया जाता है। रासायनिक विनिर्माण उद्योग को बाजार में पहुंचने से पहले रसायनों की नई संपत्तियों को डिज़ाइन करने, प्रभावकारिता और विषाक्तता की भविष्यवाणी करने के लिए काइमइन्फॉर्मेटिक्स की आवश्यकता होती है।

10.2.4 रासायनिक यौगिकों की जानकारी कैसे संग्रहीत करें?

कोई आसानी से कागज़ पर परमाणुओं के बीच बॉन्ड और एक निश्चित कोण पर संरेखित करते हुए रासायनिक यौगिकों को चित्रित कर सकता है। ड्रॉइंग उपकरणों का उपयोग करके, यूज़र इंटरफेस पर पूर्वनिर्धारित टेम्प्लेट्स का उपयोग करना संभव है और मानक ज्यामितीय संरचनाओं और अभिक्रियाओं को आसानी से चित्रित किया जा सकता है। ऐसी जानकारी को इमेज फ़ाइल (जैसे, jpg, tif) या दस्तावेज़ रूप (जैसे, doc, pdf) में संग्रहीत किया जा सकता है। हालांकि, रासायनिक डेटा का ऐसा संग्रह अनुसंधान परियोजनाओं में बहुत कम उपयोगी है जो बॉन्ड कोणों, घूर्णन की लचीलापन आदि में ‘गहरा ब्राउज़िंग’ की मांग करती हैं, ताकि किसी विशेष उद्देश्य के लिए सही अणु को खोजा जा सके।

रासायनिक संरचनाओं को इसलिए कंप्यूटर में आण्विक ग्राफ़ के रूप में संग्रहित किया जाता है। एक ग्राफ़ नोड्स (रासायनिक पदार्थों की इकाइयाँ) और एजेज़ (नोड्स के बीच सूचना की गति) की काल्पनिक प्रतिनिधित्व है। नोड-एज दृष्टिकोण का उपयोग करके, परमाणुओं और बंधों का प्रतिनिधित्व करने वाले ग्राफ़ बनाए जा सकते हैं। उच्च स्तर पर, कोशिका में आण्विक पथों जैसे ग्लाइकोलिसिस और क्रेब्स चक्र आदि को बनाने के लिए यही प्रतिनिधित्व प्रयोग किया जाता है।

एक ग्राफ़ में उपग्राफ़ हो सकते हैं, अर्थात् छोटे ग्राफ़ों का एक समूह जो किसी विशेष अनुप्रयोग के लिए सामूहिक रूप से एक ग्राफ़ बनाते हैं। ग्राफ़ या उपग्राफ़ में चक्र या रिंग्स का अवलोकन सामान्य है। इसके विपरीत, एक वृक्ष एक विशेष प्रकार का ग्राफ़ है जिसमें कोई रिंग नहीं होता। वृक्ष प्रतिनिधित्व में, रूट नोड्स होते हैं, जिनके बाद ब्रांच नोड्स और लीफ नोड्स होते हैं, जो सभी रूपांतरण के विभिन्न चरणों में रासायनिक पदार्थों का प्रतिनिधित्व करते हैं।

ग्राफ़ की रचना करने के बाद, उसे कंप्यूटर तक उसकी हर यांत्रिक विस्तार के संदर्भ में संप्रेषित करने की क्षमता आवश्यक होती है। यह ‘कनेक्शन टेबल’ का उपयोग करके प्राप्त किया जा सकता है।

बहुत ही बुनियादी स्तर पर, कनेक्शन टेबल का सबसे सरल रूप दो भागों से बना होता है: (i) अणु में मौजूद परमाणुओं की परमाणु संख्याओं की एक सूची, और (ii) एक-दूसरे से संवाद करने वाले परमाणुओं के बीच बंधों की एक सूची। इसके अतिरिक्त, कनेक्शन टेबल को और भी जानकारी से समृद्ध किया जाता है जैसे कि प्रत्येक परमाणु की संकरण अवस्था, परमाणुओं की त्रि-आयामी (xyz) निर्देशांक इत्यादि। यह समझना महत्वपूर्ण है कि हाइड्रोजन परमाणुओं को कनेक्शन टेबल में स्पष्ट रूप से दर्शाया जाना आवश्यक नहीं होता (वे निहित हो सकते हैं)। ऐसी स्थिति में, कनेक्शन टेबल हाइड्रोजन-दमित होती है।

अणु ग्राफ को कंप्यूटर तक पहुँचाने और दर्शाने का एक अन्य तरीका ‘रैखिक संकेतन’ की विधि है।

रैखिक संकेतन गणना के लिए अल्फ़ान्यूमेरिक (a1, b2, c3 इत्यादि) योजना का उपयोग करता है। सबसे लोकप्रिय रैखिक संकेतनों में से एक SMILES है।

1. परमाणुओं को उनके परमाणु प्रतीकों से दर्शाया जाता है।

2. हाइड्रोजन परमाणुओं को छोड़ दिया जाता है (वे निहित होते हैं)।

3. पड़ोसी परमाणुओं को एक-दूसरे के बगल में दर्शाया जाता है।

4. द्विबंधों को “=” से और त्रिबंधों को “#” से दर्शाया जाता है।

5. शाखाओं को कोष्ठकों द्वारा दर्शाया जाता है।

6. वलयों को दो कनेक्टिंग वलय परमाणुओं को अंक आवंटित करके दर्शाया जाता है।

चित्र 10.2: स्माइल्स संकेतन

(Simplified Molecular Input Line Entry Specification) (चित्र 10.2)। SMILES की लोकप्रियता का एक कारण इसकी सरलता और स्केलेबिलिटी है।

10.2.5 संरचनाओं की खोज

यह एक नियम बन गया है कि वाणिज्यिक रूप से उपलब्ध डेटाबेसों की उत्पत्ति शैक्षणिक अनुसंधान परियोजनाओं में होती है। यह बात Cheminformatics पर भी लागू होती है।

सबसे सरल कार्य रासायनिक संरचना की जानकारी निकालना है। उदाहरण के लिए, किसी पदार्थ के भौतिक और रासायनिक गुणों को खोजना, मुझे वे सभी रासायनिक पदार्थ दिखाओ जो एक निश्चित क्वथनांक सीमा के भीतर आते हैं, आदि।

खोज का दूसरा स्तर सब-स्ट्रक्चर पुनर्प्राप्ति को शामिल करता है। उदाहरण के लिए, यह उन सभी रासायनिक यौगिकों को दिखाता है जो किसी निश्चित कार्यात्मक समूह जैसे मेथिल समूह, बेंजीन रिंग या एल्कीन बैकबोन से मेल खाते हैं।

जब हम पाते हैं कि एक छोटा ग्राफ पूरी तरह से किसी बड़े ग्राफ में एम्बेडेड है, तो हम इसे सबग्राफ आइसोमॉर्फिज़्म कहते हैं (iso का अर्थ है एक ही प्रकार के कई रूप)।

इस कारण से, कई बार लोग दो-चरणीय खोज करते हैं। पहला चरण एक सामान्य स्क्रीन का उपयोग करता है ताकि उन अणुओं को बाहर किया जा सके जो संभवतः सब-स्ट्रक्चर क्वेरी से मेल नहीं खाते। इस चरण के दौरान, अधिकांश अणुओं को छांट दिया जाता है, और एक छोटे अल्पसंख्यक समूह के अणु बचते हैं जो दूसरे चरण में अन्वेषण के लिए रोचक हो सकते हैं।

दूसरा चरण एक अधिक विस्तृत उपग्राफ़ आइसोमरिज़्म प्रक्रिया को शामिल करता है ताकि ऐसे अणु खोजे जा सकें जो वास्तव में किसी दिए गए उपसंरचना से मेल खाते हों। अणु स्क्रीनों को 0 और 1 के बाइनरी स्ट्रिंग्स, जिन्हें बिटस्ट्रिंग्स कहा जाता है, का उपयोग करके लागू किया जाता है।

10.2.6 अभिक्रियाओं की खोज

एक संश्लेषण की योजना बनाते समय, एक रसायनज्ञ उत्पादों को खोजने के लिए अभिक्रिया डेटाबेस में खोज कर सकता है ताकि यह पता लगाया जा सके कि क्या किसी ने पहले ही कोई दिया गया यौगिक संश्लेषित किया है और, यदि हाँ, तो अभिक्रिया की शर्तें क्या थीं? इसके अलावा, यह जानना चाहा जा सकता है कि बिंदु A से बिंदु X तक पहुँचने के लिए कितने विभिन्न अभिक्रिया मार्ग मौजूद हैं। आगे, विलायकों, pH, तापमान, दबाव आदि की जानकारी की आवश्यकता हो सकती है। कोई कई क्वेरीज़ को एक कथन में समेकित करके अभिक्रिया क्वेरीज़ को परिष्कृत कर सकता है: उन सभी अभिक्रियाओं को खोजें जो ग्लूकोज़ का उपयोग करती हैं और 37°C के तापमान सीमा के भीतर संचालित होती हैं।

अभिक्रिया खोज की एक प्रमुख विशेषता परमाणु मैपिंग है, अर्थात् अभिकारक परमाणुओं और परिणामी उत्पादों के बीच एक सटीक संगति खोजना। मौजूदा कैमइनफॉर्मेटिक्स उपकरण और डेटाबेस उन अभिक्रियाओं को भी पुनः प्राप्त करने की अनुमति देते हैं जिनमें कोई निश्चित उपसंरचना उत्पादों में परिवर्तित हो जाती है।

10.2.7 फार्माकोफोर

एक फार्माकोफोर उन आणविक विशेषताओं का वर्णन है जो किसी लिगेंड की आणविक पहचान को परिभाषित करती हैं। IUPAC फार्माकोफोर को स्थानिक और इलेक्ट्रॉनिक विशेषताओं के एक समुच्चय के रूप में परिभाषित करता है जो किसी विशिष्ट जैविक लक्ष्य के साथ इष्टतम अन्योन्यक्रियाओं को सुनिश्चित करने और एक जैविक प्रतिक्रिया को ट्रिगर करने के लिए आवश्यक होती हैं।

एक फार्माकोफोर मॉडल यह बताता है कि संरचनात्मक रूप से विविध लिगैंड एक ही रिसेप्टर अणु से कैसे जुड़ सकते हैं। एक 3D फार्माकोफोर अंतरिक्षीय अभिविन्यास से संबंधित विशेषताओं का एक समूह होता है, जैसे कि धनात्मक और ऋणात्मक आवेशित समूह, वलय और हाइड्रोफोबिक क्षेत्र।

यह जानना महत्वपूर्ण है कि फार्माकोफोर कोई भौतिक अणु या अणुओं का समूह नहीं होता है। फार्माकोफोर एक सुविख्यात अवधारणात्मक ढांचा है जो किसी चिकित्सीय अणु के लक्ष्य के साथ उसकी अंतःक्रिया के लिए आवश्यक विशिष्ट आणविक विवरण (फार्माकोफोर बिंदु, जैसे स्टेरिक, इलेक्ट्रोस्टैटिक और हाइड्रोफोबिक गुणधर्मों) को परिभाषित करता है।

10.2.8 लिपिंस्की का रूल ऑफ फाइव (R05)

यह नियम क्रिस्टोफर ए. लिपिंस्की ने 1997 में प्रस्तावित किया था और यौगिकों की प्रमुख आणविक संपत्तियों का वर्णन करता है। R05 किसी भी छोटे अणु के अवशोषण (A), वितरण (D), चयापचय (M), विसर्जन (E) और औषधि-सदृश गुणों के बारे में संकेतात्मक जानकारी प्रदान करता है।

आदर्श रूप से एक औषधि जैव-विघटनीय, अनिष्टकारी, स्थिर, बिना दुष्प्रभावों वाली, एकसमान कोशिकीय वितरण वाली, शरीर में नियंत्रित विमोचन वाली, लागत-प्रभावी और क्रिया के पश्चात आसानी से बाहर निकलने वाली होनी चाहिए।

इस प्रकार, रूल ऑफ फाइव अत्यधिक महत्वपूर्ण माना जाता है क्योंकि RO05 किसी रासायनिक यौगिक के अवशोषण, वितरण, चयापचय और विसर्जन की बात करता है। हालांकि, यह किसी औषधि-सदृश अणु के औषधीय प्रभाव से संबंधित नहीं होता।

चूंकि यह रसायन सूचना विज्ञान पर एक प्रारंभिक अध्याय है, हम प्रत्येक नियम को डिज़ाइन करने में लगी गहन सोच की प्रक्रिया में नहीं जाएंगे। फिलहाल, नियम का संक्षिप्त उल्लेख एक सौम्य परिचय के रूप में पर्याप्त होगा। लिपिंस्की का रूल ऑफ फाइव निम्नलिखित मानदंडों को शामिल करता है एक मौखिक रूप से सक्रिय औषधि खोजने के लिए और इसमें एक से अधिक उल्लंघन नहीं होने चाहिए।

(i) 5 से अधिक हाइड्रोजन बॉन्ड दाता नहीं

(ii) 10 से अधिक हाइड्रोजन बॉन्ड स्वीकारकर्ता नहीं

(iii) आण्विक भार 500 डाल्टन से कम

(iv) ऑक्टेनॉल जल विभाजन गुणांक $\log \mathrm{P}$ 5 से कम एक चेतावनी दिखाई जाती है यदि रासायनिक यौगिक का गुण एक निश्चित संख्या से अधिक हो। चेतावनियों के आधार पर, रूल ऑफ फाइव 0-4 के बीच एक मान निर्धारित कर सकता है। यदि RO5 स्कोर 1 से अधिक है, तो यौगिक को आगे पसंद नहीं किया जाता क्योंकि इसके अवशोषण, वितरण, चयापचय और उत्सर्जन के दौरान अप्रत्याशित अनुपयुक्त प्रदर्शन की संभावना होती है।

यह याद रखना महत्वपूर्ण है कि लिपिंस्की का रूल ऑफ फाइव केवल उस रासायनिक यौगिक को खोजने से संबंधित है जिसमें एक सफल मौखिक औषधि बनने की क्षमता हो। RO5 उन औषधियों पर लागू नहीं हो सकता जो इंट्रामस्क्युलर और इंट्रावेनस मार्गों से दी जाती हैं।

कई दवाएँ जिनमें क्षय रोग (TB) की दवाएँ और एंटीमाइक्रोबियल (जैसे एम्फ़ोटेरिसिन B और स्ट्रेप्टोमाइसिन) शामिल हैं, लिपिंस्की नियम का पालन नहीं करतीं। कुछ स्थितियाँ ऐसी होती हैं जहाँ एक अणु का स्कोर 0 हो सकता है और उसके अत्यधिक समान समकक्ष का स्कोर 4 हो सकता है। समुदाय में एक सामान्य अवलोकन है कि सभी चार नियमों को समान वजन दिया जाना चाहिए और व्यापक अनुप्रयोग के लिए सीमाओं को संभवतः नरम किया जा सकता है। लिपिंस्की नियम केवल संभावनाओं का एक सांख्यिकीय माप है और यह केवल मौखिक रूप से दी जाने वाली दवाओं के एक उपसमुच्चय पर विचार करता है। अंत में, RO5 प्राकृतिक उत्पादों और अर्ध-सिंथेटिक प्राकृतिक उत्पादों पर लागू नहीं होता है।

10.2.9 एक दवा की यात्रा

प्रकृति चिकित्सीय अनुप्रयोगों वाले सक्रिय यौगिकों का एक विशाल भंडार प्रदान करती है। वैज्ञानिक विधियों का उपयोग करके, हमने यह सीखा है कि किस प्रकार उन यौगिकों के एक निश्चित समूह तक सीमित किया जाए जो आशाजनक अणु हो सकते हैं जिनकी तलाश की जा रही है। दवा की खोज और विकास का मार्ग लंबा, महंगा और जोखिम भरा होता है। चित्र 10.3 समग्र दवा खोज पाइपलाइन को दर्शाता है, अर्थात् प्रयोगशाला से बाजार तक। वर्चुअल स्क्रीनिंग एक इन-सिलिको दृष्टिकोण है जो यह तय करने के लिए है कि अरबों में से कौन-से यौगिक किसी विशेष उद्देश्य के लिए उपयोगी हैं। उद्देश्य दवा खोज, औद्योगिक अनुप्रयोगों आदि से संबंधित हो सकता है।

चित्र 10.3: प्रयोगशाला से बाजार तक दवा विकास की प्रक्रिया

बॉक्स 1

1. 1990 के दशक की शुरुआत में, फाइज़र ने UK92480 नामक एक दवा का परीक्षण किया, जिससे रक्त वाहिकाओं को आराम मिलने और हृदय संबंधी जटिलताओं के इलाज की उम्मीद थी। इसके बजाय, उन्हें प्रजनन प्रणाली पर एक अप्रत्याशित दुष्प्रभाव मिला और उन्होंने इस दवा को वियाग्रा नामक नीली गोली के रूप में विकसित किया।

2. क्या आप जानते हैं कि सैकरीन, वह कृत्रिम मिठास जिसे हम अक्सर चाय या कॉफी में इस्तेमाल करते हैं, की उत्पत्ति कैसे हुई? इस खोज की शुरुआत एक दुर्घटना से हुई थी। 1879 में एक दिन, एक रूसी रसायनज्ञ डॉ. कॉन्स्टेंटिन फालबर्ग अपने काम में इतने लीन थे कि वे रात के खाने को भूल गए और काफी देर हो जाने पर बिना हाथ धोए ही खाने के लिए दौड़ पड़े। उन्होंने बिना धुले हाथों से रोटी का एक टुकड़ा तोड़ा और मुंह में डाला। यह बहुत मीठा लगा। इस समय उन्हें ज्यादा संदेह नहीं हुआ। बल्कि, उन्होंने मुंह धोया और मूंछों को नैपकिन से पोंछा। दिलचस्प बात यह है कि नैपकिन भी मीठा लगा। फिर उन्होंने पानी पिया और वह भी मीठा लगा। तुरंत ही, उन्हें कोयले के तार से आने वाली मिठास की खोज का अहसास हुआ। उन्होंने खाना छोड़ दिया, प्रयोगशाला की ओर दौड़े और हर बीकर की सामग्री को चखा। उनमें से एक में सैकरीन का अशुद्ध घोल था। सौभाग्य से कोई भी संक्षारक तरल नहीं था। उन्होंने इस पर महीनों काम किया, सैकरीन बनाने की एक रासायनिक विधि खोजी, एक कंपनी शुरू की और इस सफलता के लिए दुनिया भर में प्रसिद्ध और अमीर हो गए।

वर्चुअल स्क्रीनिंग में, एक कम्प्यूटेशनल विधियों का उपयोग करके संरचनाओं को स्कोर करता है, रैंक करता है और एक समूह निकालता है। वर्चुअल स्क्रीनिंग में कई फिल्टरों की श्रृंखला हो सकती है जो हर चरण में अवांछित यौगिकों को समाप्त कर देते हैं। जैसे-जैसे हम वर्चुअल स्क्रीनिंग के पहले चरण से अंतिम चरण की ओर बढ़ते हैं, मानदंड तेजी से कठोर होता जाता है, अर्थात् एक व्यापक पैरामीटर समूह से संकीर्ण समूह की ओर बढ़ा जाता है, इस आशा के साथ कि वांछित गुण दिखाने वाले अणुओं का एक छोटा समूह पहचाना जा सके।

वर्चुअल स्क्रीनिंग में निम्नलिखित का उपयोग शामिल हो सकता है: (क) सामान्य फिल्टर जो वांछित ADME गुण के साथ दवा जैसे यौगिकों की पहचान करते हैं, (ख) लिगंड आधारित विधियाँ जो मशीन लर्निंग तकनीकों, फार्माकोफोर आधारित खोज को सम्मिलित करती हैं, और (ग) संरचना आधारित विधियाँ जिनमें प्रोटीन-लिगंड डॉकिंग शामिल है। एक बार जब कोई यौगिक इन फिल्टरों से गुजर जाता है, तो उन्हें जैविक स्क्रीनिंग, संश्लेषण, परीक्षण आदि के लिए उपयोग किया जा सकता है।

बॉक्स 2

कैमिनिफॉर्मेटिक्स में सामान्य शब्दावली

(1) हाई थ्रूपुट स्क्रीनिंग (HTS)- एक बड़े पैमाने पर स्वचालित प्रक्रिया जहाँ लाखों यौगिकों को किसी वांछित गुण के लिए परीक्षित किया जाता है।

(2) **हिट्स- हाई-थ्रूपुट स्क्रीनिंग के दौरान प्रेक्षित सक्रियता, आमतौर पर नए यौगिकों की प्रतिशत सक्रियता के रूप में परिभाषित की जाती है जिसकी तुलना स्पष्ट रूप से परिभाषित और ज्ञात यौगिकों से की जाती है।

(3) झूठा सकारात्मक- स्क्रीनिंग के दौरान, ऐसी स्थितियाँ देखी जा सकती हैं जहाँ कोई यौगिक परीक्षण में सक्रिय पाया जाता है लेकिन किसी निश्चित जैविक लक्ष्य के प्रति निष्क्रिय सिद्ध होता है।

(4) लीड यौगिक-एक यौगिक जो जैविक और औषधीय रूप से सक्रिय हो और वांछित गुणों वाला हो, तथा जिसे आगे संसाधित किया जा सकता है।

(5) लाइब्रेरी- यौगिकों की एक सूची जो विशिष्ट सेलुलर लक्ष्यों के विरुद्ध स्क्रीनिंग के मानदंडों को पूरा करती है।

(6) नया रासायनिक संस्थान- प्रयोगशाला में खोया गया एक नया अणु जो अभी तक नैदानिक परीक्षणों में प्रवेश नहीं किया है।

(7) ऑफ-टार्गेट गतिविधि- रासायनिक यौगिकों और सेलुलर अणुओं के बीच आण्विक अन्योन्यक्रियाएँ जो लक्ष्य से बंधन नहीं करते।

सारांश

  • प्रोटीन इनफॉर्मेटिक्स सूचना प्रौद्योगिकी का एक विकासशील क्षेत्र है जिसमें किसी भी प्रोटीन के बारे में जानकारी परिष्कृत तकनीकों के माध्यम से एकत्र की जाती है। विभिन्न साधनों से एकत्र किया गया प्रोटीनों का कच्चा डेटा रुचि के प्रोटीन के बारे में महत्वपूर्ण जानकारी प्राप्त करने के लिए प्रयोग किया जाता है।

  • प्रोटीन की प्राथमिक संरचना का विश्लेषण ExPASy प्रोटियोमिक्स सर्वर के ProtParam उपकरण का उपयोग करके किया जा सकता है। इस सर्वर का उपयोग करके प्रोटीन का आइसोइलेक्ट्रिक बिंदु, ऐलिफैटिक सूचकांक, अस्थिरता सूचकांक और ग्रैंड औसत हाइड्रोपैथी (GRAVY) मान की गणना की जाती है। प्रोटीन की द्वितीयक संरचना की भविष्यवाणी APSSP, CPSSP, SOPMA और GOR का उपयोग करके की जाती है।

  • समानता मॉडलिंग, फोल्ड भविष्यवाणी और डी नोवो प्रोटीन संरचना भविष्यवाणी प्रोटीन की 3डी संरचना की भविष्यवाणी के लिए प्रयुक्त सामान्य कम्प्यूटेशनल विधियाँ हैं।

  • केमइनफॉर्मेटिक्स रसायन विज्ञान से सम्बद्ध समस्याओं को समझने के लिए कम्प्यूटेशनल और सूचनात्मक तकनीकों का संयोजन करता है। केमइनफॉर्मेटिक्स में प्रयुक्त सूचना में भौतिक गुणधर्म, 3-डी आण्विक क्रिस्टल संरचनाएँ, रासायनिक अभिक्रिया पथ आदि शामिल हैं।

  • फार्माकोफोर मॉडलिंग एक ऐसी विधि है जो लिगन्ड की आण्विक मान्यता को परिभाषित करने वाली आण्विक विशेषताओं का वर्णन देती है। लिपिन्स्की का रूल ऑफ फाइव (RO5) यौगिकों के प्रमुख आण्विक गुणों को रेखांकित करता है जो संभावित औषधि यौगिकों के चयन में सहायक होता है।

अभ्यास

1. प्रोटीन के गुणधर्मों के निर्धारण में सूचना प्रौद्योगिकी की भूमिका क्या है?

2. प्रोटीन के बारे में कम्प्यूटेशनल रूप से सूचना निकालने के लिए किस प्रकार का प्रोटीन कच्चा डेटा प्रयुक्त होता है?

3. डोमेन भविष्यवाणी के लिए कोई दो सामान्य उपकरणों के नाम बताइए।

4. केमइनफॉर्मेटिक्स का क्या महत्व है?

5. निम्नलिखित में से कौन-सा लिपिन्स्की के रूल ऑफ फाइव (RO5) का नियम नहीं है?

(a) 10 से अधिक हाइड्रोजन बॉन्ड रिसेप्टर्स नहीं

(b) विभाजन गुणांक $\log \mathrm{P}$ 5 से कम

(c) 5 से अधिक हाइड्रोजन बॉन्ड डोनर्स नहीं

(d) आण्विक भार $500 \mathrm{~g} / \mathrm{mol}$ से अधिक

6. निम्नलिखित में से कौन-सा प्रोटीन गुण प्राथमिक संरचना भविष्यवाणी में सम्मिलित नहीं है?

(a) ऐलिफैटिक सूचकांक

(b) फोल्ड भविष्यवाणी

(c) अस्थिरता सूचकांक

(d) आइसोइलेक्ट्रिक बिंदु