SATHEE CUET: Chapter 01 Data - Its Source and Compilation

अध्याय 01 डेटा - इसका स्रोत और संकलन

आपने विभिन्न रूपों में डेटा को देखा और उपयोग किया होगा। उदाहरण के लिए, टेलीविज़न पर लगभग हर समाचार बुलेटिन के अंत में उस दिन प्रमुख शहरों में दर्ज किए गए तापमान प्रदर्शित किए जाते हैं। इसी प्रकार, भारत के भूगोल की पुस्तकों में जनसंख्या की वृद्धि और वितरण, और विभिन्न फसलों, खनिजों और औद्योगिक उत्पादों के उत्पादन, वितरण और व्यापार से संबंधित डेटा सारणीबद्ध रूप में दिखाए गए हैं। क्या आपने कभी सोचा है कि ये क्या मतलब रखते हैं? ये डेटा कहाँ से प्राप्त किए जाते हैं? इन्हें कैसे सारणीबद्ध और संसाधित किया जाता है ताकि इनसे सार्थक जानकारी निकाली जा सके? इस अध्याय में हम डेटा के इन पहलुओं पर विचार करेंगे और इन कई प्रश्नों के उत्तर खोजने का प्रयास करेंगे।

डेटा क्या है?

डेटा को उन संख्याओं के रूप में परिभाषित किया गया है जो वास्तविक दुनिया से मापन को दर्शाती हैं। डेटम एक एकल माप है। हम अक्सर समाचार पढ़ते हैं जैसे कि बाड़मेर में 24 घंटों में लगातार 20 सेंटीमीटर वर्षा या बांसवाड़ा में 24 घंटों में लगातार 35 सेंटीमीटर वर्षा या जानकारी जैसे कि नई दिल्ली - मुंबई की दूरी कोटा-वडोदरा के रास्ते ट्रेन से 1385 किलोमीटर है और इटारसी-मनमद के रास्ते 1542 किलोमीटर है। इस संख्यात्मक जानकारी को डेटा कहा जाता है। यह आसानी से समझा जा सकता है कि आज दुनिया भर में भारी मात्रा में डेटा उपलब्ध है। हालांकि, कभी-कभी इन डेटा से तार्किक निष्कर्ष निकालना कठिन हो जाता है यदि वे कच्चे रूप में हों। इसलिए, यह सुनिश्चित करना महत्वपूर्ण है कि मापी गई जानकारी किसी एल्गोरिद्म से प्राप्त और/या तार्किक रूप से निष्कर्षित और/या सांख्यिकीय रूप से कई डेटा से गणना की गई हो। जानकारी को या तो किसी प्रश्न का सार्थक उत्तर या ऐसा सार्थक उत्तेजक माना जाता है जो आगे के प्रश्नों की श्रृंखला को जन्म दे सकता है।

डेटा की आवश्यकता

मानचित्र भूगोल का अध्ययन करने में महत्वपूर्ण उपकरण होते हैं। इसके अतिरिक्त, घटनाओं का वितरण और वृद्धि सारणीबद्ध रूप में आंकड़ों के माध्यम से भी समझायी जाती है। हम जानते हैं कि पृथ्वी की सतह पर अनेक घटनाओं के बीच परस्पर संबंध होता है। ये अन्योन्यक्रियाएँ अनेक चरों द्वारा प्रभावित होती हैं जिन्हें मात्रात्मक पदों में सर्वोत्तम रूप से समझाया जा सकता है। उन चरों का सांख्यिकीय विश्लेषण आज एक आवश्यकता बन गया है। उदाहरण के लिए, किसी क्षेत्र की फसल प्रणाली का अध्ययन करने के लिए कृषि-क्षेत्र, फसल उत्पादन और उत्पादन, सिंचित क्षेत्र, वर्षा की मात्रा और उर्वरक, कीटनाशक, पीड़कनाशक आदि के उपयोग जैसे आदानों के बारे में सांख्यिकीय सूचना होना आवश्यक है। इसी प्रकार, किसी नगर की वृद्धि का अध्ययन करने के लिए कुल जनसंख्या, घनत्व, प्रवासियों की संख्या, लोगों की व्यवसायिकता, उनके वेतन, उद्योग, परिवहन और संचार के साधनों से संबंधित आंकड़ों की आवश्यकता होती है। इस प्रकार, भौगोलिक विश्लेषण में आंकड़े एक महत्वपूर्ण भूमिका निभाते हैं।

आंकड़ों की प्रस्तुति

आपने एक व्यक्ति की कहानी सुनी होगी जो अपनी पत्नी और पाँच वर्षीय बच्चे के साथ यात्रा कर रहा था। रास्ते में उसे एक नदी पार करनी थी। सबसे पहले उसने नदी की गहराई चार बिंदुओं पर मापी जो $0.6,0.8,0.9$ और 1.5 मीटर थी। उसने औसत गहराई 0.95 मीटर निकाली। उसके बच्चे की ऊँचाई 1 मीटर थी। इसलिए वे नदी पार करने लगे और उसका बच्चा नदी में डूब गया। दूसरे किनारे पर वह सोचता रहा: “लेखा जोखा थाहे, तो बच्चा डूबा काहे?” (जब औसत गहराई सबकी पहुँच में थी तो बच्चा डूबा क्यों?) इसे सांख्यिकीय भ्रम कहा जाता है, जो आपको वास्तविक स्थिति से भटका सकता है। इसलिए तथ्यों और आँकड़ों को जानने के लिए डेटा इकट्ठा करना महत्वपूर्ण है, लेकिन डेटा की प्रस्तुति भी उतनी ही महत्वपूर्ण है। आज विश्लेषण, प्रस्तुति और निष्कर्ष निकालने में सांख्यिकीय विधियों का उपयोग लगभग सभी विषयों में महत्वपूर्ण भूमिका निभाता है, जिनमें भूगोल भी शामिल है, जो डेटा का उपयोग करता है। इसलिए यह निष्कर्ष निकाला जा सकता है कि किसी घटना की सांद्रता, जैसे जनसंख्या, वन या परिवहन या संचार का नेटवर्क, न केवल स्थान और समय के साथ भिन्न होती है, बल्कि डेटा का उपयोग करके इसे सुविधाजनक रूप से समझाया भी जा सकता है। दूसरे शब्दों में, आप कह सकते हैं कि चरों के बीच संबंधों को समझाने में गुणात्मक विवरण से मात्रात्मक विश्लेषण की ओर एक बदलाव आया है। इसलिए आजकल विश्लेषणात्मक उपकरण और तकनीकें अधिक महत्वपूर्ण हो गई हैं ताकि अध्ययन को अधिक तार्किक बनाया जा सके और सटीक निष्कर्ष निकाले जा सकें। डेटा इकट्ठा करने और संकलन से लेकर उसकी सारणीबद्धता, संगठन, क्रमबद्धता और विश्लेषण तथा निष्कर्ष निकालने तक सटीक मात्रात्मक तकनीकों का उपयोग शुरू से ही किया जाता है।

डेटा के स्रोत

डेटा को निम्नलिखित तरीकों से एकत्र किया जाता है। ये हैं: 1. प्राथमिक स्रोत, और 2. द्वितीयक स्रोत।

वे डेटा जो किसी व्यक्ति या व्यक्तियों के समूह, संस्था/संगठन द्वारा पहली बार एकत्र किए जाते हैं, उन्हें डेटा के प्राथमिक स्रोत कहा जाता है। दूसरी ओर, किसी भी प्रकाशित या अप्रकाशित स्रोत से एकत्र किए गए डेटा को द्वितीयक स्रोत कहा जाता है। चित्र 1.1 डेटा संग्रह की विभिन्न विधियों को दर्शाता है।

प्राथमिक डेटा के स्रोत

1. व्यक्तिगत अवलोकन

इससे तात्पर्य किसी व्यक्ति या व्यक्तियों के समूह द्वारा क्षेत्र में प्रत्यक्ष अवलोकन के माध्यम से सूचना एकत्र करने से है। एक क्षेत्र सर्वेक्षण के माध्यम से, राहत लक्षण, जल निकासी प्रतिरूप, मिट्टी के प्रकार और प्राकृतिक वनस्पति के साथ-साथ जनसंख्या संरचना, लिंग अनुपात, साक्षरता, परिवहन और संचार के साधन, शहरी और ग्रामीण बस्तियाँ आदि की सूचना एकत्र की जाती है। हालाँकि,

चित्र 1.1 : डेटा संग्रह की विधियाँ

व्यक्तिगत अवलोकन करते समय, संबंधित व्यक्ति(यों) को विषय का सैद्धांतिक ज्ञान और पूर्वाग्रह रहित मूल्यांकन के लिए वैज्ञानिक दृष्टिकोण होना चाहिए।

2. साक्षात्कार

इस विधि में, शोधकर्ता संवाद और बातचीत के माध्यम से उत्तरदाता से प्रत्यक्ष सूचना प्राप्त करता है। हालाँकि, साक्षात्कारकर्ता को क्षेत्र के लोगों के साथ साक्षात्कार करते समय निम्नलिखित सावधानियाँ बरतनी चाहिए:

(i) उन वस्तुओं की एक सटीक सूची तैयार की जाए जिनके बारे में साक्षात्कार किए गए व्यक्तियों से जानकारी प्राप्त करनी है।

(ii) साक्षात्कार करने वाले व्यक्ति(यों) को सर्वेक्षण के उद्देश्य के बारे में स्पष्ट होना चाहिए।

(iii) कोई संवेदनशील प्रश्न पूछने से पहले उत्तरदाता को विश्वास में लिया जाए और उसे आश्वस्त किया जाए कि गोपनीयता बनाए रखी जाएगी।

(iv) एक अनुकूल वातावरण बनाया जाए ताकि उत्तरदाता बिना किसी हिचकिचाहट के तथ्यों को स्पष्ट कर सके।

(v) प्रश्नों की भाषा सरल और विनम्र होनी चाहिए ताकि उत्तरदाता प्रेरित महसूस करें और आसानी से मांगी गई जानकारी देने के लिए सहमत हो जाएं।

(vi) ऐसा कोई प्रश्न न पूछा जाए जिससे उत्तरदाता की आत्म-सम्मान या धार्मिक भावनाएँ आहत हों।

(vii) साक्षात्कार के अंत में उत्तरदाता से पूछा जाए कि वह क्या अतिरिक्त जानकारी प्रदान कर सकता/सकती है, जो उसने पहले ही नहीं दी है।

(viii) अपने लिए अपना बहुमूल्य समय देने के लिए उसे धन्यवाद और कृतज्ञता प्रकट की जाए।

3. प्रश्नावली/अनुसूची

इस विधि में, साधारण काग़ज़ पर सरल प्रश्न और उनके संभावित उत्तर लिखे जाते हैं और उत्तरदाताओं को दिए गए विकल्पों में से संभावित उत्तरों पर टिक-चिह्न लगाना होता है। कभी-कभी, एक समूह संरचित प्रश्न लिखे जाते हैं और प्रश्नावली में पर्याप्त स्थान दिया जाता है जहाँ उत्तरदाता अपनी राय लिखता है। सर्वेक्षण के उद्देश्यों को प्रश्नावली में स्पष्ट रूप से उल्लिखित किया जाना चाहिए। यह विधि एक बड़े क्षेत्र का सर्वेक्षण करने में उपयोगी है। प्रश्नावली को दूर-दराज़ स्थानों पर डाक द्वारा भी भेजा जा सकता है। इस विधि की सीमा यह है कि केवल साक्षर और शिक्षित लोगों से ही आवश्यक जानकारी प्राप्त की जा सकती है। प्रश्नावली के समान ही एक अनुसूची होती है जिसमें जाँच के विषय से संबंधित प्रश्न होते हैं। प्रश्नावली और अनुसूची के बीच केवल इतना अंतर है कि उत्तरदाता स्वयं प्रश्नावली भरता है, जबकि एक उचित रूप से प्रशिक्षित गणक स्वयं उत्तरदाताओं से पूछे गए प्रश्नों के आधार पर अनुसूची भरता है। अनुसूची की प्रश्नावली पर मुख्य बढ़त यह है कि इससे साक्षर और निरक्षर दोनों प्रकार के उत्तरदाताओं से जानकारी एकत्र की जा सकती है।

4. अन्य विधियाँ

मिट्टी और जल के गुणों के बारे में आँकड़े सीधे मैदान में मिट्टी किट और जल गुणवत्ता किट का उपयोग करके उनकी विशेषताओं को मापकर एकत्र किए जाते हैं। इसी प्रकार, क्षेत्र वैज्ञानिक फसलों और वनस्पति की सेहत के बारे में ट्रांसड्यूसरों का उपयोग करके आँकड़े एकत्र करते हैं (चित्र 1.2)।

आँकड़ों का द्वितीय स्रोत

द्वितीयक डेटा स्रोत प्रकाशित और अप्रकाशित अभिलेखों से मिलकर बनते हैं जिनमें सरकारी प्रकाशन, दस्तावेज़ और रिपोर्टें शामिल हैं।

प्रकाशित स्रोत

1. सरकारी प्रकाशन

भारत सरकार के विभिन्न मंत्रालयों और विभागों, राज्य सरकारों और जिला बुलेटिनों के प्रकाशन द्वितीयक सूचना के सबसे महत्वपूर्ण स्रोतों में से एक हैं। इनमें भारत के रजिस्ट्रार जनरल के कार्यालय द्वारा प्रकाशित भारत की जनगणना, राष्ट्रीय नमूना सर्वेक्षण की रिपोर्टें, भारतीय मौसम विज्ञान विभाग की मौसम रिपोर्टें और राज्य सरकारों द्वारा प्रकाशित सांख्यिकीय सारांश, तथा विभिन्न आयोगों द्वारा प्रकाशित आवधिक रिपोर्टें शामिल हैं। कुछ सरकारी प्रकाशनों को चित्र 1.3 में दिखाया गया है।

चित्र 1.2 : फील्ड वैज्ञानिक फसल स्वास्थ्य की माप लेता हुआ

चित्र 1.3 : कुछ सरकारी प्रकाशन

2. अर्ध/अर्ध-सरकारी प्रकाशन

विभिन्न शहरों और कस्बों की नगर विकास प्राधिकरणों और नगर निगमों, जिला परिषदों आदि के प्रकाशन और रिपोर्टें इस श्रेणी में आते हैं।

3. अंतर्राष्ट्रीय प्रकाशन

अंतर्राष्ट्रीय प्रकाशनों में संयुक्त राष्ट्र के विभिन्न एजेंसियों द्वारा प्रकाशित वर्षबुक, रिपोर्ट और मोनोग्राफ शामिल हैं, जैसे संयुक्त राष्ट्र शैक्षिक, वैज्ञानिक और सांस्कृतिक संगठन (यूनेस्को), संयुक्त राष्ट्र विकास कार्यक्रम (यूएनडीपी), विश्व स्वास्थ्य संगठन (डब्ल्यूएचओ), खाद्य और कृषि संगठन (एफएओ) आदि। संयुक्त राष्ट्र के कुछ महत्वपूर्ण आवधिक प्रकाशन हैं जनसांख्यिकी वर्षबुक, सांख्यिकीय वर्षबुक और मानव विकास रिपोर्ट (चित्र 1.4)।

चित्र 1.4 : संयुक्त राष्ट्र के कुछ प्रकाशन

4. निजी प्रकाशन

समाचार पत्रों और निजी संगठनों द्वारा प्रकाशित वर्षबुक, सर्वेक्षण, शोध रिपोर्ट और मोनोग्राफ इस श्रेणी में आते हैं।

5. समाचार पत्र और पत्रिकाएं

दैनिक समाचार पत्र और साप्ताहिक, पाक्षिक और मासिक पत्रिकाएं सहायक आंकड़ों की सरलता से उपलब्ध स्रोतों के रूप में कार्य करते हैं।

6. इलेक्ट्रॉनिक मीडिया

इलेक्ट्रॉनिक मीडिया, विशेष रूप से इंटरनेट, हाल के वर्षों में सहायक आंकड़ों का एक प्रमुख स्रोत बनकर उभरा है।

अप्रकाशित स्रोत

1. सरकारी दस्तावेज़

अप्रकाशित रिपोर्ट, ग्रंथ तथा दस्तावेज़ भी सहायक आँकड़ों का एक अन्य स्रोत होते हैं। ये दस्तावेज़ विभिन्न शासन स्तरों पर अप्रकाशित अभिलेख के रूप में तैयार किए जाते हैं और रखे जाते हैं। उदाहरण के लिए, संबंधित गाँवों के पटवारियों द्वारा गाँव स्तर पर रखे जाने वाले राजस्व अभिलेख गाँव-स्तरीय सूचना का एक महत्वपूर्ण स्रोत बनते हैं।

2. अर्ध-सरकारी अभिलेख

विभिन्न नगर निगमों, जिला परिषदों तथा सिविल सेवा विभागों द्वारा तैयार किए गए और रखे गए आवधिक रिपोर्ट और विकास योजनाएँ अर्ध-सरकारी अभिलेखों में सम्मिलित होते हैं।

3. निजी दस्तावेज़

इनमें कंपनियों, ट्रेड यूनियनों, विभिन्न राजनीतिक और अराजनीतिक संगठनों तथा निवासी कल्याण संघों की अप्रकाशित रिपोर्टें और अभिलेख शामिल होते हैं।

आँकड़ों का वर्गीकरण और सारणीयन

प्राथमिक या सहायक स्रोतों से एकत्र किए गए आँकड़े प्रारंभ में सूचना का एक बड़ा गुच्छा प्रतीत होते हैं जिसकी समझ बहुत कम होती है। इसे कच्चा आँकड़ा कहा जाता है। सार्थक निष्कर्ष निकालने और उन्हें उपयोग योग्य बनाने के लिए कच्चे आँकड़े का वर्गीकरण और सारणीयन आवश्यक होता है।

एक सरलतम उपकरण जो आँकड़ों को संक्षेप में प्रस्तुत करता है, वह सांख्यिकीय सारणी है। यह आँकड़ों का स्तंभों और पंक्तियों में क्रमबद्ध प्रबंधन होता है। सारणी का उद्देश्य प्रस्तुति को सरल बनाना और तुलनाओं को सुगम बनाना है। यह सारणी पाठक को वांछित सूचना शीघ्र खोजने में सक्षम बनाती है। इस प्रकार, सारणियाँ विश्लेषक को विशाल आँकड़ों की मात्रा को न्यूनतम स्थान में सुव्यवस्थित रूप से प्रस्तुत करने की सुविधा देती हैं।

आँकड़ों का संकलन और प्रस्तुति

आँकड़ों को एकत्रित कर, सारणीबद्ध किया जाता है और सारणी रूप में या तो निरपेक्ष पदों में, प्रतिशतों या सूचकांकों के रूप में प्रस्तुत किया जाता है।

निरपेक्ष आँकड़े

जब आँकड़ों को उनके मूल रूप में पूर्णांकों के रूप में प्रस्तुत किया जाता है, तो उन्हें निरपेक्ष आँकड़े या कच्चे आँकड़े कहा जाता है। उदाहरण के लिए, किसी देश या राज्य की कुल जनसंख्या, किसी फसल या विनिर्माण उद्योग का कुल उत्पादन आदि। सारणी 1.1 भारत और कुछ चयनित राज्यों की जनसंख्या के निरपेक्ष आँकड़े दिखाती है।

$\hspace{1cm}$ सारणी 1.1 : भारत और चयनित राज्यों/केंद्र शासित प्रदेशों की जनसंख्या, 2011

राज्य/ संघ राज्य क्षेत्र कोड	भारत/राज्य/ संघ राज्य क्षेत्र	कुल जनसंख्या
		व्यक्ति	पुरुष	महिलाएं
1	2	3	4	5
	भारत $^{1}$	$1,21,05,69,573$	$62,31,21,843$	$58,74,47,730$
1.	जम्मू और कश्मीर ${ }^{2}$	$1,25,41,302$	$66,40,662$	$59,00,640$
2.	हिमाचल प्रदेश	$68,64,602$	$34,81,873$	$33,82,729$
3.	पंजाब	$2,77,43,338$	$1,46,39,465$	$1,31,03,873$
4.	चंडीगढ़ $^{3}$	$10,55,450$	$5,80,663$	$4,74,787$
5.	उत्तराखंड	$1,00,86,292$	$51,37,773$	$49,48,519$
6.	हरियाणा	$2,53,51,462$	$1,34,94,734$	$1,18,56,728$
7.	राष्ट्रीय राजधानी क्षेत्र दिल्ली	$1,67,87,941$	$89,87,326$	$78,00,615$
8.	राजस्थान	$6,85,48,437$	$3,55,50,997$	$3,29,97,440$
9.	उत्तर प्रदेश	$19,98,12,341$	$10,44,80,510$	$9,53,31,831$
10	बिहार	$10,40,99,452$	$5,42,78,157$	$4,98,21,295$

${ }^{1}$ भारत की सभी प्रादेशिक सीमाओं सहित
${ }^{2}$ पीओके को छोड़कर
${ }^{3}$ संघ राज्य क्षेत्र
स्रोत : जनगणना, 2011

प्रतिशत/अनुपात

कभी-कभी आंकड़े अनुपात या प्रतिशत के रूप में सारणीबद्ध होते हैं जो किसी सामान्य मापदंड से गणना किए जाते हैं, जैसे साक्षरता दर या जनसंख्या वृद्धि दर, कृषि उत्पादों या औद्योगिक उत्पादों का प्रतिशत आदि। सारणी 1.2 दशकों में भारत की साक्षरता दर प्रतिशत के रूप में प्रस्तुत करती है। साक्षरता दर की गणना इस प्रकार की जाती है :

$$ \frac{\text { कुल साक्षर }}{\text { कुल जनसंख्या }} \times 100 $$

तालिका 1.2 : साक्षरता दर : 1951 – 2011

वर्ष	व्यक्ति	पुरुष	महिला
1951	18.33	27.16	8.86
1961	28.3	40.4	15.35
1971	34.45	45.96	21.97
1981	43.57	56.38	29.76
1991	52.21	64.13	39.29
2001	64.84	75.85	54.16
2011	73.0	80.9	64.6

स्रोत: जनगणना, 2011

सूचकांक संख्या

सूचकांक संख्या एक सांख्यिकीय माप है जिसे किसी चर या संबंधित चरों के समूह में समय, भौगोलिक स्थान या अन्य विशेषताओं के सापेक्ष परिवर्तन दिखाने के लिए बनाया गया है। यह ध्यान देने योग्य है कि सूचकांक संख्याएँ न केवल समय के साथ परिवर्तन को मापती हैं, बल्कि विभिन्न स्थानों, उद्योगों, शहरों या देशों की आर्थिक स्थितियों की तुलना भी करती हैं। सूचकांक संख्या का व्यापक रूप से अर्थशास्त्र और व्यवसाय में मूल्य और मात्रा में परिवर्तन देखने के लिए उपयोग किया जाता है। सूचकांक संख्या की गणना के विभिन्न तरीके हैं। हालांकि, सरल समुच्चय विधि सबसे अधिक प्रयुक्त होती है। इसे निम्न सूत्र द्वारा प्राप्त किया जाता है:

$$ \frac{\sum q_{1}}{\sum q_{0}} \times 100 $$

$\sum q_{1}=$ वर्तमान वर्ष के उत्पादन का योग

$\sum q_{0}=$ आधार वर्ष के उत्पादन का योग

आमतौर पर, आधार वर्ष के मान 100 लिए जाते हैं और उसके आधार पर सूचकांक संख्या की गणना की जाती है। उदाहरण के लिए, तालिका 1.3 भारत में लौह अयस्क के उत्पादन को और 1970-71 को आधार वर्ष मानकर 1970-71 से 2000-01 तक सूचकांक संख्या में परिवर्तन को दर्शाती है।

$\hspace{1.5cm}$ तालिका 1.3 : भारत में लौह अयस्क का उत्पादन

	उत्पादन (मिलियन टन में)	गणना	सूचकांक संख्या
$1970-71$	32.5	$\frac{32.5}{32.5} \times 100$	100
$1980-81$	42.2	$\frac{42.2}{32.5} \times 100$	130
$1990-91$	53.7	$\frac{53.7}{32.5} \times 100$	165
$2000-01$	67.4	$\frac{67.4}{32.5} \times 100$	207

स्रोत - इंडिया: इकोनॉमिक ईयर बुक, 2005

आंकड़ों का प्रसंस्करण

कच्चे आंकड़ों के प्रसंस्करण के लिए उन्हें चयनित वर्गों में सारणीबद्ध और वर्गीकृत करना आवश्यक होता है। उदाहरण के लिए, तालिका 1.4 में दिए गए आंकड़ों का उपयोग यह समझने के लिए किया जा सकता है कि वे कैसे प्रसंस्कृत किए जाते हैं।

हम देख सकते हैं कि दिए गए आंकड़े अग्रुपित हैं। इसलिए, पहला कदम आंकड़ों को समूहित करना है ताकि उनकी मात्रा को कम किया जा सके और उन्हें समझने में आसानी हो।

तालिका 1.4 : भूगोल प्रश्नपत्र में 60 छात्रों के अंक

47	02	39	64	22	46	28	02	09	10
89	96	74	06	26	15	92	84	84	90
32	22	53	62	73	57	37	44	67	50
18	51	36	58	28	65	63	59	75	70
56	58	43	74	64	12	35	42	68	80
64	37	17	31	41	71	56	83	59	90

आंकड़ों का समूहबद्धन

कच्चे डेटा को समूहबद्ध करने के लिए यह निर्धारित करना होता है कि कितनी कक्षाओं में डेटा को बाँटा जाएगा और प्रत्येक कक्षा की अंतराल क्या होगी। कक्षा अंतराल और कक्षाओं की संख्या का चयन, हालाँकि, कच्चे डेटा की सीमा पर निर्भर करता है। तालिका 1.4 में दिया गया कच्चा डेटा 02 से 96 तक फैला है। हम इसलिए सुविधाजनक रूप से डेटा को दस कक्षाओं में बाँट सकते हैं, प्रत्येक कक्षा में दस इकाईयों का अंतराल रखते हुए, जैसे 0-10, 10-20, 20-30, आदि (तालिका 1.5)।

तालिका 1.5 : बारंबारता प्राप्त करने के लिए टैली चिह्न बनाना

समूह	कच्चे डेटा के अंक	टैली चिह्न	व्यक्तियों की संख्या
$0-10$	$02,02,09,06$	////	4
$10-20$	$10,15,18,12,17$	$7 x+1$	5
$20-30$	$22,28,26,22,28$	$74 x$	5
$30-40$	$39,32,37,36,35,37,31$	$7+4+11$	7
$40-50$	$47,46,44,43,42,41$	$7+x+1$	6
$50-60$	$53,57,50,51,58$ $59,56,58,56,59$	$74 x+111$	10
$60-70$	64,62,67,65, $63,64,68,64$	$7+x+7 x+$	8
$70-80$	$74,73,75,70,74,71$	$7+x+11$	6
$80-90$	$89,84,84,80,83$	$74 \times 1$	5
$90-100$	$96,92,90,90$	$7 x+1$	4
			$\sum f=N=60$

वर्गीकरण की प्रक्रिया

एक बार जब कक्षाओं की संख्या और प्रत्येक कक्षा का अंतराल निर्धारित हो जाता है, तब कच्चे डेटा को तालिका 1.5 में दिखाए अनुसार वर्गीकृत किया जाता है। यह एक ऐसी विधि द्वारा किया जाता है जिसे चार और क्रॉस विधि या टैली चिह्न विधि के नाम से जाना जाता है।

सबसे पहले, प्रत्येक व्यक्ति को उस समूह में एक टैली चिह्न दिया जाता है जिसमें वह आता है। उदाहरण के लिए, कच्चे आंकड़ों का पहला संख्यात्मक 47 है। चूँकि यह 40-50 के समूह में आता है, टेबल 1.5 के कॉलम 3 में एक टैली चिहन दर्ज किया जाता है।

बारंबारता बंटन

टेबल 1.5 में हमने एक मात्रात्मक चर के कच्चे आंकड़ों को वर्गीकृत किया है और उन्हें वर्गवार समूहबद्ध किया है। व्यक्तियों की संख्या (टेबल 1.5 के चौथे कॉलम में स्थान) को बारंबारता कहा जाता है और वह कॉलम बारंबारता बंटन को दर्शाता है। यह दिखाता है कि किसी चर के विभिन्न मान विभिन्न वर्गों में कैसे बँटे हैं। बारंबारताओं को सरल और संचयी बारंबारताओं में वर्गीकृत किया जाता है।

सरल बारंबारताएँ

इसे ‘$\boldsymbol{f}$’ द्वारा व्यक्त किया जाता है और यह प्रत्येक समूह में आने वाले व्यक्तियों की संख्या को दर्शाती है (टेबल 1.6)। सभी वर्गों को दी गई सभी बारंबारताओं का योग, दी गई श्रृंखला में व्यक्तिगत प्रेक्षणों की कुल संख्या को दर्शाता है। सांख्यिकी में इसे प्रतीक $\mathrm{N}$ द्वारा व्यक्त किया जाता है जो $\sum f$ के बराबर होता है। इसे $\sum f=N=60$ के रूप में व्यक्त किया जाता है (टेबल 1.5 और 1.6)।

टेबल 1.6 : बारंबारता बंटन

समूह	$f$	cf
$00-10$	4	4
$10-20$	5	9
$20-30$	5	14
$30-40$	7	21
$40-50$	6	27
$50-60$	10	37
$60-70$	8	45
$70-80$	6	51
$80-90$	5	56
$90-100$	4	60
	$\sum f=N=60$

संचयी बारंबारताएँ

इसे ’ $\boldsymbol{C} \boldsymbol{f}$ ’ द्वारा व्यक्त किया जाता है और इसे प्रत्येक समूह में क्रमिक सरल बारंबारताओं को पिछले योग में जोड़कर प्राप्त किया जा सकता है, जैसा कि तालिका 1.6 के स्तंभ 3 में दिखाया गया है। उदाहरण के लिए, तालिका 1.6 में पहली सरल बारंबारता 4 है। अगली बारंबारता 5 को 4 में जोड़ा जाता है जो अगली संचयी बारंबारता के रूप में कुल 9 देता है। इसी प्रकार, अंतिम संचयी बारंबारता 60 प्राप्त होने तक हर अगली संख्या को जोड़ते रहें। ध्यान दें कि यह $\mathrm{N}$ या $\sum f$ के बराबर है।

संचयी बारंबारता का लाभ यह है कि कोई आसानी से समझ सकता है कि 50 से कम अंक प्राप्त करने वाले 27 व्यक्ति हैं या 60 में से 45 व्यक्ति 70 के अंक से नीचे हैं।

प्रत्येक सरल बारंबारता अपने समूह या वर्ग से जुड़ी होती है। समूहों या वर्गों को बनाने के लिए विशिष्ट या अविशिष्ट विधियों का उपयोग किया जाता है।

विशिष्ट विधि

जैसा कि तालिका 1.6 में दिखाया गया है, इसके पहले स्तंभ में दो संख्याएँ दिखाई गई हैं। ध्यान दें कि एक समूह की ऊपरी सीमा अगले समूह की निचली सीमा के समान है। उदाहरण के लिए, एक समूह $(20-30)$ की ऊपरी सीमा 30 है, जो अगले समूह ( $30-40$ ) की निचली सीमा है, जिससे 30 दोनों समूहों में दिखाई देता है। लेकिन कोई भी प्रेक्षण जिसका मान 30 है, उसे उस समूह में शामिल किया जाता है जहाँ यह अपनी निचली सीमा पर है और उस समूह से बाहर रखा जाता है जहाँ यह ऊपरी सीमा है (जैसे 20-30 समूह में)। इसीलिए इस विधि को विशिष्ट विधि कहा जाता है, अर्थात् एक समूह अपनी ऊपरी सीमाओं से बाहर रखा जाता है। अब आप समझ सकते हैं कि तालिका 1.4 के सभी सीमांत मान कहाँ जाएँगे।

तालिका 1.6 में समूहों की व्याख्या निम्न प्रकार से की जाती है-

0 और 10 से कम $\hspace{1cm}$ 10 और 20 से कम

20 और 30 से कम $\hspace{1cm}$ 30 और 40 से कम

40 और 50 से कम $\hspace{1cm}$ 50 और 60 से कम

60 और 70 से कम $\hspace{1cm}$ 70 और 80 से कम

80 और 90 से कम $\hspace{1cm}$ 90 और 100 से कम

इस प्रकार के समूहन में वर्ग दस इकाइयों तक फैला होता है। उदाहरण के लिए, $20,21,22,23,24,25,26,27,28$ और 29 तीसरे समूह में शामिल हैं।

समावेशी विधि

इस विधि में, किसी समूह की ऊपरी सीमा के बराबर मान को उसी समूह में शामिल किया जाता है। इसलिए इसे समावेशी विधि कहा जाता है। इस विधि में वर्गों को एक भिन्न रूप में दर्शाया जाता है, जैसा कि तालिका 1.7 के पहले स्तंभ में दिखाया गया है। सामान्यतः, किसी समूह की ऊपरी सीमा अगले समूह की निचली सीमा से 1 अलग होती है। यह ध्यान देना महत्वपूर्ण है कि इस विधि में भी प्रत्येक समूह दस इकाइयों तक फैला होता है। उदाहरण के लिए, 50-59 का समूह दस मानों को सम्मिलित करता है अर्थात् $50,51,52,53,54$, 55, 56, 57, 58 और 59 (तालिका 1.7)। इस विधि में, आवृत्ति वितरण ज्ञात करने के लिए ऊपरी और निचली दोनों सीमाओं को सम्मिलित किया जाता है।

तालिका 1.7 : आवृत्ति वितरण

समूह	$f$	cf
$0-9$	4	4
$10-19$	5	9
$20-29$	5	14
$30-39$	7	21
$40-49$	6	27
$50-59$	10	37
$60-69$	8	45
$70-79$	6	51
$80-89$	5	56
$90-99$	4	60
	$\sum f=N=60$

आवृत्ति बहुभुज

एक आवृत्ति बंटन का ग्राफ आवृत्ति बहुभुज (frequency polygon) कहलाता है। यह दो या दो से अधिक आवृत्ति बंटनों की तुलना करने में सहायक होता है (Fig.1.5)। दो आवृत्तियों को क्रमशः एक दंड आरेख (bar diagram) और एक रेखा ग्राफ (line graph) द्वारा दर्शाया जाता है।

ओजाइव (Ogive)

जब आवृत्तियों को जोड़ा जाता है तो उन्हें संचयी आवृत्तियाँ (cumulative frequencies) कहा जाता है और इन्हें एक सारणी में सूचीबद्ध किया जाता है जिसे संचयी आवृत्ति सारणी (cumulative frequency table) कहा जाता है। संचयी आवृत्तियों को आलेखित करने पर प्राप्त वक्र को ओजाइव (Ogive) कहा जाता है (उच्चारण: ओजाइव)। इसे या तो ‘कम से कम विधि’ (less than method) या ‘अधिक से अधिक विधि’ (more than method) द्वारा निर्मित किया जाता है।

कम से कम विधि में हम वर्गों की ऊपरी सीमा से प्रारंभ करते हैं और आवृत्तियों को जोड़ते जाते हैं। जब इन आवृत्तियों को आलेखित किया जाता है तो हमें एक उठता हुआ वक्र प्राप्त होता है जैसा कि Table 1.8 और Fig. 1.6 में दिखाया गया है।

अधिक से अधिक विधि में हम वर्गों की निचली सीमा से प्रारंभ करते हैं और संचयी आवृत्ति से प्रत्येक वर्ग की आवृत्ति घटाते जाते हैं। जब इन आवृत्तियों को आलेखित किया जाता है तो हमें एक गिरता हुआ वक्र प्राप्त होता है जैसा कि Table 1.9 और Fig 1.7 में दिखाया गया है।

Fig. 1.5 : आवृत्ति बंटन बहुभुज

Fig. 1.5 और Fig. 1.6 दोनों को मिलाकर कम से कम और अधिक से अधिक ओजाइव की तुलनात्मक तस्वीर प्राप्त की जा सकती है जैसा कि Table 1.10 और Fig. 1.7 में दिखाया गया है।

Table 1.8 : आवृत्ति बंटन - कम से कम विधि

कम से कम विधि	cf
10 से कम	4
20 से कम	9
30 से कम	14
40 से कम	21
50 से कम	27
60 से कम	37
70 से कम	45
80 से कम	51
90 से कम	56
100 से कम	60

चित्र 1.6 : कम से कम ओजाइव

तालिका 1.9 : बारंबारता बंटन अधिक से अधिक विधि

अधिक से अधिक विधि	cf
0 से अधिक	60
10 से अधिक	56
20 से अधिक	51
30 से अधिक	44
40 से अधिक	38
50 से अधिक	28
60 से अधिक	20
70 से अधिक	14
80 से अधिक	9
90 से अधिक	4

तालिका 1.10 : कम से कम और अधिक से अधिक ओजाइव

अंक प्राप्त किए	कम से कम	अधिक से अधिक
$0-10$	4	60
$10-20$	9	56
$20-30$	14	51
$30-40$	21	44
$30-40$	27	38
$50-60$	37	28
$60-70$	45	20
$70-80$	51	14
$80-90$	56	9
$90-100$	60	4

चित्र 1.7 : अधिक से अधिक ओजाइव

चित्र 1.8 : कम-से-ज़्यादा और ज़्यादा-से-कम ओजाइव

अभ्यास

1. चार दिए गए विकल्पों में से सही उत्तर चुनिए:

(i) एक संख्या या चिह्न जो मापन को दर्शाता है, उसे कहा जाता है

(a) अंक
(b) आँकड़ा
(c) संख्या
(d) अक्षर

(ii) एक एकल आँकड़ा एक एकल मापन होता है

(a) सारणी से
(b) बारंबारता से
(c) वास्तविक दुनिया से
(d) सूचना से

(iii) टैली चिह्न में चार को समूहबद्ध कर पाँचवें को काटने की विधि को कहा जाता है

(a) चार और काट विधि
(b) टैली चिह्नन विधि
(c) बारंबारता आलेखन विधि
(d) समावेशी विधि

(iv) ओजाइव एक ऐसी विधि है जिसमें

(a) सरल बारंबारता मापी जाती है
(b) संचयी बारंबारता मापी जाती है
(c) सरल बारंबारता आलेखित की जाती है
(d) संचयी बारंबारता आलेखित की जाती है

(v) यदि बारंबारता समूहीकरण में समूह के दोनों सिरों को लिया जाता है, तो इसे कहा जाता है

(a) अपवर्जी विधि
(b) समावेशी विधि
(c) चिह्नन विधि
(d) सांख्यिकीय विधि

2. निम्नलिखित प्रश्नों के उत्तर लगभग 30 शब्दों में दीजिए:

(i) आँकड़ों और सूचना में अंतर स्पष्ट कीजिए।
(ii) आप आँकड़ा प्रक्रमण से क्या समझते हैं?
(iii) सारणी में पाद-टिप्पणी का क्या लाभ है?
(iv) आप प्राथमिक आँकड़ा स्रोत से क्या समझते हैं?
(v) द्वितीयक आँकड़ों के पाँच स्रोतों की गणना कीजिए।

3. निम्नलिखित प्रश्नों के उत्तर लगभग 125 शब्दों में दीजिए:

(i) राष्ट्रीय और अंतरराष्ट्रीय एजेंसियों की चर्चा करें जहाँ से द्वितीयक डेटा एकत्र किया जा सकता है।
(ii) सूचकांक संख्या का क्या महत्व है? एक उदाहरण लेते हुए सूचकांक संख्या की गणना की प्रक्रिया की जाँच करें और परिवर्तनों को दिखाएँ।

गतिविधि

1. भूगोल की 35 छात्रों की एक कक्षा में इकाई परीक्षा में 10 अंकों में से निम्नलिखित अंक प्राप्त हुए थे - 1,0,2,3,4,5,6,7,2,3,4,0,2,5,8,4,5,3,6,3,2,7,6,5,4,3,7,8,9,7,9,4,5,4,3। डेटा को समूह आवृत्ति वितरण के रूप में प्रस्तुत करें।

2. अपनी कक्षा की भूगोल की अंतिम परीक्षा का परिणाम एकत्र करें और अंकों को समूह आवृत्ति वितरण के रूप में प्रस्तुत करें।