अध्याय 05 डेटा को समझना

“डेटा सूचना नहीं है, सूचना ज्ञान नहीं है, ज्ञान समझ नहीं है, समझ बुद्धिमत्ता नहीं है।”

  • गैरी शूबर्ट

5.1 डेटा का परिचय

कई बार लोग कुछ डेटा या सूचना के आधार पर निर्णय लेते हैं। उदाहरण के लिए, किसी कॉलेज में प्रवेश लेते समय कोई उस कॉलेज के पिछले वर्षों के प्लेसमेंट डेटा, शिक्षक सदस्यों की शैक्षिक योग्यता और अनुभव, प्रयोगशाला और छात्रावास की सुविधाएँ, फीस आदि देखता है। इसलिए हम कह सकते हैं कि किसी कॉलेज की पहचान विभिन्न डेटा और उनके विश्लेषण पर आधारित होती है। सरकारें जनगणना नामक प्रक्रिया के माध्यम से जनसंख्या के बारे में डेटा को व्यवस्थित रूप से एकत्र और रिकॉर्ड करती हैं। जनगणना डेटा में मूल्यवान सूचना होती है जो योजना और नीतियाँ बनाने में सहायक होती है। इसी प्रकार, किसी खेल टीम की कोचिंग स्टाफ प्रतिद्वंद्वी टीमों की पिछली प्रदर्शनों का विश्लेषण रणनीति बनाने के लिए करती है। बैंक ग्राहकों, उनके खाते के विवरण और लेनदेन के बारे में डेटा रखते हैं। ये सभी उदाहरण विभिन्न क्षेत्रों में डेटा की आवश्यकता को उजागर करते हैं। डेटा वास्तव में निर्णय लेने के लिए महत्वपूर्ण हैं।

पिछले उदाहरणों में, केवल डेटा को देखकर कोई निर्णय नहीं लिया जा सकता। हमारे कॉलेज चुनने के उदाहरण में, मान लीजिए कि कॉलेज की प्लेसमेंट सेल ने पिछले 3 वर्षों में विभिन्न कंपनियों में विभिन्न वेतन पैकेजों पर रखे गए लगभग 2000 छात्रों का डेटा रखा है। ऐसे डेटा को देखकर कोई भी उस कॉलेज के छात्रों की प्लेसमेंट के बारे में कोई टिप्पणी नहीं कर सकता। कॉलेज इस डेटा को प्रोसेस और विश्लेषण करता है और परिणामों को कॉलेज की प्लेसमेंट ब्रोशर में सारांश और दृश्यों के माध्यम से आसान समझ के लिए दिया जाता है। इसलिए, निर्णय लेने के लिए डेटा को एकत्रित, प्रोसेस और विश्लेषण करने की आवश्यकता होती है।

एक ज्ञान आधार सूचना का भंडार होता है जिसमें तथ्य, धारणाएं और नियम होते हैं जिनका उपयोग एक $\mathrm{AI}$ प्रणाली निर्णय लेने के लिए कर सकती है।

सामान्य तौर पर, डेटा वर्णों, संख्याओं और अन्य प्रतीकों का संग्रह होता है जो किसी स्थिति या चर के मानों को दर्शाता है। डेटा बहुवचन है और डेटा शब्द का एकवचन “डेटम” है। कंप्यूटरों का उपयोग करके, डेटा को इलेक्ट्रॉनिक रूप में संग्रहीत किया जाता है क्योंकि डेटा प्रोसेसिंग लोगों द्वारा किए गए मैनुअल डेटा प्रोसेसिंग की तुलना में तेज और आसान हो जाती है। कंप्यूटर, मोबाइल और इंटरनेट के नेतृत्व में सूचना और संचार प्रौद्योगिकी (ICT) क्रांति ने बड़ी मात्रा में डेटा और बहुत तेज गति से उत्पन्न किया है। निम्न सूची में कुछ उदाहरण दिए गए हैं जिन डेटा से हम अक्सर परिचित होते हैं।

  • किसी व्यक्ति का नाम, आयु, लिंग, संपर्क विवरण आदि
  • बैंकिंग, टिकट बुकिंग, खरीदारी आदि के माध्यम से उत्पन्न लेन-देन डेटा, चाहे ऑनलाइन हो या ऑफ़लाइन
  • छवियाँ, ग्राफ़िक्स, एनिमेशन, ऑडियो, वीडियो
  • दस्तावेज़ और वेब पृष्ठ
  • ऑनलाइन पोस्ट, टिप्पणियाँ और संदेश
  • सेंसरों द्वारा उत्पन्न सिग्नल
  • उपग्रह डेटा जिसमें मौसम संबंधी डेटा, संचार डेटा, पृथ्वी अवलोकन डेटा आदि शामिल हैं

5.1.1 डेटा का महत्व

मनुष्य निर्णय लेने के लिए डेटा पर निर्भर करते हैं। इसके अतिरिक्त, जब भारी मात्रा में डेटा कंप्यूटर की सहायता से प्रोसेस किया जाता है, तो यह हमें संभावनाएँ या छिपे हुए लक्षण दिखाता है जो अन्यथा मनुष्यों को दिखाई नहीं देते। जब कोई एटीएम से पैसा निकालता है, तो बैंक को जुड़े हुए खाते से निकाली गई राशि को डेबिट करना होता है। इसलिए बैंक को डेटा बनाए रखना होता है और जरूरत पड़ने पर उसे अपडेट करना होता है। मौसम विभाग लगातार उपग्रह डेटा की निगरानी करता है कि कोई आने वाला चक्रवात या भारी वर्षा है या नहीं।

प्रतिस्पर्धी व्यापारिक वातावरण में, व्यापारिक संगठनों के लिए यह महत्वपूर्ण है कि वे लगातार बाज़ार के व्यवहार की अपने उत्पादों के संदर्भ में निगरानी और विश्लेषण करें और तदनुसार कार्रवाई करें। इसके अतिरिक्त, कंपनियाँ ग्राहकों की मांगों के साथ-साथ प्रतिक्रियाओं की पहचान करती हैं और अपने उत्पादों या सेवाओं में बदलाव करती हैं।

विमानन कंपनियों और रेलवे द्वारा प्रयुक्त गतिशील मूल्य निर्धारण की अवधारणा एक अन्य उदाहरण है जहाँ वे मांग और आपूर्ति के बीच संबंधों के आधार पर मूल्य तय करते हैं। कैब बुकिंग ऐप्स किसी विशेष समय पर कैब की मांग के आधार पर मूल्य बढ़ाते या घटाते हैं। कुछ रेस्तरां छूट दर (हैप्पी आवर्स कहलाती है) प्रदान करते हैं, वे विभिन्न समय अवधियों में बिक्री के आंकड़ों का विश्लेषण करके यह तय करते हैं कि कब और कितनी छूट देनी है।

व्यवसाय के अतिरिक्त, निम्नलिखित कुछ अन्य परिदृश्य हैं जहाँ निर्णय लेने के लिए आंकड़ों को भी संग्रहित और विश्लेषित किया जाता है:

  • इलेक्ट्रॉनिक वोटिंग मशीनों का उपयोग डाले गए वोटों को रिकॉर्ड करने के लिए किया जाता है। तत्पश्चात्, सभी मशीनों से मतदान के आंकड़ों को एकत्र करके मतपत्रों की मैन्युअल गिनती की तुलना में कम समय में चुनाव परिणाम घोषित किए जाते हैं।
  • वैज्ञानिक प्रयोग करते समय आंकड़े रिकॉर्ड करते हैं परिणामों की गणना और तुलना करने के लिए।
  • फार्मास्युटिकल कंपनियाँ कोई नई दवा आज़माते समय इसकी प्रभावशीलता देखने के लिए आंकड़े रिकॉर्ड करती हैं।
  • पुस्तकालय पुस्तकालय में उपलब्ध पुस्तकों और पुस्तकालय की सदस्यता के बारे में आंकड़े रखते हैं।
  • खोज इंजन वर्ल्ड वाइड वेब (www) पर उपलब्ध वेबसाइटों के विशाल आंकड़ों का विश्लेषण करके हमें परिणाम देते हैं।
  • मौसम चेतावनियाँ विभिन्न उपग्रहों से प्राप्त आंकड़ों के विश्लेषण द्वारा उत्पन्न की जाती हैं।

5.1.2 आंकड़ों के प्रकार

जैसे डेटा विभिन्न स्रोतों से आता है, वे विभिन्न प्रारूपों में हो सकते हैं। उदाहरण के लिए, एक छवि पिक्सेल का संग्रह होती है; एक वीडियो फ्रेमों से बना होता है; एक फीस स्लिप कुछ संख्यात्मक और गैर-संख्यात्मक प्रविष्टियों से बना होता है; और संदेश/चैट टेक्स्ट, आइकन (इमोटिकॉन) और छवियों/वीडियो से बने होते हैं। दो व्यापक श्रेणियाँ जिनमें डेटा को उनके प्रारूप के आधार पर वर्गीकृत किया जा सकता है, ये हैं:

गतिविधि 5.1

अपने परिवार के सदस्यों के मतदाता पहचान पत्रों का अवलोकन करें और उन डेटा फ़ील्डों की पहचान करें जिनके तहत डेटा संगठित हैं। क्या वे सभी के लिए समान हैं?

(A) संरचित डेटा

डेटा जो संगठित होता है और एक सुव्यवस्थित प्रारूप में दर्ज किया जा सकता है, उसे संरचित डेटा कहा जाता है। संरचित डेटा आमतौर पर कंप्यूटर में सारणीबद्ध (पंक्तियों और स्तंभों में) प्रारूप में संग्रहीत किया जाता है जहाँ प्रत्येक स्तंभ एक विशेष पैरामीटर जिसे गुण/विशेषता/चर कहा जाता है, के लिए भिन्न डेटा को दर्शाता है और प्रत्येक पंक्ति विभिन्न गुणों के लिए एक प्रेक्षण का डेटा दर्शाती है। तालिका 5.1 एक दुकान द्वारा रखे गए रसोई सामान की सूची से संबंधित संरचित डेटा दिखाती है।

तालिका 5.1 दुकान में रसोई सामान के बारे में संरचित डेटा

ModelNo ProductName Unit Price Discount(%) Items_in_Inventory
ABC1 पानी की बोतल 126 8 13
ABC2 मेलामाइन प्लेटें 320 5 45
ABC3 डिनर सेट 4200 10 8
GH67 जग 80 0 10
GH78 टेबल स्पून 120 5 14
GH81 बाल्टी 190 12 6
NK2 रसोई तौलिया 25 0 32

इस डेटा को देखते हुए, स्प्रेडशीट या ऐसे ही अन्य सॉफ़्टवेयर का उपयोग करके दुकानदार यह पता लगा सकता है कि कुल कितनी वस्तुएँ हैं, टेबल 5.1 के Items_in_Inventory कॉलम का योग निकालकर। दुकानदार यह भी गणना कर सकता है कि इन्वेंटरी में मौजूद सभी वस्तुओं की कुल कीमत कितनी है—कॉलम 3 (Unit Price) की प्रत्येक प्रविष्टि को कॉलम 5 (Items_in_Inventory) की संगत प्रविष्टि से गुणा करके और उन सभी के योग को निकालकर।

टेबल 5.2 विभिन्न गुणधर्मों के लिए दर्ज किए गए संरचित डेटा के और उदाहरण दिखाता है।

टेबल 5.2 विभिन्न गतिविधियों के लिए बनाए गए गुणधर्म

इकाई/गतिविधियाँ डेटा फ़ील्ड/प्राचल/गुणधर्म
दुकान पर पुस्तकें BookTitle, Author, Price, YearofPublication
स्कूल में फ़ीस जमा करना StudentName, Class, RollNo, FeesAmount, DepositDate
एटीएम से राशि निकासी AccHolderName, AccountNo, TypeofAcc, DateofWithdrawal, AmountWithdrawn, ATMid, TimeOfWithdrawal

(B) असंरचित डेटा

एक अख़बार में विभिन्न प्रकार की समाचार सामग्रियाँ होती हैं जिन्हें डेटा भी कहा जाता है। लेकिन समाचार लेखों को रखने के लिए कोई निश्चित पैटर्न नहीं होता। एक दिन एक पृष्ठ पर तीन अलग-अलग आकारों की तस्वीरें, पाँच समाचार लेख और एक या अधिक विज्ञापन हो सकते हैं। जबकि किसी अन्य दिन एक बड़ी तस्वीर के साथ तीन पाठ समाचार लेख हो सकते हैं। इसलिए समाचार छापने के लिए कोई विशेष प्रारूप नहीं है और न ही कोई निश्चित संरचना है। एक अन्य उदाहरण ईमेल की सामग्री है। ईमेल में कितनी पंक्तियाँ या पैराग्राफ लिखनी हैं या कितनी फ़ाइलें संलग्न करनी हैं, इस बारे में कोई निश्चित संरचना नहीं है। संक्षेप में, डेटा जो पारंपरिक पंक्ति और स्तंभ संरचना में नहीं होता है, उसे असंरचित डेटा कहा जाता है।

असंरचित डेटा के उदाहरणों में टेक्स्ट और मल्टीमीडिया सामग्री (छवि, ग्राफ़िक्स, ऑडियो/वीडियो) वाले वेब पृष्ठ शामिल हैं। अन्य उदाहरणों में टेक्स्ट दस्तावेज़, व्यावसायिक रिपोर्टें, पुस्तकें, ऑडियो/वीडियो फ़ाइलें, सोशल मीडिया संदेश शामिल हैं। यद्यपि असंरचित डेटा को संसाधित करने के तरीके मौजूद हैं, हम इस पुस्तक में केवल संरचित डेटा को संभालने पर ध्यान केंद्रित करने जा रहे हैं।

सोचिए और विचार कीजिए

क्या जब हम अपने डिजिटल या मोबाइल कैमरे से कोई फ़ोटो क्लिक करते हैं, तो उसके साथ कोई मेटाडेटा जुड़ा होता है?

असंरचित डेटा को कभी-कभी कुछ अन्य डेटा की सहायता से वर्णित किया जाता है जिसे मेटाडेटा कहा जाता है। मेटाडेटा मूलतः डेटा के बारे में डेटा होता है। उदाहरण के लिए, हम ईमेल के विभिन्न भागों को विषय, प्राप्तकर्ता, मुख्य भाग, संलग्नक आदि के रूप में वर्णित करते हैं। ये ईमेल डेटा के लिए मेटाडेटा हैं। इसी प्रकार, हम किसी छवि फ़ाइल के लिए कुछ मेटाडेटा जैसे छवि आकार ($\mathrm{KB}$ या $\mathrm{MB}$ में), छवि प्रकार (उदाहरण के लिए, JPEG, PNG), छवि रिज़ॉल्यूशन आदि रख सकते हैं।

5.2 डेटा संग्रह

डेटा को संसाधित करने के लिए, हमें पहले डेटा को इकट्ठा या एकत्र करना होता है। हम फिर डेटा को बाद में उपयोग के लिए किसी फ़ाइल या डेटाबेस में संग्रहीत कर सकते हैं। यहाँ डेटा संग्रह का अर्थ है पहले से उपलब्ध डेटा की पहचान करना या उपयुक्त स्रोतों से एकत्र करना। मान लीजिए कि किराना दुकान में बिक्री डेटा उपलब्ध होने के तीन अलग-अलग परिदृश्य हैं:

  • बिक्री डेटा दुकानदार के पास डायरी या रजिस्टर में उपलब्ध है। इस स्थिति में हमें डेटा को डिजिटल प्रारूप में दर्ज करना चाहिए, उदाहरण के लिए, किसी स्प्रेडशीट में।
  • डेटा पहले से ही डिजिटल प्रारूप में उपलब्ध है, मान लीजिए CSV (कॉमा सेपरेटेड वैल्यूज़) फ़ाइल में।
  • दुकानदार ने अब तक किसी भी रूप में कोई डेटा रिकॉर्ड नहीं किया है, लेकिन बिक्री डेटा और लेखा रखने के लिए सॉफ़्टवेयर विकसित करवाना चाहता है। सॉफ़्टवेयर को Python जैसी किसी प्रोग्रामिंग भाषा का उपयोग करके विकसित किया जा सकता है जो CSV फ़ाइल या MySQL जैसे डेटाबेस प्रबंधन प्रणाली से डेटा को संग्रहीत और पुनः प्राप्त करने के लिए उपयोग किया जा सकता है, जिसे आगे चर्चा की जाएगी।

सोचिए और विचार कीजिए

आधार कार्ड बनाने के लिए आवश्यक गुणों की पहचान कीजिए।

डेटा लगातार विभिन्न स्रोतों पर उत्पन्न हो रहे हैं। डिजिटल माध्यम के साथ हमारी बातचीत लगातार विशाल मात्रा में डेटा उत्पन्न कर रही हैं। अस्पताल अपनी सेवाओं को बेहतर बनाने के लिए मरीजों के बारे में डेटा एकत्र कर रहे हैं। शॉपिंग मॉल लोगों द्वारा खरीदे जा रहे सामानों के बारे में डेटा एकत्र कर रहे हैं। ऐसे डेटा का विश्लेषण करने पर, मान लीजिए कि यह पता चलता है कि बेडशीट और किराने का सामान अक्सर एक साथ खरीदे जाते हैं। इसलिए, दुकान का मालिक मॉल में किराने के सेक्शन के पास बेडशीट प्रदर्शित करने का निर्णय ले सकता है ताकि बिक्री बढ़ सके। इसी तरह, एक राजनीतिक विश्लेषक सोशल मीडिया प्लेटफॉर्म पर पोस्ट और संदेशों में मौजूद डेटा को देख सकता है और चुनाव से पहले जनता की राय जानने के लिए विश्लेषण कर सकता है। विश्व बैंक और अंतर्राष्ट्रीय मुद्रा कोष (IMF) जैसे संगठन विभिन्न देशों से विभिन्न आर्थिक मापदंडों से संबंधित डेटा एकत्र कर रहे हैं ताकि आर्थिक पूर्वानुमान लगाए जा सकें।

5.3 डेटा संग्रहण

अनुवाद (हिन्दी):

एक बार जब हम डेटा एकत्र कर लेते हैं और उन्हें परिणाम प्राप्त करने के लिए प्रोसेस करते हैं, तब हम उन डेटा को सिर्फ़ फेंक नहीं देते। बल्कि, हम उन्हें भविष्य में उपयोग के लिए स्टोर करना चाहते हैं। डेटा स्टोरेज वह प्रक्रिया है जिसमें डेटा को स्टोरेज डिवाइसेज़ पर सहेजा जाता है ताकि भविष्य में उन्हें पुनः प्राप्त किया जा सके। आजकल बहुत तेज़ी से भारी मात्रा में डेटा उत्पन्न हो रहे हैं। इसलिए डेटा स्टोरेज एक चुनौतीपूर्ण कार्य बन गया है। फिर भी, डिजिटल स्टोरेज डिवाइसेज़ की लागत में कमी ने इस कार्य को आसान बनाया है। बाज़ार में कई प्रकार की डिजिटल स्टोरेज डिवाइसेज़ उपलब्ध हैं, जैसे—हार्ड डिस्क ड्राइव (HDD), सॉलिड स्टेट ड्राइव (SSD), CD/DVD, टेप ड्राइव, पेन ड्राइव, मेमोरी कार्ड आदि।

हम अपने कंप्यूटरों में चित्र, दस्तावेज़, ऑडियो/वीडियो आदि को फ़ाइलों के रूप में सहेजते हैं। इसी प्रकार, स्कूल/अस्पताल के डेटा को डेटा फ़ाइलों में रखा जाता है। हम इन फ़ाइलों में डेटा जोड़ने, संशोधित करने या हटाने के लिए कंप्यूटरों का उपयोग करते हैं, या फिर इन डेटा फ़ाइलों को प्रोसेस कर परिणाम प्राप्त करते हैं। फिर भी, फ़ाइल प्रोसेसिंग की कुछ सीमाएँ होती हैं, जिन्हें डेटाबेस मैनेजमेंट सिस्टम (DBMS) द्वारा दूर किया जा सकता है।

सोचिए और विचार कीजिए

क्या डेटा को प्रोसेस करने से पहले फ़ाइलों में सहेजना आवश्यक है?

5.4 डेटा प्रोसेसिंग

हम डेटा को समझने में रुचि रखते हैं क्योंकि वे मूल्यवान तथ्य और सूचनाएँ समेटे होते हैं जो निर्णय लेने की प्रक्रिया में उपयोगी हो सकती हैं। फिर भी, विशाल या बड़ी मात्रा में डेटा को देखकर कोई निष्कर्ष नहीं निकाल सकता। बल्कि, परिणाम प्राप्त करने के लिए डेटा को प्रोसेस करना पड़ता है और उन परिणामों का विश्लेषण करने के बाद ही हम निष्कर्ष या निर्णय लेते हैं।

चित्र 5.1: डेटा प्रोसेसिंग में चरण

हम ऑनलाइन बिल भुगतान, शिकायतों का पंजीकरण, टिकट बुकिंग आदि जैसी स्थितियों में स्वचालित डेटा प्रोसेसिंग पाते हैं। चित्र 5.1 आउटपुट प्राप्त करने के लिए डेटा को प्रोसेस करने के लिए उपयोग किए जाने वाले बुनियादी चरणों को दर्शाता है।

चित्र 5.2 कुछ कार्यों को डेटा, प्रोसेसिंग और उत्पन्न आउटपुट/सूचना के साथ दिखाता है।

5.5 डेटा प्रोसेसिंग के लिए सांख्यिकीय तकनीकें

डेटा मानों के एक समुच्चय को देते हुए, हमें सूचना प्राप्त करने के लिए उन्हें प्रोसेस करने की आवश्यकता होती है। विभिन्न तकनीकें हैं जो हमें डेटा के बारे में प्रारंभिक समझ प्राप्त करने में मदद करती हैं। सारांश विधियाँ सारणीय डेटा पर इसकी आसान समझ के लिए लागू की जाती हैं। डेटा सारांश के लिए सामान्यतः उपयोग की जाने वाली सांख्यिकीय तकनीकें नीचे दी गई हैं:

5.5.1 केंद्रीय प्रवृत्ति के माप

एक केंद्रीय प्रवृत्ति की माप एक एकल मान है जो हमें डेटा के बारे में कुछ विचार देता है। केंद्रीय प्रवृत्ति की तीन सबसे सामान्य मापें माध्य, माध्यिका और बहुलक हैं। प्रत्येक व्यक्तिगत डेटा मानों को देखने के बजाय, हम डेटा का माध्य, माध्यिका और बहुलक गणना कर सकते हैं ताकि क्रमशः औसत, मध्य मान और किसी विशेष मान की आवृत्ति के बारे में विचार प्राप्त कर सकें। केंद्रीय प्रवृत्ति की माप का चयन डेटा की कुछ विशेषताओं पर निर्भर करता है।

(A) माध्य

माध्य किसी गुणधर्म के संख्यात्मक मानों का औसत होता है। माध्य को औसत भी कहा जाता है। मान लीजिए किसी कक्षा में 40 छात्रों के वजन के डेटा हैं। प्रत्येक डेटा मान को देखने के बजाय, हम औसत की गणना कर सकते हैं ताकि उस कक्षा में छात्रों के औसत वजन के बारे में विचार प्राप्त कर सकें।

परिभाषा: दिए गए $n$ मान $x_{1}, x_{2}, x_{3}, \ldots x_{n}$ के लिए, माध्य की गणना $\frac{\sum_{i}^{n} x_{i}}{n}$ के रूप में की जाती है।

उदाहरण 5.1

मान लीजिए कि किसी कक्षा में छात्रों की ऊंचाई (सेमी में) इस प्रकार है $[90,102,110,115,85,90,100,110,110]$। कक्षा की माध्य या औसत ऊंचाई है

$$ \frac{90+102+110+115+85+90+100+110+110}{9}=\frac{912}{9}=101.33 \mathrm{~cm} $$

यदि डेटा में आउटलायर हैं तो माध्य उपयुक्त विकल्प नहीं है। माध्य की गणना करने के लिए, आउटलायर या चरम मानों को दिए गए डेटा से हटा देना चाहिए और फिर शेष डेटा का माध्य गणना करना चाहिए।

नोट: एक आउटलायर (outlier) एक ऐसा असाधारण रूप से बड़ा या छोटा मान होता है जो डेटा के अन्य मानों की तुलना में बहुत अलग होता है। आमतौर पर, आउटलायर्स को त्रुटि माना जाता है क्योंकि वे डेटा के औसत या अन्य सांख्यिकीय गणनाओं को प्रभावित कर सकते हैं।

(B) माध्यिका (Median)

माध्यिका भी एक समय में एक ही गुणधर्म/चर (attribute/variable) के लिए गणना की जाती है। जब सभी मानों को आरोही या अवरोही क्रम में व्यवस्थित किया जाता है, तो बीच का मान माध्यिका कहलाता है। जब मानों की संख्या विषम (odd) होती है, तो माध्यिका बीच की स्थिति पर स्थित मान होता है। यदि सूची में सम (even) संख्या में मान हों, तो माध्यिका दो मध्य मानों का औसत होता है। माध्यिका वह केंद्रीय मान दर्शाता है जिस पर दिया गया डेटा दो बराबर भागों में विभाजित हो जाता है।

उदाहरण 5.2

छात्रों की ऊंचाई के पिछले डेटा को लीजिए जिसका उपयोग औसत (मीन) गणना में किया गया था। माध्यिका गणना करने के लिए पहला कदम डेटा को आरोही या अवरोही क्रम में व्यवस्थित करना है। हमने ऊंचाई के डेटा को आरोही क्रम में इस प्रकार व्यवस्थित किया है: $[85,90,90,100,102,110,110,110,115]$। कुल 9 मान हैं (विषम संख्या), इसलिए माध्यिका 5वें स्थान पर स्थित मान है, अर्थात् $102 \mathrm{~cm}$ — चाहे बाएं से दाएं या दाएं से बाएं गिना जाए। माध्यिका वास्तविक केंद्रीय मान को दर्शाता है जिस पर दिया गया डेटा दो बराबर भागों में बंट जाता है।

सोचिए और विचार कीजिए
मीन (Mean) और माध्यिका (Median) में से कौन डेटा में मौजूद आउटलायर्स के प्रति अधिक संवेदनशील है?

(C) बहुलक (Mode)

वह मान जो दिए गए आंकड़ों में किसी गुण/चर के अंतर्गत सबसे अधिक बार प्रकट होता है, उसे बहुलक (Mode) कहा जाता है। यह दिए गए आंकड़ों में विभिन्न मानों की आवृत्ति के आधार पर निकाला जाता है। यदि प्रत्येक मान केवल एक बार आता है तो आंकड़ा-समुच्चय का कोई बहुलक नहीं होता। यदि एक से अधिक मानों की अधिकतम आवृत्ति समान हो तो आंकड़ों में एकाधिक बहुलक हो सकते हैं। बहुलक संख्यात्मक तथा गैर-संख्यात्मक दोनों प्रकार के आंकड़ों के लिए ज्ञात किया जा सकता है।

उदाहरण 5.3

छात्रों की ऊँचाई की सूची में बहुलक 110 है क्योंकि इसकी सूची में आवृत्ति 3 है, जो शेष मानों की आवृत्ति से अधिक है।

5.5.2 विचरण की मापें

विचरण की मापें मानों के माध्य के चारों ओर फैलाव या विचरण को दर्शाती हैं। इन्हें विस्तार की मापें भी कहा जाता है जो आंकड़ा-समुच्चय में विविधता की डिग्री बताती हैं। ये समूह के भीतर अंतर को भी संकेत करती हैं। दो भिन्न आंकड़ा-समुच्चयों का माध्य, माध्यिका या बहुलक समान हो सकता है, पर उनका विस्तार स्तर पूरी तरह भिन्न हो सकता है, या इसका विपरीत भी हो सकता है। विस्तार या विचरण की सामान्य मापें परास (Range) और मानक विचलन (Standard Deviation) हैं।

(A) परास

यह डेटा के अधिकतम और न्यूनतम मानों के बीच का अंतर है (सबसे बड़ा मान घटा सबसे छोटा मान)। रेंज की गणना केवल संख्यात्मक डेटा के लिए ही की जा सकती है। यह विचरण की एक माप है और डेटा मानों के कवरेज/फैलाव के बारे में बताती है। उदाहरण के लिए कर्मचारियों के वेतन में अंतर, किसी छात्र के अंक, खिलौनों की कीमत आदि। चूँकि रेंज की गणना दो चरम मानों के आधार पर की जाती है, डेटा में कोई भी आउटलाइर परिणाम को बुरी तरह प्रभावित करता है।

मान लीजिए $M$ डेटा में सबसे बड़ा या अधिकतम मान है और $S$ सबसे छोटा या न्यूनतम मान है, तो रेंज दो चरम मानों के बीच का अंतर है अर्थात् $M-S$ या अधिकतम - न्यूनतम।

उदाहरण 5.4

उपरोक्त उदाहरण में, न्यूनतम ऊँचाई का मान $85 \mathrm{~cm}$ है और अधिकतम ऊँचाई का मान $115 \mathrm{~cm}$ है। इसलिए रेंज है $115-85=30 \mathrm{~cm}$।

(B) मानक विचलन

मानक विचलन किसी चर के समूह या डेटा सेट के भीतर के अंतरों को दर्शाता है। रेंज की तरह, यह भी डेटा के फैलाव को मापता है। हालाँकि, रेंज के विपरीत जो केवल डेटा के दो चरम मानों का उपयोग करता है, मानक विचलन की गणना में सभी दिए गए डेटा को ध्यान में रखा जाता है। इसे डेटा के माध्य मान से प्रत्येक मान के अंतर के वर्ग का औसत का धनात्मक वर्गमूल के रूप में गणना की जाती है। मानक विचलन का छोटा मान यह दर्शाता है कि डेटा कम फैला हुआ है जबकि मानक विचलन का बड़ा मान यह दर्शाता है कि डेटा अधिक फैला हुआ है।

दिए गए $n$ मान $x_{1}, x_{2}, x_{3}, \ldots x_{n}$ और उनका माध्य $\bar{x}$ हो, तो मानक विचलन, जिसे $\sigma$ (ग्रीक अक्षर सिग्मा) द्वारा दर्शाया जाता है, इस प्रकार परिकलित किया जाता है

$$ \sum=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n}} $$

उदाहरण 5.5

आइए हम नौ विद्यार्थियों की ऊँचाई का मानक विचलन परिकलित करें, जिनका उपयोग हमने माध्य निकालते समय किया था। माध्य $(\bar{x})$ $101.33 \mathrm{~cm}$ निकाला गया था। प्रत्येक मान को माध्य से घटाएँ और उस मान का वर्ग लें। वर्ग मानों के योग को कुल मानों की संख्या से विभाजित करके उसका वर्गमूल लेने पर डेटा में मानक विचलन प्राप्त होता है। विवरण के लिए तालिका 5.3 देखें।

तालिका 5.3 9 विद्यार्थियों की उपस्थिति का मानक विचलन

आइए निम्नलिखित समस्याओं को देखें और उपयुक्त सांख्यिकीय तकनीक (माध्य/माध्यिका/बहुलक/परास/मानक विचलन) चुनें:

समस्या कथन उपयुक्त सांख्यिकीय विधि चुनें
एक कंपनी के प्रबंधन को सभी कर्मचारियों के वेतन में विषमता जाननी है।
शिक्षक किसी परीक्षा में पूरी कक्षा की औसत प्रदर्शन जानना चाहता है।
दो शहरों के निवासियों की ऊँचाई की तुलना करें
मानों के समूह से प्रमुख मान खोजें
दो शहरों के निवासियों की आय की तुलना करें

यह समझना महत्वपूर्ण है कि सांख्यिकीय तकनीकें क्या हैं ताकि कोई यह तय कर सके कि निर्णय पर पहुँचने के लिए किस सांख्यिकीय तकनीक का उपयोग करना है। बड़ी मात्रा में डेटा के कुशल विश्लेषण के लिए विभिन्न प्रोग्रामिंग उपकरण उपलब्ध हैं। ये उपकरण डेटा विश्लेषण के लिए सांख्यिकीय तकनीकों का उपयोग करते हैं। एक ऐसा प्रोग्रामिंग उपकरण Python है और इसमें डेटा प्रोसेसिंग और विश्लेषण के लिए विशेष रूप से बनाई गई लाइब्रेरीज़ हैं। हम आने वाले अध्यायों में उनमें से कुछ को कवर करेंगे।

सारांश

  • डेटा अव्यवस्थित तथ्यों को संदर्भित करता है जिन्हें प्रोसेस करके सार्थक परिणाम या जानकारी उत्पन्न की जा सकती है।
  • डेटा संरचित या असंरचित हो सकता है।
  • हार्ड डिस्क, SSD, CD/DVD, पेन ड्राइव, मेमोरी कार्ड आदि कुछ सामान्यतः उपयोग किए जाने वाले स्टोरेज डिवाइस हैं।
  • डेटा प्रोसेसिंग चक्र में डेटा की इनपुट और स्टोरेज, उसकी प्रोसेसिंग और आउटपुट उत्पन्न करना शामिल है।
  • सांख्यिकीय तकनीकों का उपयोग करके डेटा का सारांश बनाना डेटा की विशेषताओं को उजागर करने में सहायक होता है।
  • मीन, माध्य, बहुलक, रेंज और मानक विचलन डेटा सारांश के लिए उपयोग की जाने वाली कुछ सांख्यिकीय तकनीकें हैं।
  • मीन दिए गए मानों का औसत है।
  • माध्य वह मध्य मान है जब डेटा को आरोही/अवरोही क्रम में सॉर्ट किया जाता है।
  • बहुलक वह डेटा मान है जो सबसे अधिक बार प्रकट होता है।
  • रेंज अधिकतम और न्यूनतम मानों के बीच का अंतर है।
  • मानक विचलन प्रत्येक मान और मीन के बीच के वर्ग अंतर के औसत का धनात्मक वर्गमूल है।

अभ्यास

1. निम्नलिखित सेवाओं को करने के लिए रखे जाने वाले आवश्यक डेटा की पहचान करें:

क) परीक्षा परिणाम घोषित करना और ई-प्रमाणपत्र प्रिंट करना

ख) प्रदर्शनी में प्रतिभागियों का पंजीकरण करना और बायोमेट्रिक आईडी कार्ड जारी करना

ग) किसी खोज इंजन द्वारा चित्र खोजना

घ) किसी अस्पताल के विशिष्ट विभाग में ओपीडी अपॉइंटमेंट बुक करना

2. एक विद्यालय जिसमें 500 विद्यार्थी हैं, वह मेरिट-कम-मीन्स छात्रवृत्ति के लाभार्थियों की पहचान करना चाहता है जिन्होंने लगातार दो वर्षों में 75% से अधिक अंक प्राप्त किए हों और जिनके परिवार की वार्षिक आय 5 लाख से कम हो।

विद्यालय द्वारा लाभार्थी सूची तैयार करने के लिए किए जाने वाले डेटा प्रोसेसिंग चरणों का संक्षेप में वर्णन कीजिए।

3. एक बैंक ‘xyz’ शहर ‘ABC’ के निवासियों के बीच अपनी लोकप्रियता जानना चाहता है, इस आधार पर कि प्रत्येक परिवार के पास कितने बैंक खाते हैं और प्रत्येक व्यक्ति की औसत मासिक खाता शेष राशि क्या है। डेटा संग्रह के लिए किए जाने वाले चरणों का संक्षेप में वर्णन कीजिए और यह भी बताइए कि संग्रहित डेटा के प्रोसेसिंग से कौन-कौन से परिणाम जांचे जा सकते हैं।

4. निम्नलिखित परिदृश्यों में एकत्रित/उत्पन्न होने वाले डेटा के प्रकार की पहचान कीजिए:

क) वीडियो रिकॉर्ड करना

ख) शिक्षक द्वारा उपस्थिति अंकित करना

ग) ट्वीट लिखना

घ) ऑनलाइन आवेदन पत्र भरना

5. सप्ताह के 7 दिनों का तापमान (सेल्सियस में) इस प्रकार है: 34,34,27,28,27,34,34। निम्नलिखित की गणना के लिए उपयुक्त सांख्यिकीय तकनीक की पहचान कीजिए:

क) औसत तापमान ज्ञात करना।

ख) उस सप्ताह का तापमान परिसर (Range) ज्ञात करना।

ग) मानक विचलन तापमान ज्ञात करना।

6. एक विद्यालय के शिक्षक परिणामों का विश्लेषण करना चाहते हैं। निम्नलिखित स्थितियों के लिए उपयुक्त सांख्यिकीय तकनीक की पहचान करें और उसका औचित्य भी दें:

a) शिक्षक कक्षा बारहवीं A और कक्षा बारहवीं B के विद्यार्थियों द्वारा प्राप्त श्रेणी के आधार पर प्रदर्शन की तुलना करना चाहते हैं, जहाँ प्रत्येक कक्षा की संख्या समान है।

b) शिक्षक ने जुलाई से नवम्बर तक पाँच इकाई परीक्षाएँ आयोजित की हैं और वे इन पाँच महीनों में कक्षा के प्रदर्शन की तुलना करना चाहते हैं।

7. मान लीजिए आपके विद्यालय का वार्षिकोत्सव मनाया जाना है। विद्यालय ने कक्षा ग्यारहवीं और बारहवीं के उन विद्यार्थियों के माता-पिता को सम्मानित करने का निर्णय लिया है जो स्वयं इसी विद्यालय के पूर्व छात्र हैं। इस संदर्भ में निम्नलिखित प्रश्नों के उत्तर दें:

a) उन विद्यार्थियों की संख्या ज्ञात करने के लिए कौन-सी सांख्यिकीय तकनीक प्रयुक्त की जानी चाहिए जिनके दोनों माता-पिता इस विद्यालय के पूर्व छात्र हैं?

b) उस विद्यालय के विद्यार्थियों के माता-पिता की आयु में कितनी विविधता है?

8. वार्षिकोत्सव समारोह के लिए शिक्षक 42 विद्यार्थियों की कक्षा में एक एंकर की तलाश कर रहे हैं। शिक्षक गायन कौशल, लेखन कौशल तथा निगरानी कौशल के आधार पर एंकर का चयन करेंगे।

a) आंकड़ा संग्रह का कौन-सा प्रयोग किया जाना चाहिए?

b) आप विद्यार्थियों के कौशल को आंकड़े के रूप में कैसे प्रस्तुत करेंगे?

9. संरचित और असंरचित आंकड़ों में एक उदाहरण देते हुए अंतर स्पष्ट कीजिए।

10. एक विद्यालय के प्रधानाचार्य कैंटीन में खरीदे और बेचे गए खाद्य पदार्थों के आधार पर निम्नलिखित विश्लेषण करना चाहते हैं:

Here is the Hindi translation of the requested chunk:

a) फलों के रस और बिस्कुटों की खरीद और बिक्री कीमतों की तुलना करें।
b) फलों के रस, बिस्कुट और समोसे की बिक्री की तुलना करें।
c) समान मात्रा (मिलीलीटर में) के लिए विभिन्न कंपनियों के फलों के रस की बिक्री कीमत में विचरण।

इन वस्तुओं (फलों का रस, बिस्कुट, समोसा) के लिए एक उपयुक्त डेटासेट तैयार करें जिसमें उनकी खरीद कीमत और बिक्री कीमत सूचीबद्ध हों। तुलनाओं के लिए मूलभूत सांख्यिकीय तकनीकों का प्रयोग करें।