Chapter 07 Understanding Data

“डेटा सूचना नहीं है, सूचना ज्ञान नहीं है, ज्ञान समझ नहीं है, समझ बुद्धिमत्ता नहीं है।”

$\quad$ - गैरी शूबर्ट

7.1 डेटा का परिचय

अनेक बार लोग निर्णय किसी डेटा या सूचना के आधार पर लेते हैं। उदाहरण के लिए, किसी कॉलेज में प्रवेश लेते समय कोई उस कॉलेज के पिछले वर्षों के प्लेसमेंट डेटा, शिक्षक सदस्यों की शैक्षिक योग्यता और अनुभव, प्रयोगशाला और छात्रावास सुविधाओं, फीस आदि को देखता है। इसलिए हम कह सकते हैं कि किसी कॉले�ज की पहचान विभिन्न डेटा और उनके विश्लेषण पर आधारित होती है। सरकारें जनगणना नामक प्रक्रिया के माध्यम से जनसंख्या के बारे में डेटा को व्यवस्थित रूप से एकत्र करती और रिकॉर्ड करती हैं। जनगणना डेटा में मूल्यवान सूचनाएँ होती हैं जो योजना और नीतियाँ बनाने में सहायक होती हैं। इसी प्रकार, किसी खेल टीम की कोचिंग स्टाफ प्रतिद्वंद्वी टीमों की पिछली प्रदर्शनों का विश्लेषण रणनीति बनाने के लिए करती है। बैंक ग्राहकों, उनके खाते के विवरण और लेनदेन के बारे में डेटा रखते हैं। ये सभी उदाहरण विभिन्न क्षेत्रों में डेटा की आवश्यकता को रेखांकित करते हैं। डेटा वास्तव में निर्णय लेने के लिए अत्यंत महत्वपूर्ण हैं।

पिछले उदाहरणों में, केवल डेटा को देखकर कोई निर्णय नहीं लिया जा सकता। हमारे कॉलेज चुनने के उदाहरण में मान लीजिए कि कॉलेज की प्लेसमेंट सेल ने पिछले 3 वर्षों में विभिन्न कंपनियों में विभिन्न वेतन पैकेज पर रखे गए लगभग 2000 छात्रों का डेटा रखा है। ऐसे डेटा को देखकर उस कॉलेज के छात्रों की प्लेसमेंट के बारे में कोई टिप्पणी नहीं की जा सकती। कॉलेज इस डेटा को प्रोसेस और विश्लेषण करता है और परिणामों को कॉलेज के प्लेसमेंट ब्रोशर में सारांश और दृश्यों के माध्यम से आसान समझ के लिए दिया जाता है। इसलिए निर्णय लेने के लिए डेटा को एकत्रित, प्रोसेस और विश्लेषित करने की आवश्यकता होती है।

नॉलेज बेस जानकारी का एक भंडार है जिसमें तथ्य, धारणाएं और नियम होते हैं जिनका उपयोग एक AI सिस्टम निर्णय लेने के लिए कर सकता है।

सामान्य तौर पर, डेटा वर्णों, संख्याओं और अन्य प्रतीकों का एक संग्रह है जो किसी स्थिति या चर के मानों को दर्शाता है। डेटा बहुवचन है और डेटा शब्द का एकवचन “डेटम” है। कंप्यूटरों का उपयोग करके, डेटा को इलेक्ट्रॉनिक रूप में संग्रहीत किया जाता है क्योंकि डेटा प्रोसेसिंग लोगों द्वारा किए गए मैनुअल डेटा प्रोसेसिंग की तुलना में तेज और आसान हो जाती है। कंप्यूटर, मोबाइल और इंटरनेट के नेतृत्व में सूचना और संचार प्रौद्योगिकी (ICT) क्रांति ने बड़ी मात्रा में डेटा और बहुत तेज गति से उत्पन्न करने का परिणाम दिया है। निम्न सूची में कुछ उदाहरण दिए गए हैं जिन डेटा से हम अक्सर दो-चार होते हैं।

  • किसी व्यक्ति का नाम, आयु, लिंग, संपर्क विवरण आदि
  • बैंकिंग, टिकट बुकिंग, खरीदारी आदि के माध्यम से उत्पन्न लेन-देन डेटा, चाहे ऑनलाइन हो या ऑफलाइन
  • चित्र, ग्राफिक्स, एनिमेशन, ऑडियो, वीडियो
  • दस्तावेज़ और वेब पेज
  • ऑनलाइन पोस्ट, टिप्पणियाँ और संदेश
  • सेंसरों द्वारा उत्पन्न संकेत
  • उपग्रह डेटा जिसमें मौसम संबंधी डेटा, संचार डेटा, पृथ्वी अवलोकन डेटा आदि शामिल हैं

7.1.1 डेटा का महत्व

मानव निर्णय लेने के लिए डेटा पर निर्भर करते हैं। इसके अतिरिक्त, जब बड़ी मात्रा में डेटा को कंप्यूटर की सहायता से प्रोसेस किया जाता है, तो वह हमें संभावनाएँ या छिपे हुए लक्षण दिखाता है जो मनुष्यों को अन्यथा दिखाई नहीं देते। जब कोई एटीएम से पैसा निकालता है, तो बैंक को जुड़े खाते से निकाली गई राशि को डेबिट करना होता है। इसलिए बैंक को डेटा बनाए रखना होता है और जरूरत पड़ने पर उसे अपडेट करना होता है। मौसम विभाग लगातार किसी आने वाले चक्रवात या भारी वर्षा के लिए उपग्रह डेटा की निगरानी करते रहते हैं।

प्रतिस्पर्धी व्यापारिक वातावरण में, व्यापारिक संगठनों के लिए यह आवश्यक है कि वे अपने उत्पादों के संदर्भ में बाजार के व्यवहार की निरंतर निगरानी और विश्लेषण करें और तदनुसार कार्रवाई करें। इसके अतिरिक्त, कंपनियाँ ग्राहकों की मांगों और प्रतिक्रियाओं की पहचान करती हैं और अपने उत्पादों या सेवाओं में तदनुसार बदलाव करती हैं।

वायुयान और रेलवे द्वारा प्रयुक्त गतिशील मूल्य निर्धारण की अवधारणा एक और उदाहरण है जहाँ वे मांग और आपूर्ति के बीच संबंधों के आधार पर मूल्य तय करते हैं। कैब बुकिंग ऐप्स किसी विशेष समय पर कैब की मांग के आधार पर मूल्य बढ़ाते या घटाते हैं। कुछ रेस्तरां छूट दर (हैप्पी आवर्स कहलाती है) प्रदान करते हैं, वे विभिन्न समयावधियों में बिक्री के आंकड़ों का विश्लेषण कर यह तय करते हैं कि कब और कितनी छूट दी जाए।

व्यवसाय के अतिरिक्त, निम्नलिखित कुछ अन्य परिदृश्य हैं जहाँ निर्णय लेने के लिए आंकड़ों को संग्रहित और विश्लेषित भी किया जाता है:

  • इलेक्ट्रॉनिक वोटिंग मशीनें डाले गए मतों को रिकॉर्ड करने के लिए प्रयुक्त होती हैं। तत्पश्चात् सभी मशीनों से मतदान के आंकड़ों को संचित कर मतपत्रों की मैन्युअल गिनती की तुलना में कम समय में चुनाव परिणाम घोषित किए जाते हैं।
  • वैज्ञानिक प्रयोग करते समय परिणामों की गणना और तुलना करने के लिए आंकड़े रिकॉर्ड करते हैं।
  • फार्मास्युटिकल कंपनियाँ किसी नई दवा की प्रभावशीलता देखने के लिए परीक्षण करते समय आंकड़े रिकॉर्ड करती हैं।
  • पुस्तकालय पुस्तकालय में उपलब्ध पुस्तकों और सदस्यता के बारे में आंकड़े संधारित करते हैं।
  • खोज इंजन वर्ल्ड वाइड वेब (www) पर उपलब्ध वेबसाइटों के विशाल आंकड़ों का विश्लेषण करके हमें परिणाम देते हैं।
  • मौसम चेतावनियाँ विभिन्न उपग्रहों से प्राप्त आंकड़ों के विश्लेषण द्वारा उत्पन्न की जाती हैं।

7.1.2 आंकड़ों के प्रकार

जैसे डेटा विभिन्न स्रोतों से आता है, वे विभिन्न प्रारूपों में हो सकते हैं। उदाहरण के लिए, एक छवि पिक्सेलों का एक संग्रह होती है; एक वीडियो फ्रेमों से बना होता है; एक फीस स्लिप कुछ संख्यात्मक और गैर-संख्यात्मक प्रविष्टियों से बनी होती है; और संदेश/चैट टेक्स्ट, आइकन (इमोटिकॉन्स) और छवियों/वीडियो से बने होते हैं। दो व्यापक श्रेणियाँ जिनमें डेटा को उनके प्रारूप के आधार पर वर्गीकृत किया जा सकता है, वे हैं:

(ए) संरचित डेटा

डेटा जो संगठित होता है और एक सुव्यवस्थित प्रारूप में दर्ज किया जा सकता है, उसे संरचित डेटा कहा जाता है। संरचित डेटा आमतौर पर कंप्यूटर में सारणीबद्ध (पंक्तियों और स्तंभों में) प्रारूप में संग्रहीत किया जाता है जहाँ प्रत्येक स्तंभ एक विशेष पैरामीटर जिसे विशेषता/लक्षण/चर कहा जाता के लिए भिन्न डेटा को दर्शाता है और प्रत्येक पंक्ति विभिन्न विशेषताओं के लिए एक प्रेक्षण के डेटा को दर्शाती है। तालिका 7.1 एक दुकान द्वारा रखे गए रसोई सामान के इन्वेंटरी से संबंधित संरचित डेटा दिखाती है।

गतिविधि 7.1

अपने परिवार के सदस्यों के मतदाता पहचान पत्रों का अवलोकन करें और उन डेटा फ़ील्डों की पहचान करें जिनके अंतर्गत डेटा संगठित हैं। क्या वे सभी के लिए समान हैं?

$\hspace{1.5cm}$ तालिका 7.1 एक दुकान में रसोई सामान के बारे में संरचित डेटा

ModelNo ProductName Unit Price Discount(%) Items_in_Inventory
ABC1 पानी की बोतल 126 8 13
ABC2 मेलामाइन प्लेटें 320 5 45
ABC3 डिनर सेट 4200 10 8
GH67 जग 80 0 10
GH78 टेबल चम्मच 120 5 14
GH81 बाल्टी 190 12 6
NK2 किचन तौलिया 25 0 32

इस डेटा को देखते हुए, स्प्रेडशीट या ऐसे ही अन्य सॉफ़्टवेयर का उपयोग करके दुकानदार टेबल 7.1 के Items_in_Inventory कॉलम का योग निकालकर यह जान सकता है कि कुल कितनी वस्तुएँ हैं। दुकानदार यह भी निकाल सकता है कि इन्वेंटरी में मौजूद सभी वस्तुओं की कुल कितनी कीमत है, इसके लिए वह कॉलम 3 (Unit Price) की प्रत्येक प्रविष्टि को कॉलम 5 (Items_in_Inventory) की संगत प्रविष्टि से गुणा करके उनका योग निकालेगा।

टेबल 7.2 विभिन्न गुणधर्मों के लिए दर्ज किए गए संरचित डेटा के और उदाहरण दिखाता है।

$\hspace{2.7cm}$ टेबल 7.2 विभिन्न गतिविधियों के लिए रखे गए गुणधर्म

इकाई/गतिविधियाँ डेटा फ़ील्ड/प्राचल/गुणधर्म
दुकान पर पुस्तकें BookTitle, Author, Price, YearofPublication
स्कूल में फ़ीस जमा करना StudentName, Class, RollNo, FeesAmount, DepositDate
एटीएम से राशि निकासी AccHolderName, AccountNo, TypeofAcc, DateofWithdrawal,
AmountWithdrawn, ATMid, TimeOfWithdrawal

(B) असंरचित डेटा

एक अख़बार में विभिन्न प्रकार की समाचार सामग्रियाँ होती हैं जिन्हें डेटा भी कहा जाता है। लेकिन समाचार लेखों को रखने के लिए कोई निश्चित पैटर्न नहीं होता है। एक दिन पृष्ठ पर तीन अलग-अलग आकारों की छवियाँ हो सकती हैं, साथ में पाँच समाचार लेख और एक या अधिक विज्ञापन। जबकि किसी अन्य दिन वहाँ एक बड़ी छवि के साथ तीन पाठ समाचार लेख हो सकते हैं। इसलिए समाचार छापने के लिए कोई विशेष प्रारूप नहीं है और न ही कोई निश्चित संरचना है। एक अन्य उदाहरण ईमेल की सामग्री है। ईमेल में कितनी पंक्तियाँ या पैराग्राफ लिखनी हैं या ईमेल के साथ कितनी फ़ाइलें संलग्न करनी हैं, इस बारे में कोई निश्चित संरचना नहीं है। संक्षेप में, डेटा जो पारंपरिक पंक्ति और स्तंभ संरचना में नहीं होता है, उसे असंरचित डेटा कहा जाता है।

असंरचित डेटा के उदाहरणों में टेक्स्ट के साथ-साथ मल्टीमीडिया सामग्री (छवि, ग्राफ़िक्स, ऑडियो/वीडियो) वाले वेब पृष्ठ शामिल हैं। अन्य उदाहरणों में टेक्स्ट दस्तावेज़, व्यावसायिक रिपोर्टें, पुस्तकें, ऑडियो/वीडियो फ़ाइलें, सोशल मीडिया संदेश शामिल हैं। यद्यपि असंरचित डेटा को संसाधित करने के तरीके मौजूद हैं, हम इस पुस्तक में केवल संरचित डेटा को संभालने पर ध्यान केंद्रित करने जा रहे हैं।

असंरचित डेटा को कभी-कभी किसी अन्य डेटा की सहायता से वर्णित किया जाता है जिसे मेटाडेटा कहा जाता है। मेटाडेटा मूलतः डेटा के बारे में डेटा होता है। उदाहरण के लिए, हम ईमेल के विभिन्न भागों को विषय, प्राप्तकर्ता, मुख्य भाग, संलग्नक आदि के रूप में वर्णित करते हैं। ये ईमेल डेटा के लिए मेटाडेटा हैं। इसी प्रकार, हम किसी इमेज फ़ाइल के लिए कुछ मेटाडेटा रख सकते हैं जैसे इमेज का आकार (KB या MB में), इमेज का प्रकार (उदाहरण के लिए, JPEG, PNG), इमेज रेज़ोल्यूशन आदि।

7.2 डेटा संग्रह

डेटा को प्रोसेस करने के लिए, हमें पहले डेटा को इकट्ठा या संग्रहित करना होता है। हम फिर डेटा को किसी फ़ाइल या डेटाबेस में भविष्य के उपयोग के लिए संग्रहित कर सकते हैं। यहाँ डेटा संग्रह का अर्थ है पहले से उपलब्ध डेटा की पहचान करना या उपयुक्त स्रोतों से डेटा इकट्ठा करना। मान लीजिए कि किसी किराना दुकान में बिक्री डेटा उपलब्ध होने के तीन अलग-अलग परिदृश्य हैं:

  • बिक्री डेटा दुकानदार के पास डायरी या रजिस्टर में उपलब्ध है। इस स्थिति में हमें डेटा को डिजिटल प्रारूप में दर्ज करना चाहिए, उदाहरण के लिए, किसी स्प्रेडशीट में।
  • डेटा पहले से ही डिजिटल प्रारूप में उपलब्ध है, मान लीजिए CSV (कॉमा सेपरेटेड वैल्यूज़) फ़ाइल में।
  • दुकानदार ने अब तक किसी भी रूप में डेटा रिकॉर्ड नहीं किया है, लेकिन बिक्री डेटा और खातों के रखरखाव के लिए कोई सॉफ़्टवेयर विकसित करवाना चाहता है। सॉफ़्टवेयर को किसी प्रोग्रामिंग भाषा जैसे Python का उपयोग करके विकसित किया जा सकता है, जिसे CSV फ़ाइल या MySQL जैसे डेटाबेस मैनेजमेंट सिस्टम से डेटा संग्रहित और पुनः प्राप्त करने के लिए उपयोग किया जा सकता है, जिसे आगे चर्चा की जाएगी।

सोचिए और विचार कीजिए

जब हम अपने डिजिटल या मोबाइल कैमरे से कोई फ़ोटो क्लिक करते हैं, तो क्या उसके साथ कोई मेटाडेटा जुड़ा होता है?

डेटा विभिन्न स्रोतों से लगातार उत्पन्न हो रहा है। डिजिटल माध्यम के साथ हमारी बातचीत लगातार विशाल मात्रा में डेटा उत्पन्न कर रही है। अस्पताल अपनी सेवाओं को बेहतर बनाने के लिए मरीज़ों के बारे में डेटा एकत्र कर रहे हैं। शॉपिंग मॉल लोगों द्वारा ख़रीदे जाने वाले सामान के बारे में डेटा एकत्र कर रहे हैं। ऐसे डेटा का विश्लेषण करने पर मान लीजिए कि यह पता चलता है कि बेडशीट और किराने का सामान अक्सर एक साथ ख़रीदे जाते हैं। इसलिए दुकानदार बिक्री बढ़ाने के लिए मॉल में किराने के सेक्शन के पास बेडशीट प्रदर्शित करने का निर्णय ले सकता है। इसी तरह, कोई राजनीतिक विश्लेषक सोशल मीडिया प्लेटफ़ॉर्म पर पोस्ट और संदेशों में मौजूद डेटा को देख सकता है और चुनाव से पहले जनमत का विश्लेषण कर सकता है। विश्व बैंक और अंतर्राष्ट्रीय मुद्रा कोष (IMF) जैसे संगठन विभिन्न देशों से विभिन्न आर्थिक मापदंडों से संबंधित डेटा एकत्र कर आर्थिक पूर्वानुमान बनाने के लिए कर रहे हैं।

सोचिए और विचार कीजिए

आधार कार्ड बनाने के लिए आवश्यक गुणधर्मों की पहचान कीजिए।

7.3 डेटा संग्रहण

एक बार जब हम डेटा एकत्र कर लेते हैं और उन्हें परिणाम प्राप्त करने के लिए प्रोसेस करते हैं, तो हम उस डेटा को सिर्फ त्याग नहीं देते। बल्कि, हम उन्हें भविष्य में उपयोग के लिए संग्रहित करना चाहते हैं। डेटा संग्रहण (Data storage) वह प्रक्रिया है जिसमें डेटा को स्टोरेज डिवाइसेज़ पर संग्रहित किया जाता है ताकि उन्हें बाद में पुनः प्राप्त किया जा सके। आजकल बहुत तेज़ी से बड़ी मात्रा में डेटा उत्पन्न हो रहा है। परिणामस्वरूप, डेटा संग्रहण एक चुनौतीपूर्ण कार्य बन गया है। हालांकि, डिजिटल स्टोरेज डिवाइसेज़ की लागत में कमी ने इस कार्य को सरल बनाने में मदद की है। बाज़ार में कई प्रकार की डिजिटल स्टोरेज डिवाइसेज़ उपलब्ध हैं, जैसे कि हार्ड डिस्क ड्राइव (HDD), सॉलिड स्टेट ड्राइव (SSD), CD/DVD, टेप ड्राइव, पेन ड्राइव, मेमोरी कार्ड आदि।

हम अपने कंप्यूटरों में इमेजेज़, दस्तावेज़, ऑडियो/वीडियो आदि को फ़ाइलों के रूप में संग्रहित करते हैं। इसी प्रकार, स्कूल/अस्पताल का डेटा डेटा फ़ाइलों में संग्रहित किया जाता है। हम इन फ़ाइलों में डेटा जोड़ने, संशोधित करने या हटाने के लिए या इन डेटा फ़ाइलों को प्रोसेस कर परिणाम प्राप्त करने के लिए कंप्यूटरों का उपयोग करते हैं। हालांकि, फ़ाइल प्रोसेसिंग की कुछ सीमाएँ होती हैं, जिन्हें डेटाबेस मैनेजमेंट सिस्टम (DBMS) के माध्यम से दूर किया जा सकता है।

सोचिए और विचार कीजिए

क्या डेटा को प्रोसेस करने से पहले उसे फ़ाइलों में संग्रहित करना आवश्यक है?

7.4 डेटा प्रोसेसिंग

हम डेटा को समझने में रुचि रखते हैं क्योंकि वे मूल्यवान तथ्यों और सूचनाओं को धारित करते हैं जो हमारे निर्णय लेने की प्रक्रिया में उपयोगी हो सकते हैं। हालांकि, विशाल या बड़ी मात्रा में डेटा को देखकर कोई निष्कर्ष पर नहीं पहुँच सकता। बल्कि, डेटा को परिणाम प्राप्त करने के लिए प्रोसेस किया जाना चाहिए और उन परिणामों का विश्लेषण करने के बाद हम निष्कर्ष या निर्णय लेते हैं।

हम स्वचालित डेटा प्रोसेसिंग को ऑनलाइन बिल भुगतान, शिकायतें दर्ज करना, टिकट बुक करना आदि जैसी स्थितियों में पाते हैं। आकृति 7.1 आउटपु� प्राप्त करने के लिए डेटा को प्रोसेस करने के लिए प्रयुक्त आधारभूत चरणों को दर्शाती है।

आकृति 7.2 कुछ कार्यों को डेटा, प्रोसेसिंग और उत्पन्न आउटपुट/सूचना के साथ दिखाती है।

आकृति 7.1: डेटा प्रोसेसिंग में चरण

7.5 डेटा प्रोसेसिंग के लिए सांख्यिकीय तकनीकें

डेटा मानों के एक समुच्चय को देते हुए, हमें सूचना प्राप्त करने के लिए उन्हें प्रोसेस करना होता है। विभिन्न तकनीकें हैं जो डेटा के प्रारंभिक अर्थ को समझने में हमारी सहायता करती हैं।

आकृति 7.2: डेटा आधारित समस्या कथन

सारांश विधियाँ सारणीबद्ध डेटा पर उसकी सरल समझ के लिए लागू की जाती हैं। डेटा सारांश के लिए सामान्यतः प्रयुक्त सांख्यिकीय तकनीकें नीचे दी गई हैं:

7.5.1 केंद्रीय प्रवृत्ति की माप

केंद्रीय प्रवृत्ति की माप एक एकल मान है जो हमें डेटा के बारे में कुछ विचार देता है। केंद्रीय प्रवृत्ति की तीन सबसे सामान्य माप हैं माध्य, माध्यिका और बहुलक। प्रत्येक व्यक्तिगत डेटा मान को देखने के बजाय, हम डेटा का माध्य, माध्यिका और बहुलक गणना करके क्रमशः औसत, मध्य मान और किसी विशेष मान की आवृत्ति के बारे में विचार प्राप्त कर सकते हैं। केंद्रीय प्रवृत्ति की माप का चयन डेटा के कुछ लक्षणों पर निर्भर करता है।

(A) माध्य

माध्य किसी विशेषता के संख्यात्मक मानों का औसत होता है। माध्य को औसत भी कहा जाता है। मान लीजिए किसी कक्षा के 40 विद्यार्थियों के भार के आँकड़े हैं। प्रत्येक आँकड़े को अलग-अलग देखने के बजाय हम औसत निकाल सकते हैं ताकि उस कक्षा में विद्यार्थियों के औसत भार का अनुमान लग सके।

परिभाषा: दिए गए $n$ मान $x_{1}, x_{2}, x_{3}, \ldots x_{n}$ के लिए, माध्य की गणना $\frac{\sum_{i}^{n} x}{n}$ के रूप में की जाती है।

उदाहरण 7.1

मान लीजिए किसी कक्षा के विद्यार्थियों की ऊँचाई (सेंटीमीटर में) इस प्रकार है $[90,102,110,115,85,90,100,110,110]$। कक्षा की माध्य या औसत ऊँचाई है

$$ \frac{90+102+110+115+85+90+100+110+110}{9}=\frac{912}{9}=101.33 \mathrm{~cm} $$

यदि आँकड़ों में विचलन (outliers) हों तो माध्य उपयुक्त विकल्प नहीं है। माध्य निकालने के लिए, दिए गए आँकड़ों से विचलन या चरम मानों को हटा देना चाहिए और फिर शेष आँकड़ों का माध्य निकालना चाहिए।

नोट: विचलन एक ऐसा असाधारण रूप से बड़ा या छोटा मान होता है, जो आँकड़ों के अन्य मानों की तुलना में बहुत अलग होता है। सामान्यतः विचलनों को त्रुटि माना जाता है क्योंकि वे औसत या अन्य सांख्यिकीय गणनाओं को प्रभावित कर सकते हैं।

(B) माध्यिका

माध्यिका (Median) की गणना भी एक समय में एक ही गुणधर्म/चर के लिए की जाती है। जब सभी मानों को आरोही या अवरोही क्रम में व्यवस्थित किया जाता है, तो बीच का मान माध्यिका कहलाता है। जब मानों की संख्या विषम होती है, तो माध्यिका मध्य स्थिति पर स्थित मान होता है। यदि सूची में सम संख्या में मान हों, तो माध्यिका दो मध्य मानों का औसत होता है। माध्यिका वह केंद्रीय मान दर्शाता है जिस पर दिया गया डेटा दो भागों में समान रूप से विभाजित होता है।

उदाहरण 7.2

माध्य मान की गणना में प्रयुक्त छात्रों की ऊंचाई के पिछले डेटा पर विचार करें। माध्यिका की गणना करने के लिए पहला चरण डेटा को आरोही या अवरोही क्रम में व्यवस्थित करना है। हमने ऊंचाई के डेटा को आरोही क्रम में इस प्रकार व्यवस्थित किया है: $[85,90,90,100,102,110,110,110$, 115]। चूंकि कुल 9 मान हैं (विषम संख्या), माध्यिका स्थिति 5 पर स्थित मान है, अर्थात् $102 \mathrm{~cm}$, चाहे बाएं से दाएं या दाएं से बाएं गिना जाए। माध्यिका वास्तविक केंद्रीय मान को दर्शाता है जिस पर दिया गया डेटा दो भागों में समान रूप से विभाजित होता है।

सोचिए और विचार कीजिए

माध्य और माध्यिका में से कौन-सा डेटा में विषमानकों (outliers) के प्रति अधिक संवेदनशील है?

(C) बहुलक (Mode)

उस मान को मोड कहा जाता है जो दिए गए आंकड़ों में किसी गुण/चर के लिए सबसे अधिक बार प्रकट होता है। इसकी गणना दिए गए आंकड़ों में विभिन्न मानों की आवृत्ति के आधार पर की जाती है। यदि प्रत्येक मान केवल एक बार आता है तो आंकड़ों का समुच्चय बिना मोड का होता है। यदि एक से अधिक मानों की एक समान उच्चतम आवृत्ति हो तो आंकड़ों में एकाधिक मोड हो सकते हैं। मोड संख्यात्मक और गैर-संख्यात्मक दोनों प्रकार के आंकड़ों के लिए ज्ञात किया जा सकता है।

उदाहरण 7.3

छात्रों की ऊँचाई की सूची में मोड 110 है क्योंकि इसकी सूची में आवृत्ति 3 है, जो शेष मानों की आवृत्ति से अधिक है।

7.5.2 विचरण की मापें

विचरण की मापें मानों के माध्य के चारों ओर फैलाव या विचरण को दर्शाती हैं। इन्हें विस्तार की मापें भी कहा जाता है जो किसी आंकड़ों के समुच्चय में विविधता की डिग्री को दर्शाती हैं। ये समूह के भीतर अंतर को भी संकेत करती हैं। दो भिन्न आंकड़ों के समुच्चयों का माध्य, माध्यिका या मोड समान हो सकता है लेकिन उनका विस्तार स्तर पूरी तरह भिन्न हो सकता है, या इसका विपरीत भी हो सकता है। विस्तार या विचरण की सामान्य मापें परास और मानक विचलन हैं।

(A) परास

यह डेटा के अधिकतम और न्यूनतम मानों के बीच का अंतर है (सबसे बड़ा मान घटाकर सबसे छोटा मान)। रेंज केवल संख्यात्मक डेटा के लिए ही गणना की जा सकती है। यह विचरण का एक माप है और डेटा मानों के कवरेज/फैलाव के बारे में बताता है। उदाहरण के लिए कर्मचारियों के वेतन में अंतर, किसी छात्र के अंक, खिलौनों की कीमत आदि। चूंकि रेंज दो चरम मानों के आधार पर गणना की जाती है, डेटा में कोई भी आउटलाइयर परिणाम को बुरी तरह प्रभावित करता है।

मान लीजिए $M$ सबसे बड़ा या अधिकतम मान है और $S$ डेटा में सबसे छोटा या न्यूनतम मान है, तो रेंज दो चरम मानों के बीच का अंतर है अर्थात् $M-S$ या अधिकतम - न्यूनतम।

उदाहरण 7.4

उपरोक्त उदाहरण में, न्यूनतम ऊंचाई का मान $85 \mathrm{~cm}$ है और अधिकतम ऊंचाई का मान $115 \mathrm{~cm}$ है। इसलिए, रेंज $115-85=30 \mathrm{~cm}$ है।

(B) मानक विचलन

मानक विचलन किसी चर के समूह या डेटा सेट के भीतर अंतरों को दर्शाता है। रेंज की तरह, यह भी डेटा के फैलाव को मापता है। हालांकि, रेंज के विपरीत जो केवल डेटा के दो चरम मानों का उपयोग करता है, मानक विचलन की गणना में सभी दिए गए डेटा को ध्यान में रखा जाता है। इसे डेटा के माध्य मान से प्रत्येक मान के वर्गित अंतर के औसत के धनात्मक वर्गमूल के रूप में गणना की जाती है। मानक विचलन का छोटा मान यह दर्शाता है कि डेटा कम फैले हुए हैं जबकि मानक विचलन का बड़ा मान यह दर्शाता है कि डेटा अधिक फैले हुए हैं।

दिए गए $n$ मान $x_{1}, x_{2}, x_{3}, \ldots x_{n}$ और उनका माध्य $\bar{x}$ होने पर, मानक विचलन, जिसे $\sigma$ (ग्रीक अक्षर सिग्मा) द्वारा दर्शाया जाता है, इस प्रकार गणना किया जाता है

$$ \sigma=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n}} $$

उदाहरण 7.5

आइए हम उन नौ विद्यार्थियों की ऊँचाई का मानक विचलन गणना करें जिनका उपयोग हमने माध्य की गणना करते समय किया था। माध्य $(\bar{x})$ $101.33 \mathrm{~cm}$ निकला था। प्रत्येक मान को माध्य से घटाएँ और उस मान का वर्ग लें। वर्ग मानों के योग को कुल मानों की संख्या से विभाजित करने और उसका वर्गमूल लेने पर डेटा में मानक विचलन प्राप्त होता है। विवरण के लिए टेबल 7.3 देखें।

$\hspace{2.5cm}$ टेबल 7.3 9 विद्यार्थियों की उपस्थिति का मानक विचलन

ऊँचाई $(\boldsymbol{x})$ $\mathbf{c m}$ में $\mathbf{x}-\overline{\mathbf{x}}$ $(\mathbf{x}-\overline{\mathbf{x}})^{\mathbf{2}}$
90 -11.33 128.37
102 0.67 0.36 $\sum_{\mathrm{i}=1}^{\mathrm{n}}\left(\mathrm{X}_{\mathrm{i}}-\overline{\mathrm{X}}\right)^{2}$
110 8.67 75.17 $\mathrm{n}$
115 13.67 186.87
85 -16.33 266.67 $=\frac{938}{9}=104.22$
90 -11.33 128.37
100 -1.33 1.77 $\sigma=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{x}\right)^{2}}{n}}$
110 8.67 75.17
110 8.67 75.17
$n=9$ $\sum(\mathrm{x}-\overline{\mathrm{x}})=0.03$ $\sum(\mathrm{x}-\overline{\mathrm{x}})^{2}=938.00$ $=\sqrt{104.22}=10.2 \mathrm{~cm}$
$\overline{\mathrm{x}}=101.33$

आइए निम्नलिखित समस्याओं को देखें और लागू होने योग्य उपयुक्त सांख्यिकीय तकनीक चुनें (माध्य/माध्यिका/बहुलक/परास/मानक विचलन):

समस्या कथन उपयुक्त
सांख्यिकीय विधि चुनें
एक कंपनी के प्रबंधन को सभी कर्मचारियों के वेतन में विषमता के बारे में जानना है।
शिक्षक किसी परीक्षा में पूरी कक्षा की औसत प्रदर्शन के बारे में जानना चाहता है।
दो शहरों के निवासियों की ऊँचाई की तुलना करें
मानों के एक समुच्चय से प्रमुख मान खोजें
दो शहरों के निवासियों की आय की तुलना करें
एक छोटे शहर के कार मालिकों का सर्वेक्षण करके कार के लिए लोकप्रिय रंग खोजें।

यह समझना महत्वपूर्ण है कि सांख्यिकीय तकनीकें कौन-सी हैं ताकि कोई यह तय कर सके कि निर्णय पर पहुँचने के लिए किस सांख्यिकीय तकनीक का उपयोग करना है। बड़ी मात्रा में डेटा के कुशल विश्लेषण के लिए विभिन्न प्रोग्रामिंग उपकरण उपलब्ध हैं। ये उपकरण डेटा विश्लेषण के लिए सांख्यिकीय तकनीकों का उपयोग करते हैं। ऐसा ही एक प्रोग्रामिंग उपकरण Python है और इसमें डेटा प्रोसेसिंग तथा विश्लेषण के लिए विशेष रूप से निर्मित लाइब्रेरीज़ हैं। हम आगे आने वाले अध्यायों में उनमें से कुछ को कवर करेंगे।

सारांश

  • डेटा असंगठित तथ्यों को संदर्भित करता है जिन्हें प्रोसेस करके सार्थक परिणाम या सूचना उत्पन्न किया जा सकता है।
  • डेटा संरचित या असंरचित हो सकता है।
  • हार्ड डिस्क, SSD, CD/DVD, पेन ड्राइव, मेमोरी कार्ड आदि कुछ सामान्यतः प्रयुक्त भंडारण उपकरण हैं।
  • डेटा प्रोसेसिंग चक्र में डेटा का इनपुट और भंडारण, उसकी प्रोसेसिंग और आउटपुट उत्पन्न करना शामिल है।
  • सांख्यिकीय तकनीकों का उपयोग करके डेटा का सारांश बनाना डेटा की विशेषताओं को प्रकट करने में सहायक होता है।
  • माध्य, माध्यिका, बहुलक, परास और मानक विचलन डेटा सारांश के लिए प्रयुक्त कुछ सांख्यिकीय तकनीकें हैं।
  • माध्य दिए गए मानों का औसत है।
  • माध्यिका वह मध्य मान है जब डेटा को आरोही/अवरोही क्रम में सॉर्ट किया जाता है।
  • बहुलक वह डेटा मान है जो सबसे अधिक बार प्रकट होता है।
  • परास अधिकतम और न्यूनतम मानों के बीच का अंतर है।
  • मानक विचलन प्रत्येक मान और माध्य के बीच वर्गित अंतर के औसत का धनात्मक वर्गमूल है।

अभ्यास

1. निम्नलिखित सेवाओं को करने के लिए रखे जाने वाले आवश्यक डेटा की पहचान करें:

क) परीक्षा परिणाम घोषित करना और ई-प्रमाणपत्र प्रिंट करना
ख) प्रदर्शनी में प्रतिभागियों का पंजीकरण करना और बायोमेट्रिक आईडी कार्ड जारी करना
ग) किसी खोज इंजन द्वारा चित्र खोजना
घ) किसी अस्पताल के विशिष्ट विभाग में ओपीडी अपॉइंटमेंट बुक करना

2. एक विद्यालय जिसमें 500 विद्यार्थी हैं, मेरिट-कम-मीन्स छात्रवृत्ति के लाभार्थियों की पहचान करना चाहता है—जिन्होंने लगातार दो वर्षों में 75 % से अधिक अंक प्राप्त किए हों और जिनके परिवार की वार्षिक आय 5 लाख से कम हो। विद्यालय द्वारा लाभार्थी सूची तैयार करने के लिए किए जाने वाले डेटा प्रोसेसिंग चरणों का संक्षेप में वर्णन कीजिए।

3. एक बैंक ‘xyz’ शहर ‘ABC’ के निवासियों के बीच अपनी लोकप्रियता जानना चाहता है, जिस आधार पर कि प्रत्येक परिवार के पास कितने बैंक खाते हैं और प्रत्येक व्यक्ति की औसत मासिक खाता शेष राशि क्या है। डेटा संग्रह के लिए किए जाने वाले चरणों और संग्रहित डेटा के प्रोसेसिंग से कौन-कौन से परिणाम जाँचे जा सकते हैं, का संक्षेप में वर्णन कीजिए।

4. निम्नलिखित परिदृश्यों में एकत्रित/उत्पन्न होने वाले डेटा का प्रकार पहचानिए:

क) वीडियो रिकॉर्ड करना
ख) अध्यापक द्वारा उपस्थिति अंकित करना
ग) ट्वीट लिखना
घ) ऑनलाइन आवेदन पत्र भरना

5. एक सप्ताह के 7 दिनों का तापमान (सेल्सियस में) क्रमशः 34,34,27,28,27,34,34 है। निम्नलिखित की गणना के लिए उपयुक्त सांख्यिकीय तकनीक पहचानिए:

क) औसत तापमान ज्ञात करना।
ख) उस सप्ताह का तापमान परिसर (Range) ज्ञात करना।
ग) तापमान का मानक विचलन ज्ञात करना।

6. एक विद्यालय के शिक्षक परिणामों का विश्लेषण करना चाहते हैं। निम्नलिखित स्थितियों के लिए उपयुक्त सांख्यिकीय तकनीक की पहचान करें और उसका औचित्य भी दें:

a) शिक्षक कक्षा XII A और कक्षा XII B के विद्यार्थियों द्वारा प्राप्त श्रेणी के आधार पर प्रदर्शन की तुलना करना चाहते हैं, जहाँ प्रत्येक कक्षा की संख्या समान है।
b) शिक्षक ने जुलाई से नवम्बर तक पाँच इकाई परीक्षाएँ आयोजित की हैं और इन पाँच महीनों में कक्षा के प्रदर्शन की तुलना करना चाहते हैं।

7. मान लीजिए आपके विद्यालय का वार्षिकोत्सव मनाया जाना है। विद्यालय ने कक्षा XI और XII में अध्ययनरत उन विद्यार्थियों के माता-पिता को सम्मानित करने का निर्णय लिया है, जो स्वयं इसी विद्यालय के पूर्व छात्र हैं। इस संदर्भ में निम्नलिखित प्रश्नों के उत्तर दें:

a) उन विद्यार्थियों की संख्या ज्ञात करने के लिए कौन-सी सांख्यिकीय तकनीक प्रयोग की जानी चाहिए जिनके दोनों माता-पिता इस विद्यालय के पूर्व छात्र हैं?
b) उस विद्यालय के विद्यार्थियों के माता-पिता की आयु में कितनी विविधता है?

8. वार्षिकोत्सव समारोह के लिए शिक्षक 42 विद्यार्थियों की एक कक्षा में एंकर की तलाश कर रहे हैं। शिक्षक गायन कौशल, लेखन कौशल तथा निगरानी कौशल के आधार पर एंकर का चयन करेंगे।

a) आँकड़ा संग्रह का कौन-सा प्रकार प्रयोग किया जाना चाहिए?
b) आप विद्यार्थियों के कौशल को आँकड़े के रूप में कैसे प्रस्तुत करेंगे?

9. संरचित और असंरचित आँकड़ों में एक उदाहरण सहित अंतर स्पष्ट कीजिए।

एक विद्यालय के प्रधानाचार्य कैंटीन में खरीदे और बेचे गए खाद्य पदार्थों के आधार पर निम्नलिखित विश्लेषण करना चाहते हैं:

a) फलों के रस और बिस्कुटों की खरीद और बिक्री कीमतों की तुलना करें।
b) फलों के रस, बिस्कुटों और समोसे की बिक्री की तुलना करें।
c) समान मात्रा (मिलीलीटर में) के लिए विभिन्न कंपनियों के फलों के रस की बिक्री कीमत में विचरण।

इन वस्तुओं (फलों का रस, बिस्कुट, समोसा) के लिए उनकी खरीद कीमत और बिक्री कीमत सूचीबद्ध करते हुए एक उपयुक्त डेटासेट बनाएं। तुलनाएं करने के लिए बुनियादी सांख्यिकीय तकनीकों को लागू करें।