अध्याय 03 पांडा का उपयोग करके डेटा हैंडलिंग-02

“हम भारतीयों के बहुत आभारी हैं, जिन्होंने हमें गिनना सिखाया, जिसके बिना कोई भी महत्वपूर्ण वैज्ञानिक खोज संभव नहीं हो पाती।”

— अल्बर्ट आइंस्टीन

3.1 परिचय

जैसा कि पिछले अध्याय में चर्चा की गई थी, Pandas एक प्रतिष्ठित Python लाइब्रेरी है जिसका उपयोग डेटा के हेरफेर, प्रोसेसिंग और विश्लेषण के लिए किया जाता है। हम पहले ही Series और DataFrame पर बुनियादी संचालन जैसे उन्हें बनाना और उनसे डेटा तक पहुँचना सीख चुके हैं। Pandas डेटा विश्लेषण के लिए और भी शक्तिशाली और उपयोगी फ़ंक्शन प्रदान करता है।

इस अध्याय में, हम DataFrame की अधिक उन्नत विशेषताओं के साथ काम करेंगे जैसे डेटा को सॉर्ट करना, डेटा का उपयोग करके विश्लेषणात्मक प्रश्नों के उत्तर देना, डेटा को साफ़ करना और डेटा पर विभिन्न उपयोगी फ़ंक्शन लागू करना। नीचे उदाहरण डेटा दिया गया है जिस पर हम Pandas की उन्नत विशेषताएँ लागू करेंगे।

केस स्टडी

आइए स्कूल में हुई इकाई परीक्षाओं में प्राप्त अंकों के डेटा पर विचार करें। प्रत्येक इकाई परीक्षा के लिए, कक्षा के सभी छात्रों द्वारा प्राप्त किए गए अंकों को रिकॉर्ड किया जाता है। प्रत्येक विषय में अधिकतम अंक 25 हैं। विषय हैं गणित, विज्ञान, सामाजिक अध्ययन (S.St.), हिंदी और अंग्रेज़ी। सरलता के लिए, हम मानते हैं कि कक्षा में 4 छात्र हैं और नीचे दी गई तालिका में उनके इकाई परीक्षा 1, इकाई परीक्षा 2 और इकाई परीक्षा 3 में प्राप्त अंक दिखाए गए हैं। तालिका 3.1 इस डेटा को दर्शाती है।

तालिका 3.1 केस स्टडी

परिणाम
नाम/विषय	यूनिट टेस्ट	गणित	विज्ञान	सामाजिक विज्ञान	हिन्दी	अंग्रेज़ी
रमन	1	22	21	18	20	21
रमन	2	21	20	17	22	24
रमन	3	14	19	15	24	23
ज़ुहैर	1	20	17	22	24	19
ज़ुहैर	2	23	15	21	25	15
ज़ुहैर	3	22	18	19	23	13
आश्रव्य	1	23	19	20	15	22
आश्रव्य	2	24	22	24	17	21
आश्रव्य	3	12	25	19	21	23
मिष्टी	1	15	22	25	22	22
मिष्टी	2	18	21	25	24	23
मिष्टी	3	17	18	20	25	20

आइए डेटा को एक DataFrame में संग्रहीत करें, जैसा कि प्रोग्राम 3.1 में दिखाया गया है:

प्रोग्राम 3-1 परिणाम डेटा को marksUT नामक DataFrame में संग्रहीत करें।

>>> import pandas as pd
>>>marksUT={‘Name’:[‘Raman’,‘Raman’,‘Raman’,‘Zuhaire’,‘Zuhaire’,‘Zuhaire’, ‘Ashravy’,‘Ashravy’,‘Ashravy’,‘Mishti’,‘Mishti’,‘Mishti’],
$\qquad$ ‘UT’:[1,2,3,1,2,3,1,2,3,1,2,3],
$\qquad$ ‘Maths’:[22,21,14,20,23,22,23,24,12,15,18,17],
$\qquad$ ‘Science’:[21,20,19,17,15,18,19,22,25,22,21,18],
$\qquad$ ‘S.St’:[18,17,15,22,21,19,20,24,19,25,25,20],
$\qquad$ ‘Hindi’:[20,22,24,24,25,23,15,17,21,22,24,25],
$\qquad$ ‘Eng’:[21,24,23,19,15,13,22,21,23,22,23,20]
$\qquad$ }
>>> df=pd.DataFrame(marksUT)
>>> print(df)

	नाम	यूटी	गणित	विज्ञान	स.वि	हिन्दी	अंग्रेज़ी
0	रमन	1	22	21	18	20	21
1	रमन	2	21	20	17	22	24
2	रमन	3	14	19	15	24	23
3	ज़ुहैर	1	20	17	22	24	19
4	ज़ुहैर	2	23	15	21	25	15
5	ज़ुहैर	3	22	18	19	23	13
6	अश्रव्य	1	23	19	20	15	22
7	अश्रव्य	2	24	22	24	17	21
8	अश्रव्य	3	12	25	19	21	23
9	मिश्ती	1	15	22	25	22	22
10	मिश्ती	2	18	21	25	24	23
11	मिश्ती	3	17	18	20	25	20

3.2 वर्णनात्मक सांख्यिकी

वर्णनात्मक सांख्यिकी दिए गए डेटा को संक्षेपित करने के लिए प्रयोग की जाती हैं। दूसरे शब्दों में, ये वे तरीके हैं जिनका उपयोग डेटा के बारे में कुछ बुनियादी जानकारी प्राप्त करने के लिए किया जाता है।

इस खंड में हम उन वर्णनात्मक सांख्यिकीय तरीकों की चर्चा करेंगे जिन्हें एक DataFrame पर लागू किया जा सकता है। ये हैं max, min, count, sum, mean, median, mode, quartiles, variance। प्रत्येक स्थिति में हम ऊपर बनाए गए DataFrame df पर विचार करेंगे।

3.2.1 अधिकतम मानों की गणना

DataFrame.max() का उपयोग DataFrame से अधिकतम मानों की गणना करने के लिए किया जाता है, चाहे उसके डेटा प्रकार कुछ भी हों। निम्नलिखित कथन DataFrame के प्रत्येक स्तंभ का अधिकतम मान आउटपुट करता है:

>>> print(df.max())

नाम	ज़ुहैर	#नाम स्तंभ में अधिकतम मान #(वर्णानुक्रम में)
यूटी	3	#यूटी स्तंभ में अधिकतम मान
गणित	24	#गणित स्तंभ में अधिकतम मान
विज्ञान	25	#विज्ञान स्तंभ में अधिकतम मान
सामाजिक विज्ञान	25	#सामाजिक विज्ञान स्तंभ में अधिकतम मान
हिन्दी	25	#हिन्दी स्तंभ में अधिकतम मान
अंग्रेज़ी	24	#अंग्रेज़ी स्तंभ में अधिकतम मान

dtype: object

यदि हम केवल संख्यात्मक मान वाले स्तंभों के लिए अधिकतम मान निकालना चाहते हैं, तो हम max() विधि में numeric_only=True पैरामीटर सेट कर सकते हैं, जैसा कि नीचे दिखाया गया है:

>>>print(df.max(numeric_only=True))

यूटी $\qquad$ 3
गणित $\quad$ 24
विज्ञान $\quad$ 25
सामाजिक विज्ञान $\qquad$ 25
हिन्दी $\qquad$ 25
अंग्रेज़ी $\qquad$ 24
dtype: int64

प्रोग्राम 3-2 यूनिट टेस्ट 2 में प्रत्येक विषय में प्राप्त अधिकतम अंकों को आउटपुट करने के लिए कथन लिखें।

>>> dfUT2 = df[df.UT == 2]
>>> print(’\nयूनिट टेस्ट 2 का परिणाम:\n\n’, dfUT2)

	नाम	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिन्दी	अंग्रेज़ी
1	रमन	2	21	20	17	22	24
4	ज़ुहैर	2	23	15	21	25	15
7	अश्रव्य	2	24	22	24	17	21
10	मिश्ति	2	18	21	25	24	23

>>> print(’\nयूनिट टेस्ट 2 में प्रत्येक विषय में प्राप्त अधिकतम अंक: \n\n’,dfUT2.
max(numeric_only=True))

यूनिट टेस्ट 2 में प्रत्येक विषय में प्राप्त अधिकतम अंक:

UT $\qquad$ 2
गणित $\quad$ 24
विज्ञान $\quad$ 22
सामाजिक विज्ञान $\qquad$ 25
हिन्दी $\quad$ 25
अंग्रेज़ी $\qquad$ 24
dtype: int64

प्रोग्राम 3.2 का आउटपुट निम्न कथनों का उपयोग करके भी प्राप्त किया जा सकता है
>>> dfUT2=df[df [ ‘UT ‘]==2] . max (numeric_only=True)
>>> print(dfUT2)

डिफ़ॉल्ट रूप से, $\max ()$ विधि प्रत्येक कॉलम का अधिकतम मान खोजती है (जिसका अर्थ है, axis=0)। हालाँकि, प्रत्येक पंक्ति का अधिकतम मान खोजने के लिए, हमें इसके तर्क के रूप में axis $=1$ निर्दिष्ट करना होता है।

#सभी विषयों में प्रत्येक छात्र के लिए प्रत्येक इकाई परीक्षा में अधिकतम अंक

>>> df.max(axis=1)

0 $\quad$ 22
1 $\quad$ 24
2 $\quad$ 24
3 $\quad$ 24
4 $\quad$ 25
5 $\quad$ 23
6 $\quad$ 23
7 $\quad$ 24
8 $\quad$ 25
9 $\quad$ 25
10 $\quad$ 25
11 $\quad$ 25
dtype: int64

नोट: अधिकांश पायथन फ़ंक्शन कॉल में, axis $=0$ पंक्ति-वार संचालन को संदर्भित करता है और axis $=1$ कॉलम-वार संचालन को। लेकिन $\max ()$ की कॉल में, axis $=1$ पंक्ति-वार आउटपुट देता है और axis $=0$ (डिफ़ॉल्ट स्थिति) कॉलम-वार आउटपुट देता है। इस अध्याय में चर्चा किए गए सभी सांख्यिकीय संचालनों के साथ ऐसा ही है।

3.2.2 न्यूनतम मानों की गणना

DataFrame.min() का उपयोग DataFrame से न्यूनतम मान प्रदर्शित करने के लिए किया जाता है, चाहे डेटा प्रकार कुछ भी हों। यह प्रत्येक कॉलम या पंक्ति का न्यूनतम मान दिखाता है। निम्न कोड पंक्ति DataFrame के प्रत्येक कॉलम का न्यूनतम मान आउटपुट करती है:

>>> print(df.min())

नाम	अश्रव्य
यूटी	1
गणित	12
विज्ञान	15
सामाजिक विज्ञान	15
हिन्दी	15
अंग्रेज़ी	13

dtype: object

प्रोग्राम 3-3 उन कथनों को लिखिए जो किसी विशेष छात्रा ‘मिश्ती’ द्वारा सभी इकाई-परीक्षणों में प्रत्येक विषय में प्राप्त न्यूनतम अंक दिखाएँ।

>>> dfMishti = df.loc[df.Name == ‘Mishti’]
>>> print(’\nसभी इकाई-परीक्षणों में मिश्ती द्वारा प्राप्त अंक \n\n’,dfMishti)

सभी इकाई-परीक्षणों में मिश्ती द्वारा प्राप्त अंक

	नाम	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिन्दी	अंग्रेज़ी
9	मिश्ती	1	15	22	25	22	22
10	मिश्ती	2	18	21	25	24	23
11	मिश्ती	3	17	18	20	25	20

>>> print(’\nप्रत्येक विषय में सभी इकाई-परीक्षणों में मिश्ती द्वारा प्राप्त न्यूनतम अंक\n\n’, dfMishti[[‘गणित’,‘विज्ञान’,‘सा.
वि’,‘हिन्दी’,‘अंग्रेज़ी’]].min())

प्रोग्राम 3.3 का आउटपुट निम्न कथनों से भी प्राप्त किया जा सकता है
>>>dfMishti=df[[‘गणित’,‘विज्ञान’,‘सा.वि’,‘हिन्दी’,‘अंग्रेज़ी’]][df.Name==‘Mishti’].min()
>>> print(dfMishti)

प्रत्येक विषय में सभी इकाई-परीक्षणों में मिश्ती द्वारा प्राप्त न्यूनतम अंक:

गणित $\quad$ 15
विज्ञान $\quad$ 18
सा.वि $\quad$ 20
हिन्दी $\quad$ 22
अंग्रेज़ी $\quad$ 20
dtype: int64

नोट: चूँकि हम यूटी स्तंभ का न्यूनतम मान नहीं चाहते थे, इसलिए हमने उन सभी अन्य स्तंभों के नाम दिए जिनके लिए न्यूनतम गणना करनी थी।

3.2.3 मानों का योग निकालना

DataFrame.sum() DataFrame के मानों का योग दिखाएगा चाहे उसका डेटाटाइप कुछ भी हो। निम्नलिखित कोड लाइन DataFrame के प्रत्येक कॉलम का योग आउटपुट करती है:

>>> print(df.sum())
Name
RamanRamanRamanZuhaireZuhaireZuhaireAshravyAsh…

Maths $\qquad$ 231
Science $\qquad$ 237
S.St $\qquad$ 245
Hindi $\qquad$ 262
Eng $\qquad$ 246
dtype: object

हम टेक्स्ट मानों का योग जोड़ने में रुचि नहीं रख सकते। इसलिए किसी विशेष कॉलम का योग प्रिंट करने के लिए हमें sum फंक्शन के कॉल में कॉलम का नाम निर्दिष्ट करना होगा। निम्नलिखित कथन गणित विषय के कुल अंक प्रिंट करता है:

>>> print(df[‘Maths’].sum())
231

सोचिए और विचार कीजिए

क्या आप प्रोग्राम 3.4 के आउटपुट को प्राप्त करने के लिए संक्षिप्त कोड लिख सकते हैं?

किसी विशेष विद्यार्थी के कुल अंक गणना करने के लिए विद्यार्थी का नाम निर्दिष्ट करना होगा।

प्रोग्राम 3-4 प्रत्येक विषय में रामन द्वारा प्राप्त कुल अंक प्रिंट करने के लिए पायथन कथन लिखिए।

>>> dfRaman=df[df[‘Name’]==‘Raman’]
>>> print(“Marks obtained by Raman in each test are:\n”, dfRaman)

Marks obtained by Raman in each test are:

	Name	UT	Maths	Science	S.St	Hindi	Eng
0	Raman	1	22	21	18	20	21
1	Raman	2	21	20	17	22	24
2	Raman	3	14	19	15	24	23

>>> dfRaman[[‘Maths’,‘Science’,‘S.
St’,‘Hindi’,‘Eng’]].sum()

गणित $\quad$ 57
विज्ञान $\quad$ 60
सामाजिक विज्ञान $\quad$ 50
हिन्दी $\quad$ 66
अंग्रेज़ी $\quad$ 68
dtype: int64

गतिविधि 3.1

मिश्ती द्वारा प्राप्त किए गए अंग्रेज़ी अंकों का योग प्रिंट करने के लिए पायथन कथन लिखें।

#रमन द्वारा प्रत्येक यूनिट टेस्ट में सभी विषयों में प्राप्त कुल अंकों को प्रिंट करने के लिए
>>> dfRaman[[‘गणित’,‘विज्ञान’,‘सामा.
वि’,‘हिन्दी’,‘अंग्रेज़ी’]].sum(axis=1)

0 $\quad$ 102
1 $\quad$ 104
2 $\quad$ 95
dtype: int64

3.2.4 मानों की संख्या की गणना

DataFrame.count() DataFrame के प्रत्येक कॉलम या पंक्ति के लिए कुल मानों की संख्या दिखाएगा। पंक्तियों की गणना करने के लिए हमें axis=1 तर्क का उपयोग करना होता है जैसा कि नीचे प्रोग्राम 3.5 में दिखाया गया है।

>>> print(df.count())

नाम $\quad$ 12
यूटी $\quad$ 12
गणित $\quad$ 12
विज्ञान $\quad$ 12
सामाजिक विज्ञान $\quad$ 12
हिन्दी $\quad$ 12
अंग्रेज़ी $\quad$ 12
dtype: int64

प्रोग्राम 3-5 पंक्ति में मानों की संख्या गिनने के लिए कथन लिखें।

>>> df.count(axis=1)

0 $\quad$ 7
1 $\quad$ 7
2 $\quad$ 7
3 $\quad$ 7
4 $\quad$ 7
5 $\quad$ 7
6 $\quad$ 7
7 $\quad$ 7
8 $\quad$ 7
9 $\quad$ 7
10 $\quad$ 7
11 $\quad$ 7
dtype: int64

3.2.5 माध्य की गणना

DataFrame.mean() DataFrame के प्रत्येक कॉलम के मानों का माध्य (औसत) दिखाएगा। यह केवल संख्यात्मक मानों पर लागू होता है।

>>> df.mean()

यूटी $\quad$ 2.5000
गणित $\quad$ 18.6000
विज्ञान $\quad$ 19.8000
सामाजिक विज्ञान $\quad$ 20.0000
हिन्दी $\quad$ 21.3125
अंग्रेज़ी $\quad$ 19.8000
dtype: float64

प्रोग्राम 3-6 ज़ुहैर द्वारा सभी यूनिट टेस्टों में प्राप्त किए गए अंकों का औसत प्राप्त करने के लिए कथन लिखें।

>>> dfZuhaireMarks = dfZuhaire.loc[:,‘Maths’:‘Eng’]
>>> print(“Slicing of the DataFrame to get only the marks\n”, dfZuhaireMarks)

डेटाफ्रेम का स्लाइसिंग केवल अंक प्राप्त करने के लिए

	Maths	Science	S.St	Hindi	Eng
3	20	17	22	24	19
4	23	15	21	25	15
5	22	18	19	23	13

>>> print(“Average of marks obtained by Zuhaire in all Unit Tests \n”, dfZuhaireMarks.
mean(axis=1))

ज़ुहैर द्वारा सभी यूनिट टेस्टों में प्राप्त किए गए अंकों का औसत
3 $\quad$ 20.4
4 $\quad$ 19.8
5 $\quad$ 19.0
dtype: float64

सोचें और विचार करें

उपरोक्त आउटपुट प्राप्त करने के लिए एक छोटा कोड लिखने का प्रयास करें। आउटपुट के प्रासंगिक शीर्षकों को प्रिंट करना याद रखें।

उपरोक्त आउटपुट में, 20.4 ज़ुहैर द्वारा यूनिट टेस्ट 1 में प्राप्त किए गए अंकों का औसत है। इसी प्रकार, 19.8 और 19.0 क्रमशः यूनिट टेस्ट 2 और 3 में प्राप्त अंकों का औसत हैं।

3.2.6 माध्यिका की गणना

DataFrame.Median() डेटा का मध्य मान प्रदर्शित करेगा। यह फ़ंक्शन डेटाफ्रेम के प्रत्येक कॉलम के मानों की माध्यिका प्रदर्शित करेगा। यह केवल संख्यात्मक मानों के लिए लागू है।

>>> print(df.median())


UT	2.5
Maths	19.0
Science	20.0
S.St	19.5
Hindi	21.5
Eng	21.0

dtype: float64

प्रोग्राम 3-7 यूटी1 में गणित की माध्यिका अंक प्रिंट करने के लिए कथन लिखें।

>>> dfMaths=df[‘Maths’]
>>> dfMathsUT1=dfMaths[df.UT==1]
>>> print(“Displaying the marks scored in Mathematics in UT1\n”,dfMathsUT1)

UT1, विषय गणित के अंक प्रदर्शित करना
0 $\quad$ 22
3 $\quad$ 20
6 $\quad$ 23
9 $\quad$ 15
Name: Maths, dtype: int64

>>> dfMathMedian=dfMathsUT1.median()
>>> print(“Displaying the median of Mathematics in UT1\n”,dfMathMedian)
UT1 में गणित की माध्यिका प्रदर्शित करना 21.0

गतिविधि 3.2

DataFrame की पंक्तियों के मानों की माध्यिका ज्ञात कीजिए।

यहाँ, मानों की संख्या सम है इसलिए दो मध्य मान हैं अर्थात् 20 और 22। अतः माध्यिका 20 और 22 का औसत है।

3.2.7 बहुलक की गणना

DateFrame.mode() बहुलक प्रदर्शित करेगा। बहुलक वह मान होता है जो डेटा में सबसे अधिक बार आता है। यह फ़ंक्शन DataFrame के प्रत्येक स्तंभ या पंक्ति का बहुलक प्रदर्शित करेगा। हिंदी के अंकों का बहुलक प्राप्त करने के लिए निम्नलिखित कथन का उपयोग किया जा सकता है।

>>> df[‘Hindi’]

0 $\quad$ 20
1 $\quad$ 22
2 $\quad$ 24
3 $\quad$ 24
4 $\quad$ 25
5 $\quad$ 23
6 $\quad$ 15
7 $\quad$ 17
8 $\quad$ 21
9 $\quad$ 22
10 $\quad$ 24
11 $\quad$ 25
Name: Hindi, dtype: int64

>>> df[‘Hindi’].mode()

0 $\quad$ 24
dtype: int64

गतिविधि 3.3

गणित में प्राप्त अंकों का बहुलक की गणना कीजिए

ध्यान दें कि हिंदी विषय में तीन विद्यार्थियों को 24 अंक मिले हैं जबकि दो विद्यार्थियों को 25 अंक, एक विद्यार्थी को 23 अंक, दो विद्यार्थियों को 22 अंक, एक-एक विद्यार्थी को 21, 20, 15, 17 अंक मिले हैं।

3.2.8 चतुर्थांश (Quartile) की गणना

Dataframe.quantile() चतुर्थांश प्राप्त करने के लिए प्रयोग किया जाता है। यह DataFrame के प्रत्येक स्तंभ या पंक्ति का चतुर्थांश चार भागों में देता है, अर्थात् पहला चतुर्थांश $25 %$ (पैरामीटर $\mathrm{q}=.25$), दूसरा चतुर्थांश $50 %$ (माध्यिका), तीसरा चतुर्थांश $75 %$ (पैरामीटर $\mathrm{q}=.75$) होता है। डिफ़ॉल्ट रूप से यह सभी संख्यात्मक मानों का दूसरा चतुर्थांश (माध्यिका) दिखाता है।

>>> df.quantile() # डिफ़ॉल्ट रूप से, माध्यिका आउटपुट होती है

UT $\quad$ 2.0
Maths $\quad$ 20.5
Science $\quad$ 19.5
S.St $\quad$ 20.0
Hindi $\quad$ 22.5
Eng $\quad$ 21.5
Name: 0.5, dtype: float64

>>> df.quantile(q=.25)

UT $\quad$ 1.00
Maths $\quad$ 16.50
Science $\quad$ 18.00
S.St $\quad$ 18.75
Hindi $\quad$ 20.75
Eng $\quad$ 19.75
Name: 0.25, dtype: float64

>>> df.quantile(q=.75)

UT $\quad$ 3.00
Maths $\quad$ 22.25
Science $\quad$ 21.25
S.St $\quad$ 22.50
Hindi $\quad$ 24.00
Eng $\quad$ 23.00
Name: 0.75, dtype: float64

प्रोग्राम 3-8 सभी विषयों के पहले और तीसरे चतुर्थांश को प्रदर्शित करने के लिए कथन लिखें।

>>> dfSubject=df[[‘Maths’,‘Science’,‘S.St’,‘Hindi’,‘Eng’]]
>>> print(“सभी विषयों के अंक:\n”,dfSubject)

सभी विषयों के अंक:

	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
0	22	21	18	20	21
1	21	20	17	22	24
2	14	19	15	24	23
3	20	17	22	24	19
4	23	15	21	25	15
5	22	18	19	23	13
6	23	19	20	15	22
7	24	22	24	17	21
8	12	25	19	21	23
9	15	22	25	22	22
10	18	21	25	24	23
11	17	18	20	25	20

>>> dfQ=dfSubject.quantile([.25,.75])
>>> print(“First and third quartiles of all the subjects:\n”,dfQ)

गतिविधि 3.4

निम्नलिखित परीक्षा अंकों का प्रसार और मानक विचलन ज्ञात कीजिए: $92,95,85$, 80, 75,50 . प्रोग्राम 3-8 सभी विषयों के प्रथम और तृतीय चतुर्थांश प्रदर्शित करने के लिए कथन लिखिए।

सभी विषयों के प्रथम और तृतीय चतुर्थांश:

	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
0.25	16.50	18.00	18.75	20.75	19.75
0.75	22.25	21.25	22.50	24.00	23.00

3.2.9 प्रसार की गणना

DataFrame.var() प्रसार प्रदर्शित करने के लिए प्रयोग किया जाता है। यह माध्य से वर्गित अंतरों का औसत होता है।

>>> df[[‘Maths’,‘Science’,‘S.
St’,‘Hindi’,‘Eng’]].var()

Maths $\quad$ 15.840909
Science $\quad$ 7.113636
S.St $\quad$ 9.901515
Hindi $\quad$ 9.969697
Eng $\quad$ 11.363636
dtype: float64

3.2.10 मानक विचलन की गणना

DataFrame.std() मानों का मानक विचलन लौटाता है। मानक विचलन को प्रसरण का वर्गमूल निकालकर गणना की जाती है।

>>> df[[‘Maths’,‘Science’,‘S.
St’,‘Hindi’,‘Eng’]].std()

Maths $\quad$ 3.980064
Science $\quad$ 2.667140$
S.St $\quad$ 3.146667$
Hindi $\quad$ 3.157483$
Eng $\quad$ 3.370999$
dtype: float 64

DataFrame.describe() फ़ंक्शन एक ही कमांड में वर्णनात्मक सांख्यिकीय मान प्रदर्शित करता है। ये मान हमें DataFrame में डेटा के समूह का वर्णन करने में मदद करते हैं।

>>> df.describe()

	UT	Maths	Science	S.St	Hindi	Eng
count	12.000000	12.000000	12.00000	12.000000	12.000000	12.000000
mean	2.000000	19.250000	19.75000	20.416667	21.833333	20.500000
std	0.852803	3.980064	2.66714	3.146667	3.157483	3.370999
min	1.000000	12.000000	15.00000	15.000000	15.000000	13.000000
258	1.000000	16.500000	18.00000	18.750000	20.750000	19.750000
508	2.000000	20.500000	19.50000	20.000000	22.500000	21.500000
758	3.000000	22.250000	21.25000	22.500000	24.000000	23.000000
max	3.000000	24.000000	25.00000	25.000000	25.000000	24.000000

3.3 डेटा एकत्रीकरण

एग्रीगेशन का अर्थ है डेटासेट को ट्रांसफॉर्म करना और एक ऐरे से एकल संख्यात्मक मान उत्पन्न करना। एग्रीगेशन को एक या एक से अधिक कॉलमों पर एक साथ लागू किया जा सकता है। एग्रीगेट फ़ंक्शन हैं $\max (), \min (), \operatorname{sum}()$, count(), std(), var()।

>>> df.aggregate(‘max’)

Name Zuhaire # Name का अधिकतम भी प्रदर्शित कर रहा है

UT $\quad$ 3
Maths $\quad$ 24
Science $\quad$ 25
S.St $\quad$ 25
Hindi $\quad$ 25
Eng $\quad$ 24
dtype: object

#एक ही स्टेटमेंट में कई एग्रीगेट फ़ंक्शन का उपयोग करने के लिए
>>> df.aggregate([‘max’,‘count’])

	Name	UT	Maths	Science	S.St	Hindi	Eng
max	Zuhaire	3	24	25	25	25	24
count	12	12	12	12	12	12	12

>>> df[‘Maths’].aggregate([‘max’,‘min’])

max $\quad$ 24
min $\quad$ 12
Name: Maths, dtype: int64

नोट: हम एग्रीगेट फ़ंक्शन के साथ पैरामीटर axis का भी उपयोग कर सकते हैं। डिफ़ॉल्ट रूप से, axis का मान शून्य होता है, अर्थात् कॉलम।

#उपरोक्त स्टेटमेंट को axis=0 के साथ उपयोग करने पर वही परिणाम मिलता है
>>> df[‘Maths’].aggregate([‘max’,‘min’],axis=0)

max $\quad$ 24
min $\quad$ 12
Name: Maths, dtype: int64

#प्रत्येक छात्र द्वारा प्राप्त किए गए Maths और Science के कुल अंक।
#sum() का उपयोग axis=1 के साथ (पंक्ति-वार योग)
>>> df[[‘Maths’,‘Science’]].aggregate(‘sum’,axis=1)

0 $\quad$ 43
1 $\quad$ 41
2 $\quad$ 33
3 $\quad$ 37
4 $\quad$ 38
5 $\quad$ 40
6 $\quad$ 42
7 $\quad$ 46
8 $\quad$ 37
9 $\quad$ 37
10 $\quad$ 39
11 $\quad$ 35
dtype: int64

3.4 DataFrame को सॉर्ट करना

सॉर्टिंग का अर्थ है डेटा तत्वों को एक निर्धारित क्रम में व्यवस्थित करना, जो या तथा आरोही (ascending) या अवरोही (descending) हो सकता है। Pandas DataFrame के डेटा मानों को सॉर्ट करने के लिए sort_values() फ़ंक्शन प्रदान करता है। इस फ़ंक्शन की सिंटैक्स इस प्रकार है:

DataFrame.sort_values(by, axis $=0$, ascending=True)

यहाँ, एक कॉलम सूची (by), एक्सिस आर्गुमेंट्स (पंक्तियों के लिए 0 और स्तंभों के लिए 1) और सॉर्टिंग का क्रम (ascending $=$ False या True) आर्गुमेंट्स के रूप में पास किए जाते हैं। डिफ़ॉल्ट रूप से, सॉर्टिंग पंक्ति इंडेक्स पर आरोही क्रम में की जाती है।

एक परिदृश्य पर विचार करें, जहाँ शिक्षक छात्रों के नामों के अनुसार या किसी विशेष विषय में प्राप्त अंकों के अनुसार सूची को व्यवस्थित करने में रुचि रखता है। ऐसे मामलों में, सॉर्टिंग का उपयोग कर वांछित परिणाम प्राप्त किए जा सकते हैं। निम्नलिखित Python कोड प्रोग्राम 3.1 में बनाए गए DataFrame में डेटा को सॉर्ट करने के लिए है।

संपूर्ण डेटा को विशेषता ‘Name’ के आधार पर सॉर्ट करने के लिए, हम निम्नलिखित कमांड का उपयोग करते हैं:

#डिफ़ॉल्ट रूप से, सॉर्टिंग आरोही क्रम में की जाती है।
>>> print(df.sort_values(by=[‘Name’]))

	नाम	यूटी	गणित	विज्ञान	स.व.	हिंदी	अंग्रेज़ी
6	अश्रव्य	1	23	19	20	15	22
7	अश्रव्य	2	24	22	24	17	21
8	अश्रव्य	3	12	25	19	21	23
9	मिश्ती	1	15	22	25	22	22
10	मिश्ती	2	18	21	25	24	23
11	मिश्ती	3	17	18	20	25	20
0	रमन	1	22	21	18	20	21
1	रमन	2	21	20	17	22	24
2	रमन	3	14	19	15	24	23
3	ज़ुहैरे	1	20	17	22	24	19
4	ज़ुहैरे	2	23	15	21	25	15
5	ज़ुहैरे	3	22	18	19	23	13

अब, यूनिट टेस्ट 2 में सभी विद्यार्थियों द्वारा विज्ञान में प्राप्त किए गए अंकों की क्रमबद्ध सूची प्राप्त करने के लिए निम्नलिखित कोड का उपयोग किया जा सकता है:

# यूनिट टेस्ट 2 से संबंधित डेटा प्राप्त करें
>>> dfUT2 = df[df.UT == 2]
# विज्ञान में प्राप्त अंकों के आरोही क्रम के अनुसार क्रमबद्ध करें
>>> print(dfUT2.sort_values(by=[‘Science’]))

	नाम	यूटी	गणित	विज्ञान	स.व.	हिंदी	अंग्रेज़ी
4	ज़ुहैरे	2	23	15	21	25	15
1	रमन	2	21	20	17	22	24
10	मिश्ती	2	18	21	25	24	23
7	अश्रव्य	2	24	22	24	17	21

प्रोग्राम 3-9 वह कथन लिखें जो डेटाफ्रेम df में यूनिट टेस्ट 3 के आधार पर अंग्रेज़ी में प्राप्त अंकों को अवरोही क्रम में क्रमबद्ध करेगा।

# यूनिट टेस्ट 3 से संबंधित डेटा प्राप्त करें » dfUT3 $=$ df[df.UT == 3]
# विज्ञान में अंकों के अवरोही क्रम के अनुसार क्रमबद्ध करें
>>> print(dfUT3.sort_values(by=[‘Eng’], ascending=F alse ) )

	Name	UT	Maths	Science	S.St	Hindi	Eng
2	Raman	3	14	19	15	24	23
8	Ashravy	3	12	25	19	21	23
11	Mishti	3	17	18	20	25	20
5	Zuhaire	3	22	18	19	23	13

एक DataFrame को एक से अधिक कॉलमों के आधार पर क्रमबद्ध किया जा सकता है। निम्नलिखित कोड यूनिट टेस्ट 3 में विज्ञान के अंकों के आधार पर DataFrame df को आरोही क्रम में क्रमबद्ध करने के लिए है। यदि विज्ञान में अंक समान हैं, तो क्रमबद्ध करना हिंदी के अंकों के आधार पर किया जाएगा।

# यूनिट टेस्ट 3 में अंकों से संबंधित डेटा प्राप्त करें
>>> dfUT3 = df[df.UT == 3]
# डेटा को विज्ञान के अनुसार और फिर हिंदी के अनुसार क्रमबद्ध करें
>>> print(dfUT3.sort_values(by=[‘Science’,‘Hindi’]))

	Name	UT	Maths	Science	S.St	Hindi	Eng
5	Zuhaire	3	22	18	19	23	13
11	Mishti	3	17	18	20	25	20
2	Raman	3	14	19	15	24	23
8	Ashravy	3	12	25	19	21	23

यहाँ, हम देख सकते हैं कि सूची को विज्ञान के अंकों के आधार पर क्रमबद्ध किया गया है। दो छात्र, जिनमें Zuhaire और Mishti हैं, के विज्ञान में समान अंक (18) हैं। इसलिए उनके लिए क्रमबद्ध करना हिंदी के अंकों के आधार पर किया गया है।

3.5 GROUP BY फ़ंक्शन

pandas में, DataFrame.GROUP BY() फ़ंक्शन का उपयोग डेटा को किसी मानदंड के आधार पर समूहों में विभाजित करने के लिए किया जाता है। pandas के ऑब्जेक्ट्स जैसे DataFrame को उनके किसी भी एक्सिस पर विभाजित किया जा सकता है। GROUP BY फ़ंक्शन split-apply-combine रणनीति पर काम करता है जो नीचे 3-चरणीय प्रक्रिया के रूप में दिखाया गया है:

चरण 1: मूल DataFrame से GROUP BY ऑब्जेक्ट बनाकर डेटा को समूहों में विभाजित करें।

चरण 2: आवश्यक फ़ंक्शन लागू करें।

चरण 3: परिणामों को मिलाकर एक नया DataFrame बनाएं।

इसे बेहतर समझने के लिए, आइए नीचे दिए गए चित्र में दि�ाए गए डेटा पर विचार करें। यहाँ हमारे पास दो-स्तंभ वाला DataFrame है (key, data)। हमें एक विशेष key के लिए data स्तंभ का योग निकालना है, अर्थात् key A, B और C के सभी data तत्वों का योग। ऐसा करने के लिए, हम पहले पूरे DataFrame को key स्तंभ के आधार पर समूहों में विभाजित करते हैं। फिर हम संबंधित समूहों पर sum फ़ंक्शन लागू करते हैं। अंत में, हम परिणामों को मिलाकर एक नया DataFrame बनाते हैं जिसमें वांछित परिणाम होता है।

चित्र 3.1: दो स्तंभों वाला DataFrame

निम्नलिखित कथन दिखाते हैं कि Program 3.1 में बनाए गए DataFrame df पर GROUP BY() फ़ंक्शन कैसे लागू करें:

#DataFrame df से GROUP BY Name of the student बनाएं
>>> g1=df.GROUP BY(‘Name’)
#प्रत्येक समूह से पहली प्रविष्टि प्रदर्शित करना
>>> g1.first()

नाम	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
अश्रव्य	1	23	19	20	15	22
मिश्ती	1	15	22	25	22	22
रमन	1	22	21	18	20	21
ज़ुहैरे	1	20	17	22	24	19

#प्रत्येक समूह का आकार दिखाना
>>> g1.size()

नाम
अश्रव्य	3
मिश्ती	3
रमन	3
ज़ुहैरे	3

dtype: int64

#समूह डेटा दिखाना, अर्थात् समूह_नाम, समूह से संबंधित पंक्ति अनुक्रमणिकाएँ और उनका डेटा प्रकार
>>> g1.groups
{‘अश्रव्य’: Int64Index([6, 7, 8],
dtype=‘int64’),
‘मिश्ती’: Int64Index([9, 10, 11],
dtype=‘int64’),
‘रमन’: Int64Index([0, 1, 2], dtype=‘int64’),
‘ज़ुहैरे’: Int64Index([3, 4, 5],
dtype=‘int64’)}

#एकल समूह का डेटा प्रिंट करना
>>> g1.get_group(‘रमन’)

	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
0	1	22	21	18	20	21
1	2	21	20	17	22	24
2	3	14	19	15	24	23

#एकाधिक गुणों के आधार पर समूहन
#नाम और यूटी के अनुसार GROUP BY बनाना
>>> g2=df.GROUP BY([‘Name’, ‘UT’])
>>> g2.first()

		गणित	विज्ञान	सामाजिक विज्ञान	हिन्दी	अंग्रेज़ी
नाम	यूटी
अश्रव्य	1	23	19	20	15	22
	2	24	22	24	17	21
	3	12	25	19	21	23
मिश्ती	1	15	22	25	22	22
	2	18	21	25	24	23
रमन	3	17	18	20	25	20
	1	22	21	18	20	21
	2	21	20	17	22	24
ज़ुहैरे	3	14	19	15	24	23
	1	20	17	22	24	19
	2	23	15	21	25	15
	3	22	18	19	23	13

उपरोक्त कथन दिखाते हैं कि हम GROUP BY() का उपयोग करके एक DataFrame को विभाजित करके समूह कैसे बनाते हैं। अगला चरण बनाए गए समूहों पर फलन लागू करना है। यह Aggregation द्वारा किया जाता है।

Aggregation एक प्रक्रिया है जिसमें GROUP BY() द्वारा बनाए गए प्रत्येक समूह पर एक समष्टि फलन लागू किया जाता है। यह प्रत्येक समूह के अनुरूप एक एकल समष्टि सांख्यिकीय मान लौटाता है। इसका उपयोग किसी अक्ष पर एकाधिक फलन लागू करने के लिए किया जा सकता है। डिफ़ॉल्ट रूप से, फलन स्तंभों पर लागू होते हैं। Aggregation agg() या aggregate() फलन का उपयोग करके किया जा सकता है।

#प्रत्येक यूटी के लिए प्रत्येक विषय में सभी विद्यार्थियों द्वारा प्राप्त औसत अंकों की गणना करना
>>> df.GROUP BY([‘UT’]).aggregate(‘mean’)

	गणित	विज्ञान	सामाजिक विज्ञान	हिन्दी	अंग्रेज़ी
यूटी
1	20.00	19.75	21.25	20.25	21.00
2	21.50	19.50	21.75	22.00	20.75
3	16.25	20.00	18.25	23.25	19.75

#प्रत्येक यूटी में गणित में प्राप्त औसत अंकों की गणना करें
>>> group1=df.GROUP BY([‘UT’])
>>> group1[‘Maths’].aggregate(‘mean’)

यूटी
1	20.00
2	21.50
3	16.25

Name: Maths, dtype: float64

गतिविधि 3.5

प्रत्येक यूटी में सभी विद्यार्थियों द्वारा विज्ञान में प्राप्त औसत अंक प्रिंट करने के लिए पायथन कथन लिखें।

प्रोग्राम 3-10 प्रत्येक विद्यार्थी द्वारा सभी यूटी में गणित में प्राप्त अंकों का माध्य, प्रसरण, मानक विचलन और चतुर्थक प्रिंट करने के लिए पायथन कथन लिखें।

>>> df.GROUP BY(by=‘Name’)[‘Maths’].agg([‘mean’,‘var’,‘std’,‘quantile’])

	माध्य	प्रसरण	मानक विचलन	चतुर्थक
नाम
अश्रव्य	19.666667	44.333333	6.658328	23.0
मिश्ती	16.666667	2.333333	1.527525	17.0
रमन	19.000000	19.000000	4.358899	21.0
ज़ुहैरे	21.666667	2.333333	1.527525	22.0

3.6 इंडेक्स को बदलना

हम DataFrame के तत्वों तक पहुँचने के लिए इंडेक्सिंग का उपयोग करते हैं। यह डेटा को तेज़ी से पुनःप्राप्त करने के लिए प्रयोग होता है। डिफ़ॉल्ट रूप से, 0 से शुरू होने वाला एक संख्यात्मक इंडेक्स पंक्ति इंडेक्स के रूप में बनाया जाता है, जैसा नीचे दिखाया गया है:

>>> df #डिफ़ॉल्ट इंडेक्स के साथ

	नाम	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
0	रमन	1	22	21	18	20	21
1	रमन	2	21	20	17	22	24
2	रमन	3	14	19	15	24	23
3	ज़ुहैर	1	20	17	22	24	19
4	ज़ुहैर	2	23	15	21	25	15
5	ज़ुहैर	3	22	18	19	23	13
6	अश्रव्य	1	23	19	20	15	22
7	अश्रव्य	2	24	22	24	17	21
8	अश्रव्य	3	12	25	19	21	23
9	मिश्ती	1	15	22	25	22	22
10	मिश्ती	2	18	21	25	24	23
11	मिश्ती	3	17	18	20	25	20

यहाँ, पहले कॉलम में 0 से शुरू होने वाली पूर्ण संख्या इंडेक्स है। हालाँकि, हमारी आवश्यकताओं के अनुसार हम किसी अन्य कॉलम को इंडेक्स चुन सकते हैं या हम एक और इंडेक्स कॉलम जोड़ सकते हैं।

जब हम डेटा को स्लाइस करते हैं, तो हमें मूल इंडेक्स मिलता है जो लगातार नहीं होता, उदाहरण के लिए जब हम यूनिट टेस्ट 1 में सभी छात्रों के अंक चुनते हैं, तो हमें निम्नलिखित परिणाम मिलता है:

>>> dfUT1 = df[df.UT == 1]
>>> print(dfUT1)

	नाम	यूटी	गणित	विज्ञान	स.वि	हिंदी	अंग्रेज़ी
0	रमन	1	22	21	18	20	21
3	ज़ुहैर	1	20	17	22	24	19
6	अश्रव्य	1	23	19	20	15	22
9	मिश्टी	1	15	22	25	22	22

ध्यान दें कि पहला स्तंभ एक असतत अनुक्रमणिका है क्योंकि यह मूल डेटा का स्लाइस है। हम इसके साथ-साथ reset_index() फ़ंक्शन का उपयोग करके एक नई सतत अनुक्रमणिका बनाते हैं, जैसा कि नीचे दिखाया गया है:

>>> dfUT1.reset_index(inplace=True)
>>> print(dfUT1)

	अनुक्रमणिका	नाम	यूटी	गणित	विज्ञान	स.वि	हिंदी	अंग्रेज़ी
0	0	रमन	1	22	21	18	20	21
1	3	ज़ुहैर	1	20	17	22	24	19
2	6	अश्रव्य	1	23	19	20	15	22
3	9	मिश्टी	1	15	22	25	22	22

एक नई सतत अनुक्रमणिका बनाई गई है जबकि मूल अनुक्रमणिका भी बरकरार है। हम मूल अनुक्रमणिका को drop फ़ंक्शन का उपयोग करके हटा सकते हैं, जैसा कि नीचे दिखाया गया है:

>>> dfUT1.drop(columns=[‘index’],inplace=True)
>>> print(dfUT1)

	नाम	यूटी	गणित	विज्ञान	स.वि	हिंदी	अंग्रेज़ी
0	रमन	1	22	21	18	20	21
1	ज़ुहैर	1	20	17	22	24	19
2	अश्रव्य	1	23	19	20	15	22
3	मिश्टी	1	15	22	25	22	22

हम डेटा के किसी अन्य कॉलम को इंडेक्स बना सकते हैं।

>>> dfUT1.set_index(‘Name’,inplace=True)
>>> print(dfUT1)

UT	Maths	Science	S.St	Hindi	Eng
Name
Raman	1	22	21	18	20	21
Zuhaire	1	20	17	22	24	19
Ashravy	1	23	19	20	15	22
Mishti	1	15	22	25	22	22

हम पिछले इंडेक्स पर वापस निम्नलिखित कथन का उपयोग करके लौट सकते हैं:

>>> dfUT1.reset_index(‘Name’, inplace = True)
>>> print(dfUT1)

	Name	UT	Maths	Science	S.St	Hindi	Eng
0	Raman	1	22	21	18	20	21
1	Zuhaire	1	20	17	22	24	19
2	Ashravy	1	23	19	20	15	22
3	Mishti	1	15	22	25	22	22

3.7 अन्य डेटाफ्रेम संचालन

इस खंड में, हम अधिक तकनीकों और फंक्शनों को सीखेंगे जिनका उपयोग डेटाफ्रेम में डेटा को नियंत्रित और विश्लेषण करने के लिए किया जा सकता है।

3.7.1 डेटा को पुनः आकार देना

डेटासेट को पंक्तियों और स्तंभों में जिस तरह व्यवस्थित किया जाता है, उसे डेटा का आकार कहा जाता है। डेटा को पुनः आकार देना उस प्रक्रिया को संदर्भित करता है जिसमें डेटासेट के आकार को बदला जाता है ताकि यह किसी विश्लेषण समस्या के लिए उपयुक्त हो सके। नीचे दिए गए खंड में दिया गया उदाहरण डेटा को पुनः आकार देने की उपयोगिता को समझाता है।

डेटा को पुनः आकार देने के लिए, Pandas में दो बुनियादी फंक्शन उपलब्ध हैं, pivot और pivot_table। यह खंड उन्हें विस्तार से कवर करता है।

(A) पिवोट

पिवट फंक्शन का उपयोग मूल डेटाफ्रेम को पुनः आकार देने और एक नया डेटाफ्रेम बनाने के लिए किया जाता है। निम्नलिखित उदाहरण पर विचार करें जिसमें चार स्टोरों S1, S2, S3 और S4 की वर्ष 2016, 2017 और 2018 की बिक्री और लाभ का डेटा दिया गया है:

उदाहरण 3.1

>>> import pandas as pd
>>>data={‘Store’:[‘S1’,‘S4’,‘S3’,‘S1’,‘S2’,‘S3’,‘S1’,‘S2’,‘S3’],‘Year’:[2016,2016,2016,2017,2017,2017,2018,2018,2018],
‘Total_sales(Rs)’:[12000,330000,420000,20000,10000,450000,30000, 11000,89000],
‘Total_profit(Rs)’:[1100,5500,21000,32000,9000,45000,3000, 1900,23000]
}

>>> df=pd.DataFrame(data)
>>> print(df)

	Store	Year	Total_sales(Rs)	Total_profit(Rs)
0	S1	2016	12000	1100
1	S4	2016	330000	5500
2	S3	2016	420000	21000
3	S1	2017	20000	32000
4	S2	2017	10000	9000
5	S3	2017	450000	45000
6	S1	2018	30000	3000
7	S2	2018	11000	1900
8	S3	2018	89000	23000

आइए उपरोक्त डेटा पर निम्नलिखित प्रश्नों के उत्तर खोजने का प्रयास करें।

स्टोर S1 की सभी वर्षों में कुल बिक्री क्या थी? इस कार्य को करने के लिए Python कथन इस प्रकार होंगे:

# स्टोर S1 से संबंधित डेटा प्राप्त करेगा
>>> S1df = df[df.Store==’S1’]
#स्टोर S1 की बिक्री का योग निकालेगा
>>> S1df[‘Total_sales(Rs)’].sum()
62000

किसी भी वर्ष में स्टोर S3 द्वारा अधिकतम बिक्री मान क्या है?

#स्टोर S3 से संबंधित डेटा प्राप्त करेगा
>>> S3df = df[df.Store==’S3’]
#स्टोर S3 के लिए अधिकतम बिक्री खोजें
>>> S3df[‘Total_sales(Rs)’].max()\ 450000

सभी वर्षों में किस स्टोर की कुल बिक्री अधिकतम थी?

>>> S1df = df[df.Store==‘S1’]
>>> S2df=df[df.Store == ‘S2’]
>>> S3df = df[df.Store==‘S3’]
>>> S4df = df[df.Store==‘S4’]
>>> S1total = S1df[‘Total_sales(Rs)’].sum()
>>> S2total = S2df[‘Total_sales(Rs)’].sum()
$\quad$ >>> S3total = S3df[‘Total_sales(Rs)’].sum()
$\quad$ >>> S4total = S4df[‘Total_sales(Rs)’].sum()
>>> max(S1total,S2total,S3total,S4total)
959000

ध्यान दें कि हमें एक विशेष स्टोर के अनुरूप डेटा को स्लाइस करना होता है और फर क्वेरी का उत्तर देना होता है। अब, आइए डेटा को पिवोट का उपयोग करके रीशेप करें और अंतर देखें।

>>>pivot1=df.pivot(index=‘Store’,columns=‘Year’,va lues=‘Total_sales(Rs)’)

यहाँ, Index उन कॉलम को निर्दिष्ट करता है जो पिवोट टेबल में इंडेक्स के रूप में कार्य करेंगे, columns पिवोट किए गए डेटा के लिए नए कॉलम निर्दिष्ट करता है और values उन कॉलम को निर्दिष्ट करता है जिनके मान प्रदर्शित किए जाएंगे। इस विशेष मामले में, स्टोर के नाम इंडेक्स के रूप में कार्य करेंगे, वर्ष कॉलम के हेडर होंगे और बिक्री मान पिवोट टेबल के मानों के रूप में प्रदर्शित होंगे।

>>> print(pivot1)

Year	2016	2017	2018
Store
S1	12000.0	20000.0	30000.0
S2	NaN	10000.0	11000.0
S3	420000.0	450000.0	89000.0
S4	330000.0	NaN	NaN

जैसा कि ऊपर देखा जा सकता है, मूल तालिका में प्रत्येक पंक्ति के Total_sales (Rs) का मान नई तालिका pivot1 में स्थानांतरित कर दिया गया है, जहाँ प्रत्येक पंक्ति में एक स्टोर का डेटा होता है और प्रत्येक स्तंभ में एक वर्ष का डेटा होता है। नई पिवट तालिका में उन कोशिकाओं को NaN से भरा जाता है जिनका मूल तालिका में कोई मिलान नहीं होता है। उदाहरण के लिए, हमारे पास 2016 में स्टोर S2 की बिक्री से संबंधित कोई मान नहीं था, इसलिए pivot1 में संबंधित कोशिका NaN से भरी गई है।

अब उपरोक्त प्रश्नों के लिए Python कथन इस प्रकार होंगे:

स्टोर S1 की सभी वर्षों में कुल बिक्री क्या थी?

>>> pivot1.loc[‘S1’].sum()

किसी भी वर्ष में स्टोर S3 द्वारा अधिकतम बिक्री मान क्या है?

>>> pivot1.loc[‘S3’].max()

किस स्टोर की अधिकतम कुल बिक्री थी?

>>> S1total = pivot1.loc[‘S1’].sum()
>>> S2total = pivot1.loc[‘S2’].sum()
>>> S3total = pivot1.loc[‘S3’].sum()
>>> S4total = pivot1.loc[‘S4’].sum()
>>> max(S1total,S2total,S3total,S4total)

गतिविधि 3.6

कार्यक्रम 3.1 में दिए गए इकाई परीक्षा के अंकों के डेटा को ध्यान में रखते हुए, गणित में नामवार UT अंक प्रिंट करने के लिए Python कथन लिखें।

हम देख सकते हैं कि रीशेपिंग ने डेटा की संरचना को बदल दिया है, जिससे यह अधिक पठनीय हो गया है और डेटा का विश्लेषण करना आसान हो गया है।

(B) एकाधिक स्तंभों द्वारा पिवोटिंग

एकाधिक कॉलमों द्वारा पिवोट करने के लिए, हमें pivot() फ़ंक्शन के values पैरामीटर में एकाधिक कॉलम नाम निर्दिष्ट करने होते हैं। यदि हम values पैरामीटर को छोड़ देते हैं, तो यह सभी संख्यात्मक मानों के लिए पिवोटिंग प्रदर्शित करेगा।

_>>>pivot2=df.pivot(index=‘Store’,columns=‘Year’,values=[‘Total_sales(Rs)’,‘Total_profit(Rs)’])
>>> print(pivot2) _

	Total_sales(Rs)			Total_profit(Rs)
Year	2016	2017	2018	2016	2017	2018
Store
S1	12000.0	20000.0	30000.0	1100.0	32000.0	3000.0
S2	NaN	10000.0	11000.0	NaN	9000.0	1900.0
S3	330000.0	NaN	NaN	5500.0	NaN	NaN

आइए एक अन्य उदाहरण पर विचार करें, जहाँ मान लीजिए हमारे पास किसी स्टोर के संगत स्टॉक डेटा है:

>>> data={‘Item’:[‘Pen’,‘Pen’,‘Pencil’,‘Pencil’,‘Pen’,‘Pen’],
‘Color’:[‘Red’,‘Red’,‘Black’,‘Black’,‘Blue’,‘Blue’]‘Price(Rs)’:[10,25,7,5,50,20],
‘Units_in_stock’:[50,10,47,34,55,14]}
>>> df=pd.DataFrame(data)
>>> print(df)

	Item	Color	Price(Rs)	Units_in_stock
0	Pen	Red	10	50
1	Pen	Red	25	10
2	Pencil	Black	7	47
3	Pencil	Black	5	34
4	Pen	Blue	50	55
5	Pen	Blue	20	14

अब, मान लीजिए हमें उपरोक्त तालिका को Item को इंडेक्स और Color को कॉलम बनाकर पुनः आकार देना है। हम नीचे दिए गए अनुसार pivot फंक्शन का उपयोग करेंगे:

>>>pivot3=df.pivot(index=‘Item’,columns=‘Color’,values=‘Units_in_stock’)

लेकिन यह कथन एक त्रुटि देता है: “ValueError: Index contains duplicate entries, cannot reshape”। ऐसा इसलिए है क्योंकि डुप्लिकेट डेटा को pivot फंक्शन का उपयोग करके पुनः आकार नहीं दिया जा सकता। इसलिए, pivot() फंक्शन को कॉल करने से पहले, हमें यह सुनिश्चित करना होगा कि हमारे डेटा में निर्दिष्ट कॉलमों के लिए डुप्लिकेट मानों वाली पंक्तियाँ नहीं हैं। यदि हम यह सुनिश्चित नहीं कर सकते, तो हमें pivot_table फंक्शन का उपयोग करना पड़ सकता है।

(C) पिवोट टेबल

यह pivot फंक्शन की तरह काम करता है, लेकिन निर्दिष्ट कॉलमों के लिए डुप्लिकेट प्रविष्टियों वाली पंक्तियों के मानों को समेकित करता है। दूसरे शब्दों में, हम समेकन फंक्शन जैसे min, max, mean आदि का उपयोग कर सकते हैं, जहाँ भी हमारे पास डुप्लिकेट प्रविष्टियाँ हैं। डिफ़ॉल्ट समेकन फंक्शन mean है।

सिंटैक्स:

pandas.pivot_table(data, values=None,
index=None, columns=None, aggfunc=‘mean’)

पैरामीटर aggfunc के पास मान हो सकते हैं sum, max, min, len, np.mean, np.median के बीच।

हम एक से अधिक कॉलमों पर इंडेक्स लागू कर सकते हैं यदि हमारे पास इंडेक्स के रूप में कार्य करने के लिए कोई अद्वितीय कॉलम नहीं है।

>>> df1 = df.pivot_table(index=[‘Item’,‘Color’])
>>> print(df1)

		Price(Rs)	Units_in_stock
Item	Color
Pen	Blue	35.0	34.5
	Red	17.5	30.0
Pencil	Black	6.0	40.5

कृपया ध्यान दें कि माध्य (mean) को डिफ़ॉल्ट एकत्रीकरण फ़ंक्शन के रूप में इस्तेमाल किया गया है। मूल डेटा में नीले पेन की कीमत 50 और 20 है। एकत्रीकरण के रूप में माध्य का उपयोग किया गया है और df1 में नीले पेन की कीमत 35 है।

हम डेटा पर एक से अधिक एकत्रीकरण फ़ंक्शन का उपयोग कर सकते हैं। नीचे दिया गया उदाहरण sum, max और np.mean फ़ंक्शन के उपयोग को दर्शाता है।

>>>pivot_table1=df.pivot_table(index=‘Item’,columns=‘Color’,values=‘Units_in_stock’,aggfunc=[sum,max,np.mean])
>>> pivot_table1

		sum			max			mean
Color	Black	Blue	Red	Black	Blue	Red	Black	Blue	Red
Item
Pen	NaN	69.0	60.0	NaN	55.0	50.0	NaN	34.5	30.0
Pencil	81.0	NaN	NaN	47.0	NaN	NaN	40.5	NaN	NaN

पिवोटिंग कई कॉलम पर भी की जा सकती है। इसके अलावा, विभिन्न कॉलम पर विभिन्न एकत्रीकरण फ़ंक्शन लागू किए जा सकते हैं। निम्नलिखित उदाहरण दो कॉलम - Price(Rs) और Units_in_stock पर पिवोटिंग को प्रदर्शित करता है। साथ ही, कॉलम Price(Rs) पर len() फ़ंक्शन और कॉलम Units_in_stock पर mean() फ़ंक्शन के अनुप्रयोग को उदाहरण में दिखाया गया है। ध्यान दें कि एकत्रीकरण फ़ंक्शन len उस प्रविष्टि के अनुरूप पंक्तियों की संख्या लौटाता है।

>>>pivot_table1=df.pivot_table(index=‘Item’,columns=‘Color’,values=[‘Price(Rs)’,‘Units_in_stock’],aggfunc={“Price(Rs)":len,“Units_in_stock”:np.mean})

>>> pivot_table1

		मूल्य (रु.)			स्टॉक_में_इकाइयाँ
रंग	काला	नीला	लाल	काला	नीला	लाल
वस्तु
पेन	NaN	2.0	2.0	NaN	34.5	30.0
पेंसिल	2.0	NaN	NaN	40.5	NaN	NaN

प्रोग्राम 3-11 प्रत्येक रंग के पेन का अधिकतम मूल्य प्रिंट करने के लिए कथन लिखिए।

>>>dfpen=df[df.Item==‘Pen’]
>>>pivot_redpen=dfpen.pivot_table(index=‘Item’,columns=[‘Color’],values=[‘Price(Rs)’],aggfunc=[max])
>>>print(pivot_redpen)

		max
		मूल्य (रु.)
रंग	नीला	लाल
वस्तु
पेन	50	25

3.8 लापता मानों को संभालना

जैसा कि हम जानते हैं कि एक डेटाफ्रेम में कई पंक्तियाँ (ऑब्जेक्ट्स) हो सकती हैं जहाँ प्रत्येक पंक्ति विभिन्न स्तंभों (गुणों) के लिए मान रख सकती है। यदि किसी स्तंभ के लिए संगत मान मौजूद नहीं है, तो उसे लापता मान माना जाता है। एक लापता मान $\mathrm{NaN}$ द्वारा दर्शाया जाता है।

वास्तविक दुनिया के डेटासेट में, किसी ऑब्जेक्ट के कुछ गुणों के लापता होना सामान्य बात है। इसके कई कारण हो सकते हैं। कुछ मामलों में, डेटा ठीक से एकत्र नहीं किया गया जिससे डेटा लापता हुआ, उदाहरण के लिए कुछ लोगों ने सर्वे लेते समय सभी फ़ील्ड नहीं भरे। कभी-कभी, कुछ गुण सभी के लिए प्रासंगिक नहीं होते। उदाहरण के लिए, यदि कोई व्यक्ति बेरोज़गार है तो वेतन गुण अप्रासंगिक होगा और इसलिए उसे भरा नहीं गया होगा।

लापता मान डेटा विश्लेषण के दौरान बहुत सी समस्याएँ पैदा करते हैं और इन्हें ठीक से संभालना पड़ता है। इस खंड में समझाए गए लापता मानों से निपटने की दो सबसे सामान्य रणनीतियाँ हैं:

i) जिस वस्तु में लापता मान हों उसे हटा दें,

ii) लापता मान को भरें या अनुमान लगाएँ

आइए पिछले केस स्टडी को टेबल 3.1 में देखें। मान लीजिए, छात्र अब यूनिट टेस्ट 4 में भी शामिल हो चुके हैं। पर रामन विज्ञान, गणित और अंग्रेज़ी की परीक्षाओं में शामिल नहीं हो सका, और मान लीजिए पुनः परीक्षा की कोई संभावना नहीं है। इसलिए इन विषयों के अनुरूप उसके द्वारा प्राप्त अंक लापता होंगे। यूनिट टेस्ट 4 के बाद का डेटासेट टेबल 3.2 में दिखाया गया है। ध्यान दें कि विशेषताएँ ‘Science’, ‘Maths’ और ‘English’ में रामन के लिए यूनिट टेस्ट 4 में लापता मान हैं।

Table 3.2 Case study data after UT4

			परिणाम
नाम/विषय	यूनिट टेस्ट	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
रमन	1	22	21	18	20	21
रमन	2	21	20	17	22	24
रमन	3	14	19	15	24	23
रमन	4			19	18
ज़ुहैर	1	20	17	22	24	19
ज़ुहैर	2	23	15	21	25	15
ज़ुहैर	3	22	18	19	23	13
ज़ुहैर	4	19	20	17	19	16
आश्रव्य	1	23	19	20	15	22
आश्रव्य	2	24	22	24	17	21
आश्रव्य	3	12	25	19	21	23
आश्रव्य	4	15	20	20	20	17
मिश्ती	1	15	22	25	22	22
मिश्ती	2	18	21	25	24	23
मिश्ती	3	17	18	20	25	20
मिश्ती	4	14	20	19	20	18

अंतिम परिणाम की गणना करने के लिए, शिक्षकों को सभी छात्रों द्वारा प्राप्त अंकों का प्रतिशत जमा करने को कहा गया है। रमन के मामले में, गणित शिक्षक 3 टेस्टों में प्राप्त अंकों की गणना करती है और फिर 75 अंकों के कुल स्कोर से प्रतिशत निकालती है। एक तरह से, वह यूनिट टेस्ट 4 के अंकों को छोड़ने का निर्णय लेती है। हालांकि, अंग्रेज़ी शिक्षक रमन को चौथे टेस्ट में वही अंक देने का निर्णय लेती है जो तीसरे टेस्ट में प्राप्त किए थे। विज्ञान शिक्षक रमन को चौथे टेस्ट में शून्य अंक देने का निर्णय लेती है और फिर प्राप्त अंकों का प्रतिशत निकालती है। निम्न खंड लापता मानों की जांच के लिए कोड और उन लापता मानों को उपयुक्त मानों से प्रतिस्थापित करने के लिए कोड की व्याख्या करते हैं।

3.8.1 लापता मानों की जाँच करना

Pandas एक isnull() फ़ंक्शन प्रदान करता है जिससे यह जाँचा जा सकता है कि DataFrame में कोई मान लापता है या नहीं। यह फ़ंक्शन सभी गुणों की जाँच करता है और यदि किसी गुण में लापता मान हैं तो True लौटाता है, अन्यथा False लौटाता है।

निम्नलिखित कोड सभी यूनिट टेस्टों के अंकों के आँकड़ों को एक DataFrame में संग्रहित करता है और जाँचता है कि DataFrame में लापता मान हैं या नहीं।

>>> marksUT = {
‘Name’:[‘Raman’,‘Raman’,‘Raman’,‘Raman’,‘Zuhaire’,‘Zuhaire’,‘Zuhaire’
,‘Zuhaire’,‘Ashravy’,‘Ashravy’,‘Ashravy’,‘Ashravy’,‘Mishti’,‘Mishti’,
‘Mishti’,‘Mishti’],
‘UT’:[1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4],
‘Maths’:[22,21,14,np.NaN,20,23,22,19,23,24,12,15,15,18,17,14],
‘Science’:[21,20,19,np.NaN,17,15,18,20,19,22,25,20,22,21,18,20],
‘S.St’:[18,17,15,19,22,21,19,17,20,24,19,20,25,25,20,19],
‘Hindi’:[20,22,24,18,24,25,23,21, 15,17,21,20,22,24,25,20],
‘Eng’:[21,24,23,np.NaN,19,15,13,16,22,21,23,17,22,23,20,18] }

>>> df = pd.DataFrame(marksUT)
>>> print(df.isnull())

उपरोक्त कोड का आउटपुट होगा

	नाम	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
0	False	False	False	False	False	False	False
1	False	False	False	False	False	False	False
2	False	False	False	False	False	False	False
3	False	False	True	True	False	False	False
4	False	False	False	False	False	False	False
5	False	False	False	False	False	False	False
6	False	False	False	False	False	False	False
7	False	False	False	False	False	False	False
8	False	False	False	False	False	False	False
9	False	False	False	False	False	False	False
10	False	False	False	False	False	False	False
11	False	False	False	False	False	False	False
12	False	False	False	False	False	False	False
13	False	False	False	False	False	False	False
14	False	False	False	False	False	False	False
15	False	False	False	False	False	False	False

कोई प्रत्येक व्यक्तिगत गुण के लिए भी जांच कर सकता है, उदाहरण के लिए निम्नलिखित कथन यह जांचता है कि गुण ‘विज्ञान’ में कोई मान गायब है या नहीं। यह उन प्रत्येक पंक्ति के लिए True लौटाता है जहाँ ‘विज्ञान’ गुण के लिए कोई मान गायब है, और अन्यथा False।

>>> print(df[‘विज्ञान’].isnull())

0 $\quad$ False
1 $\quad$ False
2 $\quad$ False
3 $\quad$ True
4 $\quad$ False
5 $\quad$ False
6 $\quad$ False
7 $\quad$ False
8 $\quad$ False
9 $\quad$ False
10 $\quad$ False
11 $\quad$ False
12 $\quad$ False
13 $\quad$ False
14 $\quad$ False
15 $\quad$ False
Name: Science, dtype: bool

किसी कॉलम (गुण) में संपूर्ण डेटासेट में कोई मिसिंग वैल्यू है या नहीं, यह जाँचने के लिए any() फ़ंक्शन का उपयोग किया जाता है। यदि मिसिंग वैल्यू होती है तो यह True लौटाता है, अन्यथा False लौटाता है।

>>> print(df.isnull().any())

Name $\quad$ False
UT $\quad$ False
Maths $\quad$ True
Science $\quad$ True
S.St $\quad$ False
Hindi $\quad$ False
Eng $\quad$ True
dtype: bool

any() फ़ंक्शन किसी विशेष गुण के लिए भी इस्तेमाल किया जा सकता है। निम्नलिखित कथन True लौटाते हैं यदि किसी गुण में मिसिंग वैल्यू होती है, अन्यथा False लौटाते हैं।

>>> print(df[‘Science’].isnull().any())
True

>>> print(df[‘Hindi’].isnull().any())
False

प्रत्येक गुण के अनुरूप $\mathrm{NaN}$ वैल्यू की संख्या ज्ञात करने के लिए, sum() फ़ंक्शन को isnull() फ़ंक्शन के साथ नीचे दिखाए अनुसार उपयोग किया जा सकता है:

>>> print(df.isnull().sum())

Name $\quad$ 0
UT $\quad$ 0
Maths $\quad$ 1
Science $\quad$ 1
S.St $\quad$ 0
Hindi $\quad$ 0
Eng $\quad$ 1
dtype: int64

संपूर्ण डेटासेट में $\mathrm{NaN}$ की कुल संख्या ज्ञात करने के लिए df.isnull().sum().sum() का उपयोग किया जा सकता है।

>>> print(df.isnull().sum().sum())
3

Program 3-12 रमन द्वारा हिंदी में प्राप्त किए गए अंकों का प्रतिशत ज्ञात करने के लिए एक प्रोग्राम लिखिए।

>>> dfRaman = df[df[‘Name’]==‘Raman’]
>>> print(‘रमन द्वारा प्राप्त अंक \n\n’,dfRaman)

रमन द्वारा प्राप्त अंक
	Name	UT	Maths	Science	S.St	Hindi	Eng
0	Raman	1	22.0	21.0	18	20	21.0
1	Raman	2	21.0	20.0	17	22	24.0
2	Raman	3	14.0	19.0	15	24	23.0
3	Raman	4	NaN	NaN	19	18	NaN

>>> dfHindi = dfRaman[‘Hindi’]
>>> print(“रमन द्वारा हिंदी में प्राप्त अंक\ \n\n”,dfHindi)

रमन द्वारा हिंदी में प्राप्त अंक

0 $\quad$ 20
1 $\quad$ 22
2 $\quad$ 24
3 $\quad$ 18
Name: Hindi, dtype: int64

>>> row = len(dfHindi) # आयोजित इकाई परीक्षाओं की संख्या। यहाँ row 4 होगा

_>>> print(“रमन द्वारा हिंदी में प्राप्त अंकों का प्रतिशत\n\n”,(dfHindi.sum()100)/(25row),”%”) \

उपरोक्त सूत्र में हर पक्ष के अंकों का योग है। यहाँ row 4 परीक्षाएँ हैं और 25 एक परीक्षा के अधिकतम अंक हैं_

रमन द्वारा हिंदी में प्राप्त अंकों का प्रतिशत
84.0 %

प्रोग्राम 3-13 गणित विषय में रमन द्वारा प्राप्त अंकों का प्रतिशत ज्ञात करने के लिए एक पायथन प्रोग्राम लिखिए।

>>>dfMaths = dfRaman[‘Maths’]
>>>print(“रमन द्वारा गणित में प्राप्त अंक
\n\n”,dfMaths)
रमन द्वारा गणित में प्राप्त अंक

0 $\quad$ 22.0
1 $\quad$ 21.0
2 $\quad$ 14.0
3 $\quad$ NaN
Name: Maths, dtype: float64

>>>row = len(dfMaths) # यहाँ, row का मान 4 होगा, यूनिट टेस्टों की संख्या
>>>print(“Percentage of Marks Scored by Raman in Maths\n\n”,dfMaths.sum()100/(25row),"%")

Percentage of Marks Scored by Raman in Maths
57%

यहाँ ध्यान दें कि रमन गणित विषय में यूनिट टेस्ट 4 में अनुपस्थित था। प्रतिशत की गणना करते समय, चौथे टेस्ट के अंकों को 0 माना गया है।

3.8.2 लापता मानों को हटाना

लापता मानों को या तो उस पूरी पंक्ति को हटाकर संभाला जा सकता है जिसमें लापता मान है, या उसे उपयुक्त मान से प्रतिस्थापित किया जा सकता है।

हटाने से वह पूरी पंक्ति (ऑब्जेक्ट) हट जाएगी जिसमें लापता मान है। यह रणनीति डेटा विश्लेषण में प्रयुक्त डेटासेट का आकार घटाती है, इसलिए इसका उपयोग तभी करना चाहिए जब कुछ ऑब्जेक्ट्स पर लापता मान हों। dropna() फ़ंक्शन का उपयोग DataFrame से पूरी पंक्ति हटाने के लिए किया जा सकता है। उदाहरण के लिए, पिछले उदाहरण पर dropna() फ़ंक्शन को कॉल करने से $\mathrm{NaN}$ मान वाली चौथी पंक्ति हट जाएगी।

>>> df1 = df.dropna()
>>> print(df1)

	नाम	यूटी	गणित	विज्ञान	सामाजिक विज्ञान	हिंदी	अंग्रेज़ी
0	रमन	1	22.0	21.0	18	20	21.0
1	रमन	2	21.0	20.0	17	22	24.0
2	रमन	3	14.0	19.0	15	24	23.0
4	ज़ुहैर	1	20.0	17.0	22	24	19.0
5	ज़ुहैर	2	23.0	15.0	21	25	15.0
6	ज़ुहैर	3	22.0	18.0	19	23	13.0
7	ज़ुहैर	4	19.0	20.0	17	21	16.0
8	अश्रव्य	1	23.0	19.0	20	15	22.0
9	अश्रव्य	2	24.0	22.0	24	17	21.0
10	अश्रव्य	3	12.0	25.0	19	21	23.0
11	अश्रव्य	4	15.0	20.0	20	20	17.0
12	मिश्ती	1	15.0	22.0	25	22	22.0
13	मिश्ती	2	18.0	21.0	25	24	23.0
14	मिश्ती	3	17.0	18.0	20	25	20.0
15	मिश्ती	4	14.0	20.0	19	20	18.0

अब, आइए निम्नलिखित कोड पर विचार करें:

# सभी यूनिट टेस्टों में रमन द्वारा प्राप्त अंक
>>>dfRaman=df[df.Name==‘Raman’]

# inplace=true मूल डेटाफ्रेम में बदलाव करता है #यहाँ dfRaman
>>>dfRaman.dropna(inplace=True,how=‘any’)
>>>dfMaths = dfRaman[‘Maths’] # गणित में प्राप्त अंक प्राप्त करें
>>>print("\nरमन द्वारा गणित में प्राप्त अंक \n",dfMaths)

रमन द्वारा गणित में प्राप्त अंक

0 $\quad$ 22.0
1 $\quad$ 21.0
2 $\quad$ 14.0
3 $\quad$ NaN
नाम: Maths, dtype: float64

>>>row = len(dfMaths)
>>>print("\nPercentage of Marks Scored by Raman in Maths\n")
>>>print(dfMaths.sum()*100/(25*row),"%")

Percentage of Marks Scored by Raman in Maths
76.0%

ध्यान दें कि dropna का उपयोग करने के बाद dfRaman में पंक्तियों की संख्या 3 है। इसलिए प्रतिशत की गणना 3 इकाई परीक्षाओं में प्राप्त अंकों से की गई है।

3.8.3 लापता मानों का अनुमान

लापता मानों को अनुमान या आकलन द्वारा भरा जा सकता है, जैसे कि लापता मान से ठीक पहले या बाद का मान, उस विशेषता के मानों का औसत/न्यूनतम/अधिकतम आदि। कुछ मामलों में लापता मानों को शून्य (या एक) से प्रतिस्थापित किया जाता है।

fillna(num) फ़ंक्शन का उपयोग लापता मानों को num में निर्दिष्ट मान से प्रतिस्थापित करने के लिए किया जा सकता है। उदाहरण के लिए, fillna(0) लापता मान को 0 से प्रतिस्थापित करता है। इसी तरह fillna(1) लापता मान को 1 से प्रतिस्थापित करता है। निम्नलिखित कोड लापता मानों को 0 से प्रतिस्थापित करता है और रमन द्वारा विज्ञान में प्राप्त अंकों का प्रतिशत की गणना करता है।

#Marks Scored by Raman in all the subjects across the tests
>>>dfRaman = df.loc[df['Name']=='Raman']
>>>(row,col) = dfRaman.shape
>>>dfScience = dfRaman.loc[:,'Science']
>>>print("Marks Scored by Raman in Science \n\n",dfScience)

Marks Scored by Raman in Science

0 21.0
1 20.0
2 19.0
3 NaN
Name: Science, dtype: float64

>>>dfFillZeroScience = dfScience.fillna(0)
>>>print('\nMarks Scored by Raman in Science with Missing Values Replaced with Zero\n',dfFillZeroScience)

विज्ञान में रमन द्वारा प्राप्त अंक जिनमें लापता मानों को शून्य से प्रतिस्थापित किया गया है

0 $\quad$ 21.0
1 $\quad$ 20.0
2 $\quad$ 19.0
3 $\quad$ 0.0
Name: Science, dtype: float64

>>>print(“विज्ञान में रमन द्वारा प्राप्त अंकों का प्रतिशत\n\n”,dfFillZeroScience.sum()100/(25row),"%")

विज्ञान में रमन द्वारा प्राप्त अंकों का प्रतिशत
60.0%

df.fillna(method=‘pad’) लापता मान को लापता मान से पहले वाले मान से प्रतिस्थापित करता है जबकि df.fillna(method=‘bfill’) लापता मान को लापता मान के बाद वाले मान से प्रतिस्थापित करता है। निम्नलिखित कोड अंग्रेज़ी की इकाई परीक्षा 4 में लापता मान को इकाई परीक्षा 3 के अंकों से प्रतिस्थापित करता है और फिर रमन द्वारा प्राप्त अंकों का प्रतिशत गणना करता है।

>>>dfEng = dfRaman.loc[:,‘Eng’]
>>>print(“अंग्रेज़ी में रमन द्वारा प्राप्त अंक \n\n”,dfEng)

अंग्रेज़ी में रमन द्वारा प्राप्त अंक

0 $\quad$ 21.0
1 $\quad$ 24.0
2 $\quad$ 23.0
3 $\quad$ NaN
Name: Eng, dtype: float64

>>>dfFillPadEng = dfEng.fillna(method=‘pad’)
>>>print(’\nअंग्रेज़ी में रमन द्वारा प्राप्त अंक जिनमें लापता मानों को पिछली परीक्षा के अंकों से प्रतिस्थापित किया गया है\n’,dfFillPadEng)

अंग्रेज़ी में रमन द्वारा प्राप्त अंक जिनमें लापता मानों को पिछली परीक्षा के अंकों से प्रतिस्थापित किया गया है

0 $\quad$ 21.0
1 $\quad$ 24.0
2 $\quad$ 23.0
3 $\quad$ 23.0
Name: Eng, dtype: float64

>>>print(“अंग्रेज़ी में रमन द्वारा प्राप्त अंकों का प्रतिशत\n\n”)
>>>print(dfFillPadEng.sum()100/(25row),"%")

अंग्रेज़ी में रमन द्वारा प्राप्त अंकों का प्रतिशत
91.0%

इस खंड में, हमने लापता मानों को संभालने के विभिन्न तरीकों पर चर्चा की है। लापता मान सूचना की हानि है और किसी अनुमान द्वारा लापता मानों को बदलने से निश्चित रूप से डेटासेट बदल जाएगा। सभी स्थितियों में, डेटा विश्लेषण के परिणाम वास्तविक परिणाम नहीं होंगे, बल्कि वास्तविक परिणामों का एक अच्छा अनुमान होंगे।

3.9 पांडास और मायएसक्यूएल के बीच डेटा का आयात और निर्यात

अब तक, हमने सीधे डेटा दर्ज किया है और एक डेटाफ्रेम बनाया है और सीखा है कि डेटाफ्रेम में डेटा का विश्लेषण कैसे किया जाता है। हालांकि, वास्तविक परिदृश्यों में, हर बार डेटा टाइप या कॉपी-पेस्ट करने की आवश्यकता नहीं होती है। बल्कि, अधिकांश समय डेटा किसी फ़ाइल (टेक्स्ट या csv) या डेटाबेस में उपलब्ध होता है। इस प्रकार, वास्तविक दुनिया के परिदृश्यों में, हमें डेटा को सीधे डेटाबेस से लाकर डेटाफ्रेम में लोड करना होगा। इसे डेटाबेस से डेटा आयात करना कहा जाता है। इसी प्रकार, विश्लेषण के बाद, हमें डेटा को वापस डेटाबेस में संग्रहित करना होगा। इसे डेटाबेस में डेटा निर्यात करना कहा जाता है।

डेटाफ्रेम से डेटा को मायएसक्यूएल डेटाबेस से पढ़ा और उसमें लिखा जा सकता है। ऐसा करने के लिए, pymysql डेटाबेस ड्राइवर का उपयोग करके मायएसक्यूएल डेटाबेस के साथ एक कनेक्शन की आवश्यकता होती है। और इसके लिए, निम्नलिखित कमांड का उपयोग करके ड्राइवर को पायथन वातावरण में स्थापित किया जाना चाहिए:

pip install pymysql

sqlalchemy एक लाइब्रेरी है जो आवश्यक साख प्रदान करके मायएसक्यूएल डेटाबेस के साथ बातचीत करने के लिए उपयोग की जाती है। इस लाइब्रेरी को निम्नलिखित कमांड का उपयोग करके स्थापित किया जा सकता है:

pip install sqlalchemy

एक बार यह इंस्टॉल हो जाने के बाद, sqlalchemy एक create_engine() फ़ंक्शन प्रदान करता है जो इस कनेक्शन को स्थापित करने में सक्षम बनाता है। फ़ंक्शन के अंदर की स्ट्रिंग को कनेक्शन स्ट्रिंग कहा जाता है। कनेक्शन स्ट्रिंग कई पैरामीटरों से बनी होती है जैसे कि डेटाबेस का नाम जिससे हम कनेक्शन स्थापित करना चाहते हैं, यूज़रनेम, पासवर्ड, होस्ट, पोर्ट नंबर और अंत में डेटाबेस का नाम। और, यह फ़ंक्शन इस कनेक्शन स्ट्रिंग के आधार पर एक engine ऑब्जेक्ट लौटाता है। इसके लिए सिंटैक्स नीचे दिया गया है:

engine=create_engine(‘driver://
username:password@host:port/name_of_database’,index=false)

जहां,
Driver = mysql+pymysql
username= mysql का यूज़र नाम (आमतौर पर यह root होता है)
password= MySql का पासवर्ड
port = आमतौर पर हम localhost से पोर्ट नंबर
3306 (डिफ़ॉल्ट पोर्ट नंबर) के साथ कनेक्ट करते हैं
Name of the Database = आपका डेटाबेस

निम्नलिखित उपभागों में, Pandas और MySQL एप्लिकेशनों के बीच डेटा को आयात और निर्यात करना प्रदर्शित किया गया है। इसके लिए, हम इसी पुस्तक के अध्याय 1 में बनाए गए उसी डेटाबेस CARSHOWROOM और तालिका INVENTORY का उपयोग करेंगे।

mysql> use CARSHOWROOM ;
Database changed
mysql> select * from INVENTORY;

CarId	CarName	Price	Model	YearManufacture	Fueltype
D001	कार1	582613.00	LXI	2017	पेट्रोल
D002	कार1	673112.00	VXI	2018	पेट्रोल
B001	कार2	567031.00	सिग्मा1.2	2019	पेट्रोल
B002	कार2	647858.00	डेल्टा1.2	2018	पेट्रोल
E001	कार3	355205.00	5 STR STD	2017	CNG
E002	कार3	654914.00	CARE	2018	CNG
S001	कार4	514000.00	LXI	2017	पेट्रोल
S002	कार4	614000.00	VXI	2018	पेट्रोल

8 पंक्तियाँ सेट में (0.00 सेकंड)

3.9.1 MySQL से Pandas में डेटा आयात करना

MySQL से pandas में डेटा आयात करना मूलतः इस प्रक्रिया को संदर्भित करता है जिसमें MySQL डेटाबेस से एक तालिका को पढ़कर pandas DataFrame में लोड किया जाता है। कनेक्शन स्थापित करने के बाद, डेटाबेस की तालिका से डेटा लाने के लिए हमारे पास निम्नलिखित तीन फ़ंक्शन होते हैं:

pandas.read_sql_query(query, sql_conn)

इसका उपयोग एक SQL क्वेरी (query) को DataFrame में पढ़ने के लिए किया जाता है, create_engine() से लौटाए गए कनेक्शन पहचानकर्ता (sql_conn) का उपयोग करते हुए।

pandas.read_sql_table(table_name,sql_conn)

इसका उपयोग एक SQL तालिका (table_name) को DataFrame में पढ़ने के लिए किया जाता है, कनेक्शन पहचानकर्ता (sql_conn) का उपयोग करते हुए।

pandas.read_sql(sql, sql_conn)

इसका उपयोग या तो एक SQL क्वेरी या SQL तालिका (sql) को DataFrame में पढ़ने के लिए किया जाता है, कनेक्शन पहचानकर्ता (sql_conn) का उपयोग करते हुए।

>>>import pandas as pd
>>>import pymysql as py
>>>import sqlalchemy
>>>engine=create_engine(‘mysql+pymysql://root:smsmb@localhost:3306/CARSHOWROOM’)
>>>df = pd.read_sql_query(‘SELECT * FROM INVENTORY’, engine)
>>>print(df)

	CarId	CarName	Price	Model	YearManufacture	Fueltype
0	D001	कार1	582613.00	LXI	2017	पेट्रोल
1	D002	कार1	673112.00	VXI	2018	पेट्रोल
2	B001	कार2	567031.00	Sigma1.2	2019	पेट्रोल
3	B002	कार2	647858.00	Delta1.2	2018	पेट्रोल
4	E001	कार3	355205.00	5STR STD	2017	CNG
5	E002	कार3	654914.00	CARE	2018	CNG
6	S001	कार4	514000.00	LXI	2017	पेट्रोल
7	S002	कार4	614000.00	VXI	2018	पेट्रोल

3.9.2 पांडास से माइएसक्यूएल में डेटा एक्सपोर्ट करना

पांडास से माइएसक्यूएल में डेटा एक्सपोर्ट करना मूलतः उस प्रक्रिया को संदर्भित करता है जिसमें एक पांडास डेटाफ्रेम को माइएसक्यूएल डेटाबेस की एक टेबल में लिखा जाता है। इस उद्देश्य के लिए, हमारे पास निम्नलिखित फ़ंक्शन है:
pandas.DataFrame.to_sql(table,sql_conn,if_exists=“fail”,index=False/True)

Table उस टेबल का नाम निर्दिष्ट करता है जिसमें हम DataFrame के मान बनाना या जोड़ना चाहते हैं। इसका उपयोग निर्दिष्ट DataFrame को उस टेबल में लिखने के लिए किया जाता है जिसका कनेक्शन पहचानकर्ता (sq1_conn) create_engine() से लौटाया गया है।
पैरामीटर if_exists यह निर्दिष्ट करता है कि “DataFrame से डेटा टेबल में किस तरह दर्ज किया जाना चाहिए। इसके निम्नलिखित तीन मान हो सकते हैं: “fail”, “replace”, “append”.

o “fail” डिफ़ॉल्ट मान है जो इंगित करता है कि यदि टेबल पहले से डेटाबेस में मौजूद है तो ValueError आएगी।

o “replace” निर्दिष्ट करता है कि टेबल की पिछली सामग्री को DataFrame की सामग्री से अद्यतन किया जाना चाहिए।

o “append” निर्दिष्ट करता है कि DataFrame की सामग्री को मौजूदा टेबल में जोड़ा जाना चाहिए और जब अद्यतन किया जाए तो प्रारूप समान होना चाहिए (कॉलम नाम क्रम)।

Index - डिफ़ॉल्ट रूप से index True होता है जिसका अर्थ है DataFrame इंडेक्स MySQL टेबल में कॉपी किया जाएगा। यदि False है, तो यह DataFrame इंडेक्सिंग को अनदेखा करेगा।
#Code to write DataFrame df to database

>>>import pandas as pd
>>>import pymysql as py
>>>import sqlalchemy
>>>engine=create_engine(‘mysql+pymysql://root:smsmb@localhost:3306/CARSHOWROOM’)
>>>data={‘ShowRoomId’:[1,2,3,4,5],‘Location’:[‘Delhi’,‘Bangalore’,‘Mumbai’,‘Chandigarh’,‘Kerala’]}
>>>df=pd.DataFrame(data)
>>>df.to_sql(‘showroom_info’,engine,if_exists=“replace”,index=False)

इस पायथन स्क्रिप्ट को चलाने के बाद, डेटाबेस में “showroom_info” नाम की एक mysql टेबल बनाई जाएगी।

SUMMARY

वर्णनात्मक सांख्यिकी का उपयोग दिए गए डेटा का मात्रात्मक सारांश तैयार करने के लिए किया जाता है।
पांडा डेटा के विश्लेषण के लिए कई सांख्यिकीय फ़ंक्शन प्रदान करता है। कुछ फ़ंक्शन हैं $\max ()$, $\min ($ ), mean(), median(), mode(), std(), var() आदि।
सॉर्टिंग का उपयोग डेटा को एक निर्दिष्ट क्रम में व्यवस्थित करने के लिए किया जाता है, अर्थात् या तो आरोही या अवरोही।
डेटाफ्रेम में किसी पंक्ति या स्तंभ के इंडेक्स या लेबल को बदला जा सकता है। इस प्रक्रिया को इंडेक्स बदलना कहा जाता है। इस उद्देश्य के लिए दो फ़ंक्शन reset_index और set_index का उपयोग किया जाता है।
लापता मान डेटा विश्लेषण में बाधा हैं और इन्हें ठीक से संभालना चाहिए।
लापता डेटा को संभालने के मुख्यतः दो मुख्य रणनीतियाँ हैं। या तो वह पंक्ति (या स्तंभ) जिसमें लापता मान है, उसे विश्लेषण से पूरी तरह हटा दिया जाता है या लापता मान को किसी उपयुक्त मान से प्रतिस्थापित किया जाता है (जो शून्य या एक या औसत आदि हो सकता है)।
डेटाफ्रेम की संरचना को बदलने की प्रक्रिया को पुनः आकार देना कहा जाता है। पांडा इसके लिए दो बुनियादी फ़ंक्शन प्रदान करता है, pivot() और pivot_table()।
pymysql और sqlalchemy पांडा और माईएसक्यूएल के बीच डेटा के आयात और निर्यात को सुगम बनाने के लिए दो अनिवार्य लाइब्रेरी हैं। आयात और निर्यात से पहले, पायथन स्क्रिप्ट से माईएसक्यूएल डेटाबेस से एक कनेक्शन स्थापित करना आवश्यक होता है।
माईएसक्यूएल से पांडा में डेटा आयात करना उस प्रक्रिया को संदर्भित करता है जिसमें माईएसक्यूएल टेबल या डेटाबेस से डेटा को पांडा डेटाफ्रेम में लाया जाता है।
पांडा से माईएसक्यूएल में डेटा निर्यात करना उस प्रक्रिया को संदर्भित करता है जिसमें पांडा डेटाफ्रेम से डेटा को माईएसक्यूएल टेबल या डेटाबेस में संग्रहित किया जाता है।

अभ्यास

1. MySQL से कनेक्ट करने के लिए python connector यानी pymysql इंस्टॉल करने के लिए स्टेटमेंट लिखें।
2. pivot() और pivot_table() फंक्शन के बीच अंतर समझाइए।
3. sqlalchemy क्या है?
4. क्या आप एक DataFrame को कई कॉलम के संदर्भ में सॉर्ट कर सकते हैं?
5. Missing values क्या होती हैं? इन्हें हैंडल करने की रणनीतियाँ क्या हैं?
6. निम्नलिखित पदों को परिभाषित करें: Median, Standard Deviation और variance।
7. MODE शब्द से आप क्या समझते हैं? इसे कैलकुलेट करने के लिए कौन-सा फंक्शन यूज़ किया जाता है?
8. Data aggregation का उद्देश्य लिखें।
9. GROUP BY की अवधारणा को एक उदाहरण की मदद से समझाइए।
10. MySQL डेटाबेस से DataFrame में डेटा पढ़ने के लिए आवश्यक स्टेप्स लिखें।
11. डेटा के reshaping के महत्व को एक उदाहरण के साथ समझाइए।
12. डेटा एनालिसिस में estimation एक महत्वपूर्ण अवधारणा क्यों है?
13. दी गई टेबल: Product मानते हुए, निम्नलिखित के लिए python कोड लिखें:

Item	Company	Rupees	USD
TV	LG	12000	700
TV	VIDEOCON	10000	650
TV	LG	15000	800
AC	SONY	14000	750

a) ऊपर दी गई टेबल के लिए data frame बनाने के लिए।

b) data frame में नई rows जोड़ने के लिए।

c) LG TV की maximum price डिस्प्ले करने के लिए।

d) सभी products का योग डिस्प्ले करने के लिए।

e) Sony products के USD का median डिस्प्ले करने के लिए।

f) Rupees के अनुसार डेटा को सॉर्ट करना और उसे MySQL में ट्रांसफर करना।

g) नए डेटाफ्रेम को नए मानों के साथ MySQL में ट्रांसफर करना।

14. दिए गए डेटासेट के आधार पर निम्नलिखित प्रश्न के लिए पायथन स्टेटमेंट लिखें:

	Name	Degree	Score
0	Aparna	MBA	90.0
1	Pankaj	BCA	NaN
2	Ram	M.Tech	80.0
3	Ramesh	MBA	98.0
4	Naveen	NaN	97.0
5	Krrishnav	BCA	78.0
6	Bhawna	MBA	89.0

a) उपरोक्त डेटाफ्रेम बनाना।

b) प्रत्येक स्ट्रीम में डिग्री और अधिकतम अंक प्रिंट करना।

c) NaN को 76 से भरना।

d) इंडेक्स को Name पर सेट करना।

e) प्रत्येक छात्र के नाम और डिग्री अनुसार औसत अंक प्रदर्शित करना।

f) MBA में छात्रों की संख्या गिनना।

g) BCA के मोड अंक प्रिंट करना।

ओपन डेटासेट पर आधारित हल किया गया केस स्टडी

UCI डेटासेट खुले डेटासेट का एक संग्रह है, जो प्रयोग और अनुसंधान उद्देश्यों के लिए जनता के लिए उपलब्ध है। ‘auto-mpg’ एक ऐसा ही खुला डेटासेट है।

इमें शहर में ऑटोमोबाइल्स द्वारा ईंधन खपत से संबंधित डेटा होता है। खपत को मील प्रति गैलन $(\mathrm{mpg})$ में मापा जाता है, इसलिए डेटासेट का नाम auto-mpg है। डेटा में 398 पंक्तियाँ (जिन्हें आइटम या इंस्टेंस या ऑब्जेक्ट भी कहा जाता है) और नौ कॉलम (जिन्हें विशेषता भी कहा जाता है) हैं।

विशेषताएँ हैं: $\mathrm{mpg}$, cylinders, displacement, horsepower, weight, acceleration, model year, origin, car name। तीन विशेषताएँ—cylinders, model year और origin—श्रेणीबद्ध मान रखती हैं, car name एक स्ट्रिंग है जिसमें प्रत्येक पंक्ति के लिए एक अद्वितीय मान है, जबकि शेष पाँच विशेषताओं में संख्यात्मक मान हैं।

यह डेटा UCI डेटा रिपॉजिटरी से डाउनलोड किया गया है जो http://archive.ics.uci.edu/ $\mathrm{ml} /$ machine-learning-databases/auto-mpg/ पर उपलब्ध है।

डेटा का विश्लेषण करने के लिए निम्नलिखित अभ्यास हैं:

auto-mpg.data को एक DataFrame autodf में लोड करें।
उत्पन्न DataFrame autodf का विवरण दें।
DataFrame autodf की पहली 10 पंक्तियाँ प्रदर्शित करें।
वे विशेषताएँ खोजें जिनमें missing values हैं। missing values को निम्नलिखित दो तरीकों से संभालें:

i. missing values को उससे पहले आए मान से प्रतिस्थापित करें।

ii. original dataset से वे पंक्तियाँ हटा दें जिनमें missing values हैं

वह कार जिसने अधिकतम mileage दी, उसका विवरण प्रिंट करें।
दिए गए cylinders की संख्या के आधार पर कार का औसत displacement ज्ञात करें।
एक कार में cylinders की औसत संख्या क्या है?
उन कारों की संख्या निर्धारित करें जिनका weight औसत weight से अधिक है।