import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


data = pd.read_csv('data/train.csv')


data.head()


data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


data.columns.map(str.upper)

Index(['PASSENGERID', 'SURVIVED', 'PCLASS', 'NAME', 'SEX', 'AGE', 'SIBSP',
       'PARCH', 'TICKET', 'FARE', 'CABIN', 'EMBARKED'],
      dtype='object')


data = data.rename(columns=str.upper)

data.head()


data.shape

(891, 12)


data.isnull().sum()

PASSENGERID      0
SURVIVED         0
PCLASS           0
NAME             0
SEX              0
AGE            177
SIBSP            0
PARCH            0
TICKET           0
FARE             0
CABIN          687
EMBARKED         2
dtype: int64


data.isna().sum() / len(data.index) * 100

PASSENGERID     0.000000
SURVIVED        0.000000
PCLASS          0.000000
NAME            0.000000
SEX             0.000000
AGE            19.865320
SIBSP           0.000000
PARCH           0.000000
TICKET          0.000000
FARE            0.000000
CABIN          77.104377
EMBARKED        0.224467
dtype: float64


data = data.drop('TICKET', axis=1)

data.head()


deck_list = list()

for cabin in data['CABIN']:
    if type(cabin) == type(np.nan):
        continue
    
    if cabin[0] in deck_list:
        continue
    else:
        deck_list.append(cabin[0])
        
deck_list

['C', 'E', 'G', 'D', 'A', 'B', 'F', 'T']


sample = data.copy()


sample.CABIN = sample.CABIN.fillna(0)

sample.head()


deck_data = list()

for cabin in sample['CABIN']:
    if cabin == 0:
        deck_data.append('Unknown')
        
    elif cabin[0] in deck_list:
        deck_data.append(cabin[0])
        
    else:
        deck_data.append('Unknown')
        
deck_data

['Unknown',
 'C',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'G',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'B',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'C',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'B',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'G',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'G',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'C',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'C',
 'Unknown',
 'C',
 'Unknown',
 'E',
 'C',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'D',
 'Unknown',
 'B',
 'Unknown',
 'C',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'E',
 'Unknown',
 'T',
 'F',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'B',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'D',
 'G',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'B',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'C',
 'C',
 'Unknown',
 'Unknown',
 'E',
 'D',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'C',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'D',
 'F',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'B',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'A',
 'Unknown',
 'E',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'F',
 'C',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'C',
 'C',
 'C',
 'Unknown',
 'Unknown',
 'F',
 'C',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'D',
 'C',
 'B',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'F',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'B',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'E',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'A',
 'Unknown',
 'Unknown',
 'Unknown',
 'D',
 'B',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'C',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'Unknown',
 'B',
 'Unknown',
 'C',
 'Unknown']


sample['DECK'] = deck_data

sample.tail()


data['DECK'] = data['CABIN'].str[0]

data.DECK = data['DECK'].fillna('Unknown')


data.head()


data = data.drop('CABIN', axis=1)

data.tail()


data.NAME.head(10)

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
5                                     Moran, Mr. James
6                              McCarthy, Mr. Timothy J
7                       Palsson, Master. Gosta Leonard
8    Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                  Nasser, Mrs. Nicholas (Adele Achem)
Name: NAME, dtype: object


sample_lam = data.copy()
sample_map = data.copy()
sample_reg = data.copy()


title = sample_lam.NAME.apply(lambda x: x.split('.')[0].split(',')[1])

title

0         Mr
1        Mrs
2       Miss
3        Mrs
4         Mr
       ...  
886      Rev
887     Miss
888     Miss
889       Mr
890       Mr
Name: NAME, Length: 891, dtype: object


sample_lam['TITLE'] = title

sample_lam.TITLE.value_counts()

 Mr              517
 Miss            182
 Mrs             125
 Master           40
 Dr                7
 Rev               6
 Mlle              2
 Major             2
 Col               2
 the Countess      1
 Capt              1
 Ms                1
 Sir               1
 Lady              1
 Mme               1
 Don               1
 Jonkheer          1
Name: TITLE, dtype: int64


def name_split(name) -> str:
    return name.split(',')[1].split('.')[0]

sample_map['TITLE'] = sample_map['NAME'].map(name_split)

sample_map.TITLE.value_counts()

 Mr              517
 Miss            182
 Mrs             125
 Master           40
 Dr                7
 Rev               6
 Mlle              2
 Major             2
 Col               2
 the Countess      1
 Capt              1
 Ms                1
 Sir               1
 Lady              1
 Mme               1
 Don               1
 Jonkheer          1
Name: TITLE, dtype: int64


import re


def get_title(x):
    
    pattern=re.compile('Sir|Mr|Don|Major|Capt|Jonkheer|Rev|Col|Dr|Mrs|Countess|Dona|Mme|Ms|Miss|Mlle|Master',re.I)
    result = pattern.search(x)
    if result:
        return result.group()
    else:
        return str(np.nan)


sample_reg['NAME'].apply(get_title)

0        Mr
1        Mr
2      Miss
3        Mr
4        Mr
       ... 
886     Rev
887    Miss
888    Miss
889      Mr
890      Mr
Name: NAME, Length: 891, dtype: object


sample_reg['TITLE'] = sample_reg['NAME'].str.extract('([a-zA-Z]+)\.',expand=False)

sample_reg.TITLE.value_counts()

Mr          517
Miss        182
Mrs         125
Master       40
Dr            7
Rev           6
Mlle          2
Major         2
Col           2
Countess      1
Capt          1
Ms            1
Sir           1
Lady          1
Mme           1
Don           1
Jonkheer      1
Name: TITLE, dtype: int64


data['TITLE'] = data['NAME'].apply(lambda x: x.split(',')[1].split('.')[0])

data.TITLE.value_counts()

 Mr              517
 Miss            182
 Mrs             125
 Master           40
 Dr                7
 Rev               6
 Mlle              2
 Major             2
 Col               2
 the Countess      1
 Capt              1
 Ms                1
 Sir               1
 Lady              1
 Mme               1
 Don               1
 Jonkheer          1
Name: TITLE, dtype: int64


data = data.drop('NAME', axis=1)

data.head()


data.groupby('TITLE')['AGE'].mean()

TITLE
 Capt            70.000000
 Col             58.000000
 Don             40.000000
 Dr              42.000000
 Jonkheer        38.000000
 Lady            48.000000
 Major           48.500000
 Master           4.574167
 Miss            21.773973
 Mlle            24.000000
 Mme             24.000000
 Mr              32.368090
 Mrs             35.898148
 Ms              28.000000
 Rev             43.166667
 Sir             49.000000
 the Countess    33.000000
Name: AGE, dtype: float64


data[['TITLE', 'AGE']].head()


data.groupby('TITLE')['AGE'].transform('mean')

0      32.368090
1      35.898148
2      21.773973
3      35.898148
4      32.368090
         ...    
886    43.166667
887    21.773973
888    21.773973
889    32.368090
890    32.368090
Name: AGE, Length: 891, dtype: float64


data['AGE'] = data['AGE'].fillna(data.groupby('TITLE')['AGE'].transform('mean'))

print(data['AGE'].value_counts())
print(data.AGE.isnull().sum())

32.368090    119
21.773973     36
24.000000     30
22.000000     27
18.000000     26
            ... 
14.500000      1
70.500000      1
12.000000      1
36.500000      1
74.000000      1
Name: AGE, Length: 92, dtype: int64
0


sample_A = data.copy()
sample_B = data.copy()
sample_C = data.copy()


def age_class(age):
    if age < 20: return 'under20'
    if age < 40: return 'under40'
    if age < 60: return 'under60'
    else: return 'over60'


sample_A['AGE_RANGE'] = sample_A['AGE'].map(age_class)

sample_A['AGE_RANGE'].value_counts()

under40    559
under20    168
under60    138
over60      26
Name: AGE_RANGE, dtype: int64


sample_A.tail()


sample_B['AGE_RANGE']=pd.cut(sample_B['AGE'],[0,19,39,59,100],
                         labels=['under20','under40','under60','over60'])   

sample_B['AGE_RANGE'].value_counts()

under40    559
under20    168
under60    138
over60      26
Name: AGE_RANGE, dtype: int64


sample_B.tail()


sample_C['AGE_RANGE'] = np.digitize(sample_C['AGE'], [20, 40, 60])

range_list = list(sample_C['AGE_RANGE'].unique())
range_list

[1, 2, 0, 3]


range_list.sort()
range_map = dict()

for k, v in zip(range_list, ['under20', 'under40', 'under60', 'over60']):
    range_map[k] = v
    
range_map

{0: 'under20', 1: 'under40', 2: 'under60', 3: 'over60'}


sample_C['AGE_RANGE'] = sample_C['AGE_RANGE'].map(range_map)

sample_C.AGE_RANGE.value_counts()

under40    559
under20    168
under60    138
over60      26
Name: AGE_RANGE, dtype: int64


data['AGE_RANGE'] = data['AGE'].apply(age_class)

data['AGE_RANGE'].value_counts()

under40    559
under20    168
under60    138
over60      26
Name: AGE_RANGE, dtype: int64


data['SEX'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 891 entries, 0 to 890
Series name: SEX
Non-Null Count  Dtype 
--------------  ----- 
891 non-null    object
dtypes: object(1)
memory usage: 7.1+ KB


sample_map = data.copy()
sample_func = data.copy()


sex_map = {'male':0, 'female':1}

sample_map['SEX_NUM'] = sample_map['SEX'].map(sex_map)

sample_map['SEX_NUM'].value_counts()

0    577
1    314
Name: SEX_NUM, dtype: int64


sample_func['SEX_NUM'] = -1

def change_str_to_num(value):
    if value == 'male': return 0
    if value == 'female': return 1
    
sample_func['SEX_MAP'] = sample_func['SEX'].apply(change_str_to_num)

sample_func['SEX_MAP'].value_counts()

0    577
1    314
Name: SEX_MAP, dtype: int64


data['SEX_NUM'] = data['SEX'].map(sex_map)

data['SEX_NUM'].value_counts()

0    577
1    314
Name: SEX_NUM, dtype: int64


data.head()


data = data.drop('SEX', axis=1)

data.tail()


data['FARE'] = data['FARE'].round(0)

data.FARE.value_counts()

8.0      206
7.0       65
26.0      46
13.0      46
10.0      43
        ... 
75.0       1
76.0       1
4.0        1
212.0      1
5.0        1
Name: FARE, Length: 90, dtype: int64


data.columns

Index(['PASSENGERID', 'SURVIVED', 'PCLASS', 'AGE', 'SIBSP', 'PARCH', 'FARE',
       'EMBARKED', 'DECK', 'TITLE', 'AGE_RANGE', 'SEX_NUM'],
      dtype='object')


data["FAMILY_SIZE"] = data.SIBSP + data.PARCH + 1

data.FAMILY_SIZE.value_counts()

1     537
2     161
3     102
4      29
6      22
5      15
7      12
11      7
8       6
Name: FAMILY_SIZE, dtype: int64


data.FAMILY_SIZE = np.digitize(data.FAMILY_SIZE, [3, 7])

data.FAMILY_SIZE.unique()

array([0, 1, 2], dtype=int64)


int_var = data.FAMILY_SIZE.unique()
fam_map = dict()

for k, v in zip(int_var, ['small', 'medium', 'large']):
    fam_map[k] = v
    
fam_map

{0: 'small', 1: 'medium', 2: 'large'}


data['FAMILY_SIZE'] = data['FAMILY_SIZE'].map(fam_map)

data.FAMILY_SIZE.value_counts()

small     698
medium    168
large      25
Name: FAMILY_SIZE, dtype: int64


data[['FARE', 'SURVIVED']].corr()


data[['SEX_NUM', 'SURVIVED']].corr()


data['AGE_RANGE'].value_counts().plot(kind='pie', autopct='%.2f%%')

<AxesSubplot:ylabel='AGE_RANGE'>


pv_tb = data.pivot_table(index='SURVIVED', columns='AGE_RANGE',
                         aggfunc='count')['AGE']

pv_tb.plot(kind='bar', stacked=True)

<AxesSubplot:xlabel='SURVIVED'>


passed_away = data[data['SURVIVED'] == 0]['AGE_RANGE'].value_counts()
survived = data[data.SURVIVED == 1]['AGE_RANGE'].value_counts()

passed_away.name = 'Passed Away'
survived.name = 'Survived'


df_vis = pd.DataFrame([passed_away, survived])

df_vis


df_vis.plot(kind='bar', stacked=True)

<AxesSubplot:>


age_surv = data.pivot_table(index='AGE_RANGE', columns='SURVIVED',
                            aggfunc='count')['AGE']

age_surv.plot(kind='bar', stacked=True)

<AxesSubplot:xlabel='AGE_RANGE'>


fam_surv = data.pivot_table(index='FAMILY_SIZE', columns='SURVIVED',
                           aggfunc='count')['SEX_NUM']

fam_surv.plot(kind='bar', stacked=True)

<AxesSubplot:xlabel='FAMILY_SIZE'>


surv_class = data.groupby('PCLASS')['SURVIVED'].sum()
gone_class = data.groupby('PCLASS')['SURVIVED'].count()

print(surv_class)
print(gone_class)

PCLASS
1    136
2     87
3    119
Name: SURVIVED, dtype: int64
PCLASS
1    216
2    184
3    491
Name: SURVIVED, dtype: int64


gone_class = gone_class.sub(surv_class)
gone_class

PCLASS
1     80
2     97
3    372
Name: SURVIVED, dtype: int64


gone_class = gone_class.rename('PASSED AWAY')

pclass_surv = pd.DataFrame([surv_class, gone_class])

pclass_surv


pclass_surv.plot(kind='bar', stacked=True)

<AxesSubplot:>


data['SIZE_COUNT'] = data['SIBSP'] + data['PARCH'] + 1

data.pivot_table(index='FAMILY_SIZE',columns='SURVIVED',
                aggfunc='count')['SIZE_COUNT'].plot(kind='bar',stacked=True)

<AxesSubplot:xlabel='FAMILY_SIZE'>


data.EMBARKED.isna().sum()

2


data.EMBARKED.value_counts()

S    644
C    168
Q     77
Name: EMBARKED, dtype: int64


data.EMBARKED = data.EMBARKED.fillna('S')

print(data.EMBARKED.count())
print(data.EMBARKED.value_counts())

891
S    646
C    168
Q     77
Name: EMBARKED, dtype: int64


data['EMBARKED_COUNT'] = data['EMBARKED'].map({'S':0, 'C':1, 'Q':2})

data.EMBARKED_COUNT.value_counts()

0    646
1    168
2     77
Name: EMBARKED_COUNT, dtype: int64


data.pivot_table(index='EMBARKED', columns='SURVIVED',
               aggfunc='count')['EMBARKED_COUNT'].plot(kind='bar', stacked=True)

<AxesSubplot:xlabel='EMBARKED'>


data.EMBARKED.value_counts().plot(kind='pie')

<AxesSubplot:ylabel='EMBARKED'>

Pandas Data visualization with matplotlib 판다스 데이터 시각화 (0)	2022.11.12
Pandas Data analysis with Baseball player 판다스 야구 선수 데이터 분석 (0)	2022.11.12
Pandas Data pre-processing 판다스 데이터 전처리 (0)	2022.11.12
Pandas Data Loading 판다스 데이터 적재 (0)	2022.11.05
Pandas DataFrame 판다스 데이터프레임 (0)	2022.11.05

Try to 개발자 EthanJ의 성장 로그

Try to 개발자 EthanJ의 성장 로그

Titanic data pre-processing with pandas 판다스 타이타닉 데이터 전처리 본문

Titanic data pre-processing with pandas 판다스 타이타닉 데이터 전처리

Titanic data pre-processing with pandas
판다스 타이타닉 데이터 전처리

Data 추출¶

Data Set 개요¶

결측치 확인¶

불필요한 변수 제거¶

`CABIN` Data로 유도변수 생성¶

`NAME` Data를 활용해 유도변수 생성¶

`AGE` 결측치 처리¶

`AGE` data를 범주형 data로 변경¶

범주형 data `SEX` column: 연속변수화¶

`FARE` data 정수형 표기

가족구성원 수 `FAMILY_SIZE` column 추가¶

독립변수와 종속변수`SURVIVED`간의 상관관계 도출¶

Data Visualization¶

연령대 `AGE_RANGE`의 비율을 `pie` chart로 시각화¶

나이대`AGE_RANGE`별 생존여부`SURVIVED` 시각화¶

`AGE_RANGE`별 `SURVIVED` 여부 시각화¶

`FAMILY_SIZE`별 `SURVIVED` Bar Chart¶

탑승표 `PCLASS`별 생존자, 사망자 시각화¶

`FAMILY_SIZE`별 생존 비율¶

`EMBARKED` 시각화¶

'CS & DS > Numpy & Pandas' 카테고리의 다른 글

티스토리툴바

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

	PASSENGERID	SURVIVED	PCLASS	NAME	SEX	AGE	SIBSP	PARCH	FARE	CABIN	EMBARKED	DECK
886	887	0	2	Montvila, Rev. Juozas	male	27.0	0	0	13.00	0	S	Unknown
887	888	1	1	Graham, Miss. Margaret Edith	female	19.0	0	0	30.00	B42	S	B
888	889	0	3	Johnston, Miss. Catherine Helen "Carrie"	female	NaN	1	2	23.45	0	S	Unknown
889	890	1	1	Behr, Mr. Karl Howell	male	26.0	0	0	30.00	C148	C	C
890	891	0	3	Dooley, Mr. Patrick	male	32.0	0	0	7.75	0	Q	Unknown

	PASSENGERID	SURVIVED	PCLASS	SEX	AGE	SIBSP	PARCH	FARE	EMBARKED	DECK	TITLE	AGE_RANGE
886	887	0	2	male	27.000000	0	0	13.00	S	Unknown	Rev	under40
887	888	1	1	female	19.000000	0	0	30.00	S	B	Miss	under20
888	889	0	3	female	21.773973	1	2	23.45	S	Unknown	Miss	under40
889	890	1	1	male	26.000000	0	0	30.00	C	C	Mr	under40
890	891	0	3	male	32.000000	0	0	7.75	Q	Unknown	Mr	under40

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

	FARE	SURVIVED
FARE	1.000000	0.257088
SURVIVED	0.257088	1.000000

	SEX_NUM	SURVIVED
SEX_NUM	1.000000	0.543351
SURVIVED	0.543351	1.000000

Try to 개발자 EthanJ의 성장 로그

Titanic data pre-processing with pandas 판다스 타이타닉 데이터 전처리 본문

Titanic data pre-processing with pandas 판다스 타이타닉 데이터 전처리

Titanic data pre-processing with pandas 판다스 타이타닉 데이터 전처리

Data 추출¶

Data Set 개요¶

결측치 확인¶

불필요한 변수 제거¶

CABIN Data로 유도변수 생성¶

NAME Data를 활용해 유도변수 생성¶

AGE 결측치 처리¶

AGE data를 범주형 data로 변경¶

범주형 data SEX column: 연속변수화¶

FARE data 정수형 표기

가족구성원 수 FAMILY_SIZE column 추가¶

독립변수와 종속변수SURVIVED간의 상관관계 도출¶

Data Visualization¶

연령대 AGE_RANGE의 비율을 pie chart로 시각화¶

나이대AGE_RANGE별 생존여부SURVIVED 시각화¶

AGE_RANGE별 SURVIVED 여부 시각화¶

FAMILY_SIZE별 SURVIVED Bar Chart¶

탑승표 PCLASS별 생존자, 사망자 시각화¶

FAMILY_SIZE별 생존 비율¶

EMBARKED 시각화¶

'CS & DS > Numpy & Pandas' 카테고리의 다른 글

티스토리툴바

Titanic data pre-processing with pandas
판다스 타이타닉 데이터 전처리

`CABIN` Data로 유도변수 생성¶

`NAME` Data를 활용해 유도변수 생성¶

`AGE` 결측치 처리¶

`AGE` data를 범주형 data로 변경¶

범주형 data `SEX` column: 연속변수화¶

`FARE` data 정수형 표기

가족구성원 수 `FAMILY_SIZE` column 추가¶

독립변수와 종속변수`SURVIVED`간의 상관관계 도출¶

연령대 `AGE_RANGE`의 비율을 `pie` chart로 시각화¶

나이대`AGE_RANGE`별 생존여부`SURVIVED` 시각화¶

`AGE_RANGE`별 `SURVIVED` 여부 시각화¶

`FAMILY_SIZE`별 `SURVIVED` Bar Chart¶

탑승표 `PCLASS`별 생존자, 사망자 시각화¶

`FAMILY_SIZE`별 생존 비율¶

`EMBARKED` 시각화¶