动手学数据分析 Task-02

第二章: 数据清洗及特征处理

第一节

观察处理缺失值

数据集中含有缺失值是很正常的,常见的几个对缺失值的处理方法有:

  1. 忽略
  2. 删除
  3. 填充

在第一章中通过.info()方法观察到Age, Cabin,Embarked三列数据有缺失值,利用isnull().sum()统计一下三个特征中缺失值的数量得到

  • Age中有177个缺失值,Cabin中有687个缺失值,Embarked中有2个缺失值

缺失值对数据的影响是比较大的所以不可以忽略,对于Age中的177个缺失值可以采用填充的方法。对于Cabin,一般当缺失值的数量大于50%的时候不会采取填充的方法,所以只能删除这个特征。对于Embarked来说,只有2个缺失值,采取填充的方法会更好一些。
填充的数值一般有几个方法来确定

阅读更多

动手学数据分析 Task-01

第一章: 数据载入及初步观察

第一节

载入数据

首先将数据集载入
数据集来源 https://www.kaggle.com/c/titanic/overview

此时要用到python中的pandas来帮助读取数据。而常用的的两种引入数据的方式为:
read_csvread_table
这两种方式有什么区别。执行以下代码来看一下

1
2
3
4
5
6
7
8
9
10
import pandas as pd

def load_data():
return pd.read_csv("train.csv"), pd.read_table("train.csv")

if __name__ == '__main__':
csv, table = load_data()
print(csv.head())
print(table.head())
print(table.head().shape)

分别用两种方式读取数据集,然后打印前五行

阅读更多