从0到1掌握数据库-Task-02
第二章
基础查询 SELCT
语句的基本结构如下
1 | SELECT <目标列名> |
其中 SELECT
和 FROM
是必须要有的 WHERE
条件可以没有。
语句的基本结构如下
1 | SELECT <目标列名> |
其中 SELECT
和 FROM
是必须要有的 WHERE
条件可以没有。
首先要了解什么是数据库
数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。
用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。
除此之外,还会有数据库系统(Database System,DBS)
。DB是一种数据集合,DBMS是管理系统,一种计算机软件,DBS就是由DBMS和DB以及其他的的硬件软件组成的一个整体。
数据集中含有缺失值是很正常的,常见的几个对缺失值的处理方法有:
在第一章中通过.info()
方法观察到Age, Cabin,Embarked三列数据有缺失值,利用isnull().sum()
统计一下三个特征中缺失值的数量得到
Age
中有177
个缺失值,Cabin
中有687
个缺失值,Embarked
中有2
个缺失值 缺失值对数据的影响是比较大的所以不可以忽略,对于Age中的177个缺失值可以采用填充的方法。对于Cabin,一般当缺失值的数量大于50%的时候不会采取填充的方法,所以只能删除这个特征。对于Embarked来说,只有2个缺失值,采取填充的方法会更好一些。
填充的数值一般有几个方法来确定
首先将数据集载入
数据集来源 https://www.kaggle.com/c/titanic/overview
此时要用到python中的pandas来帮助读取数据。而常用的的两种引入数据的方式为:read_csv
和 read_table
这两种方式有什么区别。执行以下代码来看一下
1 | import pandas as pd |
分别用两种方式读取数据集,然后打印前五行