从0到1掌握数据库-Task-02

第二章

基础查询 SELCT

语句的基本结构如下

1
2
3
SELECT <目标列名>
FROM <一个或多个表>
WHERE <选取数据的条件>

其中 SELECTFROM 是必须要有的 WHERE 条件可以没有。

相关规则

阅读更多

从0开始学SQL

第一章

初识数据库

首先要了解什么是数据库

数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。
用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。

除此之外,还会有数据库系统(Database System,DBS)。DB是一种数据集合,DBMS是管理系统,一种计算机软件,DBS就是由DBMS和DB以及其他的的硬件软件组成的一个整体。

阅读更多

动手学数据分析 Task-02

第二章: 数据清洗及特征处理

第一节

观察处理缺失值

数据集中含有缺失值是很正常的,常见的几个对缺失值的处理方法有:

  1. 忽略
  2. 删除
  3. 填充

在第一章中通过.info()方法观察到Age, Cabin,Embarked三列数据有缺失值,利用isnull().sum()统计一下三个特征中缺失值的数量得到

  • Age中有177个缺失值,Cabin中有687个缺失值,Embarked中有2个缺失值

缺失值对数据的影响是比较大的所以不可以忽略,对于Age中的177个缺失值可以采用填充的方法。对于Cabin,一般当缺失值的数量大于50%的时候不会采取填充的方法,所以只能删除这个特征。对于Embarked来说,只有2个缺失值,采取填充的方法会更好一些。
填充的数值一般有几个方法来确定

阅读更多

动手学数据分析 Task-01

第一章: 数据载入及初步观察

第一节

载入数据

首先将数据集载入
数据集来源 https://www.kaggle.com/c/titanic/overview

此时要用到python中的pandas来帮助读取数据。而常用的的两种引入数据的方式为:
read_csvread_table
这两种方式有什么区别。执行以下代码来看一下

1
2
3
4
5
6
7
8
9
10
import pandas as pd

def load_data():
return pd.read_csv("train.csv"), pd.read_table("train.csv")

if __name__ == '__main__':
csv, table = load_data()
print(csv.head())
print(table.head())
print(table.head().shape)

分别用两种方式读取数据集,然后打印前五行

阅读更多