第一章 Excel与数据格式#
1.数据缘何而来#
Execel是我们常见的用来进行数据处理的工具,其中Excel文件主要包含有2种格式分别是xls
或xlsx
,xls
和xlsx
主要区别如下:
因此,推荐大家使用最新版本的Excel或者WPS进行相关的学习与操作。
1.1 了解Excel#
Excel文每个数据文件叫做工作簿,每个工作簿里面含有多个工作表,每个工作表里面的格子叫做单元格。
在Excel中点击新建文档后,Excel默认的文档名称是工作簿1,也就是一个Excel文档,就是一个工作簿
在新建的工作簿中,可以看到左下方有Sheet1
的标签,每个工作簿里面可以含有多个工作表,Excel表中最大支持255个工作表
单元格就是工作表中间每一个格子
在Excel最上方是工具栏,如果希望在Excel中导入第三方插件,可以点击文件
–>选项
–>自定义功能区
点击右侧的√,即可导入相关模块
1.2 Excel存储格式#
Excel中的数据可以存储为不同的类型格式,其中常用的存储类似分别是xlsx、csv以及txt,一般情况下,csv文件采用是逗号分隔,txt文件采用的是制表符作为分隔,例如data/chap1/Titanic_normal.csv
和data/chap1/Titanic_tab.txt
,而在较为特殊的情况下,数据的分隔符合可能不是常规的分隔符合,例如data/chap1/Titanic_special.txt
,使用记事本打开这个文件发现文件采用|
作为分隔的符合,那么这样的文件如何使用Excel打开呢?
这里推荐大家使用以下的操作方案,操作路径为菜单栏选择:数据–>获取和转换数据–>从文件/CSV
点击加载后可以看到我们导入的数据集,接着按快捷键ctrl+s
保存工作簿到本地。
至此我们已经成功加载数据集到工作表当中,需要注意的是此时构建的数据表跟原始数据是存在连接关系,更改csv文件的数据后在点击路径:设计-外部表数据-刷新后就可以更新工作表数据。如果要取消链接关系则点击路径:设计-外部数据表-取消链接即可。
2.Excel数据格式#
2.1 单元格数据类型#
打开data/chap1/2.1.xlsx
文件,点击【单元格数据类型】工作表,可以看到Excel有11种数据类型
在平时工作和学习中常见的数据类型有3种分别是数字、文本和日期,接下来就详细讲解这3种格式的相关应用
2.1.1 数字#
数值是单元格最常见的数据之一,12位数的时候会以科学计数法显示。
打开data/chap1/2.1.xlsx
文件,点击【真假数字】工作表看到展示的是真假数值列,真数值默认情况下是右对齐(方便观测数据位数),假数值是数值型文本属于文本,左上角会有个绿色三角错误检查,当数据是文本时,无法完成数字运算操作。
Excel会自带数据纠错功能,点击黄色感叹号可以看到,将文本转出数字,或者使用=VALUE()
函数将文本转成数字
2.1.3 日期#
Excel中的标准日期由年月日组成的数据,例如2021/1/1
,同时日期又是很特殊的数值,在Excel里面日期最早是1900年1月1日,对应的数值为1,通过两日期相减可以得到日期相差的天数。需要注意的是如果是2021-01-01
的数据就要看是否实际数据为'2021/1/1'
,否则为文本型日期,需要进行转换才行。观察下图真假日期,可以发现真日期右对齐,假日期左对齐(内容跟显示的一致),真日期转格式可以看到单元格数据仍然是真日期格式(内容跟显示不一致)。
练习#
使用Excel数据导入功能,完成
data/chap1/Titanic_normal.csv
和data/chap1/Titanic_train.txt
数据导入完成
data/chap1/2.1.xlsx
中案例1-4中的问题