表结构数据¶
使用诸如数据库查询语言、ETL工具、可视化工具等等,来进行处理分析加工的,以字段或记录作为最基本的处理分析加工单位的数据结构。
字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型
度量字段:数值型
维度表:只包含维度信息的表
事实表:既包含维度信息又包含度量信息的表
表结构数据特征¶
1. 以字段或记录作为数据的引用、操作及计算的基本单位的数据。
第一行为标题行,第二行以后称为记录,字段名不能重名,一个字段只能有一种数据类型。
2. 所有字段记录行数相同
方形结构,记录行数相同,存在空值,处理缺失值。
3. 一个表中有且只有一个主键。
物理意义:
单字段主键:由一个字段构成的主键。
多字段联合主键:由多个字段构成的主键。
非空不重复。
定位记录行、字段名+主键值定位具体数值。
多以“xxID”,“xxNo”,“xx编号”等名称命名。
业务意义:
表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开。
确定主键的方法¶
如果直接对数据库中的数据表进行操作,可以通过SQL语句确认数据表的主键字段。
如果间接在其他数据分析平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入到其他平台使用),可以找原数据库中的数据表的设计者咨询主键信息,或是直接查看数据表设计者留下的设计资料来对主键字段进行确认。
通过对数据表的业务意义进行分析,推测主键字段后再用物理手段确认推测的主键字段中的记录值是否能够满足“非空”、“不重复”的要求来对主键字段进行确认。
处理缺失值¶
根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值。
文本型字段¶
影响不大:可以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换。
影响大:向业务人员进行确认后替换,或者与业务人员核实后删除。
数值型字段¶
综合考虑该数值型字段所代表的度量意义,以及针对该数值型字段进行汇总计算的方式,来最终决定对缺失值的具体处理方法。
表结构数据获取方法¶
“应用”表格结构数据
数据源数据->[将数据源数据导出到数据文件]->电子表格支持的数据文件(*.xlsx\*.csv\*.txt)->[应用电子表格工具打开数据文件]->在电子表格工具上使用表格数据结构。
“引用”表结构数据
数据源数据<-用表结构数据分析工具创建与数据源数据间的连接关系<-在表结构数据分析工具上使用表结构数据
关系型数据库管理系统¶
RDBMS:Relational Database Management System 关系型数据库
关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享。
特征:多层级结构、OLTP(On-Line Transaction Processing 联机事务处理过程)、可量化结构化数据、提供大部分数据源、不善于分析
商业智能系统¶
BI:Business Intelligence 商业智能
用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察
特征:强于分析、多功能模块构成、两种主要类型(企业级商业智能系统[大型企业各相关部门]、敏捷型商业智能系统[中小企业或某个大企业的业务部门])、多维数据集(多维数据模型)、所见即所得(数据可视化)
ETL功能¶
将数据从数据源端经过抽取(Extract),清洗转换(Transform),之后加载(Load)到数据仓库。
E-抽取:
创建与不同数据源间的连接关系,对这些数据源中的数据进行“引用”
T-清洗转换:
清洗的主要任务是筛选过滤不完整、错误及重复的数据记录
对“粒度”不一致的数据进行转换。
对业务规则不一致的数据进行转换。
L-加载:
将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用。
数据仓库¶
DW:Data Warehouse 数据仓库
用来存储分析所需要的不同数据源上的所有相关数据信息。
OLAP¶
OLAP:on-Line Analytic Processing 联机分析处理
连接信息孤岛、创建多维数据模型。
表结构数据使用方法¶
表结构数据的横向合并¶
将不同表中的字段信息合并到同一个表中使用。
通过公共字段匹配:拥有相同记录值的字段。
左表与右表:连接命令左侧的表为左表,右侧的表为右表。
连接方向:决定表的主附关系,主要使用“左连接”(左表为主表)\“右连接”(右表为主表)\“内连接”(无主附之分)
对应关系:决定连接结果行数是对应项乘积的结果
E-R图:Entity Relationship Diagram 实体-联系图,多表连接的鸟瞰图
三种连接方式测试¶
利用Python环境下的pymysql对表的三种连接方式进行测试