数据全栈课程，数据分析+数据工程+数据科学~面向澳洲就业,澳洲IT圈微信公众号文章

引言

处于信息时代的我们，已经慢慢习惯能吃到虫子的已不再是早起的鸟儿，而是那些被数据驱动的、早起的鸟儿。大数据时代的来临，主要归功于每一个大企业和商业大家，他们可以收集到最切实可行的见解和结果。例如阿里巴巴、腾讯以及百度这些大公司，都在不断囤积数据，因为他们都知道数据是无价之宝。

文 | 灯泡点灯

编辑 | 灯泡点灯

时长 | 一支烟的时间

课程详情

通过介绍数据工程，数据分析和数据科学带领学生理解数据全栈，了解数据的行业背景，职业前景和职业发展方向，深度了解 DA, DE& DS，并且灵活运跟着导师学习和实战，获得case经验和团队协作经验。

适合人群

想从事数据科学方向工作的有一定基础的IT学生
想获得宝贵项目经验并转方向的在职人员
想通过项目积累经验找相关工作的学生
IT或CS专业毕业生

收费

$4,600（线下早鸟价）$4,800(原价）
$3,500（线上）

形式：小班授课（8人开班）线上直播+线下授课

时长：72hours + career coaching

地点：悉尼(线下)，布里斯班（线上），墨尔本（线上）

课程特色

掌握数据库 DBMS Showflake 数据库
AWS IAM, S3, EC2, ECS, DynamoDB, RedShift,
VPC, Kinesus, lambda
Database Architecture
Data engineering pipeline:ETL, spark 和ETL tool-Matillion
Deliver Value to Business - communication
Data wrangling with Python
Statistical modelling for data analysis
Exploratory data analysis (EDA)
Machine Learning
定制化的Career Coaching
IT匠人社群Networking与内推资

申请职位

BI Developer
Data Analyst
ETL Developer
Database Developer
Junior Data Engineer
Machine Learning engineer
Associate Data Scientist

优惠政策

两人同行各优惠$200
转发本文章优惠 $50

课程大纲

课程设置由三部分组成：

第一部分： Data Engineering (共计36小时）

DBMS - ER Model

Overview of DBMS
Components of DBMS
Database Architecture
Types of Database Model
ER Model: Basic Concepts
ER Model: Creating ER Diagram
ER Model: Generalization and Specialization

项目操作

学生通过on-line research找到可能存在于company, department,employee以及其他entities之间的联系；基于research结果，亲自设计和实现ER图，基于ER图设计数据库以及各个表的详细内容。

可提高学生自学能力，深入了解ER图，完成ER图到数据库的实现。

SQL介绍

SQL Constraints
SQL function
SQL Join
SQL Alias
SQL SET operation
SQL Sequences
SQL Views
SQL Analytical Function

项目操作

学生亲自搭建Snowflake数据库环境，根据源数据设计数据库以及各个表的详细内容，载入数据，并且根据需求完成相应的查询。

可以使学生更加深入了解数据库，并且熟练掌握SQL。

Unix/Linux Shell

学习基础的File Management，Directory Management，File Permission， Environment，Pipes and Filters，Processes Management和Network Communication Utilities。

再通过The vi Editor，scripts，Variables，Arrays，Basic Operators，if…else语句，Loop，Loop Control，Substitution，Quoting Mechanisms，Input/Output Redirections，Functions完整理解shell。

AWS和GitHub学习

Data Engineering Pipeline

Data extraction/ingestion
Data pre-processing
Data Transformation
Data Loading
Data Warehouse
Data visualisation
Data pipeline and automation

项目操作 1

按照商业要求构建数据仓库，建立dimension和fact表；根据所学ETL知识，设计实现数据处理流程。

此目的是让学生深入了解data pipeline的相关知识。

项目操作2

根据所提供数据集，构建表结构，并且完成简单的数据可视化任务。

目的是让学习回顾数据仓库的知识，并且学习使用数据可视化工具，实现简单的数据分析。

第二部分： Data Analysis(共计18小时）

通过学习Evolving production data（Features，Master data，Meta data，Big data），Ad-hoc, external data，和对工具的了解来帮助学员了解我们的目的。

CRoss-Industry Process for Data Mining (CRISP-DM)

Data preparation, exploration

该部分通过几个案例学习帮助更加系统地理解数据分析。

Case 1: which tools boostyour career future

Case 2: Cryptocurrency market

学习怎样Deliver Value to Business，如何成功有效的交流沟通。

Goal
Story telling
Data visualisation
Common pitfall
What users are thinking

Data modeling and manipulation

Machine Learning Model Quadrant
Dataset Split: Training/Test/Validation
Hyperparameters
Pruning- single decision tree - Level of depth - random forest
Measuring Model accuracy and effectiveness
Regression
Time Series
Association Rules
NN
Text Mining
Case3: Link Analysis on blockchain
Futuristic

Case 1: predict customer response

Case 2: segmentation

项目操作

通过旅游航空业数据，分析和预测：航班晚点可能性，各大城市旅客趋势。

在数据集中信息predicitive power有限的情况下，如何扩展数据，推导数据，获得相关第三方数据，这是在生产环境中经常遇到的情况，学员将能获取实战经验同时，获得transferrable skills以及对应复杂项目和不清晰需求的信息，用于工作实践中在数据集中信息predicitive power有限的情况下，如何扩展数据，推导数据，获得相关第三方数据，这是在生产环境中经常遇到的情况，学员将能获取实战经验同时，获得transferrable skills以及对应复杂项目和不清晰需求的信息，用于工作实践中。

第三部分：Data Science(共计18小时）

Data wrangling with Python

Python basics
Regular expressions
Process-based parallelism
Interacting with web
Big data with Python
Project case study

Statistical modelling for data analysis

Introduction to modeling for data science
Data analysis
Regression correlation and clustering
Statistical inference and evaluation
Project case study(market basket analysis – data consolidation and statistical analysis)

Exploratory data analysis (EDA)

Introduction to data exploration and visualization
Analysis of tabular and spatial data
Analysis of relational and textual data
A complete walk through of data exploration process
Project case study

Machine Learning

Statistical learning and how to assessing model accuracy
Linear Model Selection and Regularization
Tree-Based Methods
Feature engineering
Support vector machine
Unsupervised learning
Gradient boosting model deep dive
Time seres modeling
Neural networks
Gonvolutional networks
Project case study

项目操作

通过分析和处理零售行业客户的订单和销售数据，来预测客户下次最可能买入的商品。

此项目非常全面的涵盖了一个数据科学项目最实用的内容：从需求分析做起，一直到数据处理，数据建模，机器建模和可视化。通过这个项目学生基本上可以学习到如何去构建，分析并且处理一个商业中常见到的问题：预测。此项目包含了不止一个数据文件，建模的过程中也涉及到了很多的数据分析和处理，这样也考验了学生如何更好的处理在真实的商业环境中所遇到的问题，学生们在项目中所汲取的经验可以直接被应用到工作中。

面对未来时代的变化，学习一定关于数据分析和科学基础知识和实施被业界认可的项目实习是每一个IT人应具备的要求。

对于想从事数据行业和金融分析的小伙伴，来IT匠人一起做项目，必是帮助你走入正确的入行道路的王牌！