Please enable JavaScript.
Coggle requires JavaScript to display documents.
AI Basic - Coggle Diagram
AI Basic
1.2. Email Overview:
- 傳統的信作開場 (信紙、信封)
- RFC2822
- 每個人都有 email 吧? email viewer 上是這樣,但實際上是長這樣喔 -> 從 gmail 挑一個範例 -> 這就是一個email的格式,全部的祕密就在這:
- header: sub, from , to date, reply-to, receive(evpfrom, ip)
- body: content(url在裡面), att (virus)
- email example: gmail, 我們家 ,hotmail,yahoo
- URL 也屬於 email的一部分,需要對URL 格式作介紹 (斟酌是否增加從 email parsing 出 url 的作法)
1.3 Data 的重要性
- Data 是ML的燃料
- Data必須乾淨的被存放、沒有錯誤 (garbage in garbage out)
- 一致性、正確性
- 資料存放蒐集的欄位,最好需要多人討論,需要 domain knowledge
- 資料 source 可以是第三方, 合作夥伴
- cello 當時 製造、蒐集 data ,需要解析郵件
- cello 人工 Tagging (email, spf-domain check)
- 後續章節會提及資料處理的實作 (data preprocessing)
1.1 開場
Why ML ?? 可以幹嘛
- People are lazy
- People make mistake
- 業界實際應用
什麼樣的問題可以依賴 ML
- 有差異化、人無法定義規則
- 定的目標明確、不主觀、必須有客觀答案
基本觀念, 與 實際在座的做連結
- Repetive or similarity problem
- Objectvice
問題的 target 有哪些種類
1. supervisor
1.1. True / False, binary -> phishing classify
1.2. Multi-class -> Spam, EDM種類
1.3. Regression -> URL2. unsupervisor
ML好像很棒,什麼問題都丟給他??
- Enterprice Solution (ML is not only Soulution, sometimes rule-based is enough)
- 6:30前打卡下班就算早退,用個 if-else 就行了,不用 ML
Cello Production 架構
1.4 如何自我訓練、學習:
- kaggle,
- 學校不會教你太多怎麼處理資料 (與業界相比)
- 處理資料需要專業知識
- 光資料處理可能就耗掉半年一年
- 找到資料分析有興趣的人 ,統計後要做決策
- ML 很重要的就是自動化
- ML 產出 Model 後需要run 服務
- 課程後面會建立 ML服務 以及 Model 更新
- 簡單的 production 環境
Ex1.1 資料儲存
- Dense
- Sparse
- csv
- database
Ex1. 以 email 裡的 URL 為例
- 準備素材(正常+釣魚個一千佳節圖)
- Forensic Sciences -> 搞清楚釣魚
- 釣魚網址喜歡放 email address -> demo 登入圖片
- 特徵該怎麼找?
- observation
- use domain knowledge to experiment
- 巨人的肩膀 (google scholar)
- 特徵抽取(email -> url)
- // -> \
- base attack
- HTML escape
- 特徵抽取 (url -> array)
- 特徵工程
- 可用缺失 http 作為 missing value
- 資料型態 (數值, 類別, 時間序列)
pandas + matplotlib 在此的騷操作Cello 還有更秋的 CPD 但不會跟你們講
enviroment: python -> virtualenv (py3 is good)
- linux -> vir
- windows -> anaconda
- GCP coda
- Classification
- Regression
- supervise
- semi-supervise
- unsupervise
- 特徵選擇 (optional)
-
Data training, test, cv
- overfit
- cv params
- 資料 Dimension <-> 資料數量
入門
hh 開講
- env
- text data
- NLP
- cut
- bag
- tfidf
- word2vec (NN)
-
EX2. 已結構化的資料 -> logistic Reg, DT, RF
perceptron -> logi -> dt -> cart -> RF
-
- Experiment -> Production (0.5天)
Ex5. predict service
- Model API Service
- Model Update
- 寫寫你出什麼包
- 某些服務是用 batch predict
-
- Company
- CloudTeam
- H2 max john cathy ..