Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data Science Final - Coggle Diagram
Data Science Final
Regression Analysis
การวิเคราะห์การถดถอย (Regression Analysis) เป็นการวิเคราะห์ข้อมูลเพื่อประมาณค่าเชิงตัวเลขของตัวแปรหนึ่งที่ไม่ทราบค่า เรียกว่า ตัวแปรตาม (Dependent Variable) จากตัวแปรที่ทราบค่าเรียกตัวแปรต้น หรือตัวแปรอิสระ (Independent Variable) ของข้อมูลนั้นโดยการศึกษาความสัมพันธ์ระหว่างตัวแปรต้นและตัวแปรอิสระ
-
-
-
-
เป้าหมายของการวิเคราะห์ถดถอย คือ การหาฟังก์ชัน 𝑓 (x𝑖, b) และค่าพารามิเตอร์ของฟังก์ชันที่ทําให้
ความแตกต่างระหว่างจริงและค่าประมาณของตัวแปรตามมีค่าน้อยที่สุด
-
-
Mean Square Error: MSE
เป็นค่าเฉลี่ยของค่ายกกําลังสองของความต่างระหว่างค่าจริงกับค่าประมาณของตัวแปรตามของข้อมูลทดสอบ ทั้งหมด มีหน่วยเป็นค่ากําลังสองของหน่วย ตัวแปรตาม
-
Mean Absolute Error: MAE
เป็นค่าเฉลี่ยของค่าสัมบูรณ์ของความต่างระหว่างค่าจริงกับค่าประมาณของตัวแปรตามของข้อมูลทดสอบทั้งหมด มีหน่วยเช่นเดียวกับหน่วยของตัวแปรตาม
Classification Analysis
การจำแนกประเภทคือการระบุหมวดหมู่ให้กับสิ่งของ คน สัตว์ หรือสิ่งใด ๆ ว่าอยู่ในหมวดหมู่ใด (Categories or Class)
Element of Learning Set
-
-
-
การจำแนกประเภท คือ การเรียนรู้คุณลักษณะจากชุดของ Attributes x และทำการสร้างโมเดลจากคลาสที่มีการ
กำหนดไว้ล่วงหน้าแล้ว (Attribute y) ซึ่งโมเดลที่ได้จะสามารถนำไปจำแนกชุดข้อมูลที่ไม่รู้คลาสได้
-
-
-
-
-
-
-
Naive Bayes
เป็นเทคนิคที่ได้รับความนิยมสำหรับการจำแนกข้อมูล (Classification) ข้อมูลหรือตัวแปรต่างๆ เป็นอิสระต่อกัน
-
กระบวนการเรียนรู้แบบมีผู้สอน โดยการนำหลักการทางสถิติมาคำนวณหาค่าความน่าจะเป็นของคำตอบโดยทฤษฎีเบย์ (Bayes’ Theorem)
ข้อดี
สะดวกง่ายต่อการสร้าง Training model โดยเฉพาะกับข้อมูลที่มีจำนวนคุณลักษณะมากหรือมี Attributes มาก หรือมีข้อมูลขนาดใหญ่
-
-
-
Conditional Probability
-
-
Prior Probability
P(A) ความน่าจะเป็นของ Class A, P(B) ความน่าจะเป็นของ Class B
Players will play if weather is sunny
K-Nearest Neighbor
Lazy Learning
เป็นการเรียนรู้อย่างง่ายโดยใช้การสำรวจชุดข้อมูลสอนแบบคร่าวๆ และจะทำการจำแนกประเภทข้อมูลเมื่อต้องการจำแนกเท่านั้น ซึ่งจะใช้เวลาในการเรียนรู้น้อยแต่เสียเวลาในการจำแนกข้อมูล
-
Eager Learning
ใช้เวลาในการเรียนรู้ และสร้างโมเดล ซึ่งหลังจากการสร้างโมเดลแล้วจะสามารถจำแนกได้ง่ายและรวดเร็ว ตัวอย่างเช่น ต้นไม้ตัดสินใจ ขั้นตอนในการสร้างโมเดลนั้นจะใช้เวลานาน แต่ในขั้นตอนการจำแนกจะใช้เวลารวดเร็ว
K-nearest neighbor
การจำแนกข้อมูลที่เลือกเฉพาะข้อมูลที่มีระยะห่าง 1 กลุ่ม (ใกล้ที่สุด) จะเรียกว่า “1NN (One Nearest Neighbor) ดังนั้น “k-NN” ค่า k จึงเป็นจำนวนของกลุ่มที่ต้องการเลือกเป็นกลุ่มเพื่อนบ้าน โดยควรกำหนดเป็นเลขคี่
-
-
-
-
-