Please enable JavaScript.
Coggle requires JavaScript to display documents.
กลุ่ม Group 2 แต่ไม่รองใครนะ - Coggle Diagram
กลุ่ม Group 2 แต่ไม่รองใครนะ
ชื่อหัวข้อ (Project Topic)
Adult 50K (True/False)
สมาชิก
สมาชิก (Members) :
นางสาวทศพร นิวัติ
นายรัตนชัย ทีฆะทิพย์สกุล
นายชนม์สวัสดิ์ นาคนาม
แรงบรรดาลใจในการเลือกหัวข้อนี้
เห็นข้อมูลชุดนี้เผยแพร่ เพื่อเสนอ Naive-Bays Decision Tree algorithms เราจึงอยากนำข้อมูลมาลองใช้กับโมเดลที่เราสนใจ 3 ตัวคือ Linear SVC, KNeighbors Classifier และ RandomForest Classifier แล้วเลือก Models ที่ดีที่สุด 1 อันมาใช้ทำนาย
วัตถุประสงค์
เปรียบเทียบโมเดลที่เราสนใจ 3 ตัวคือ Linear SVC, KNeighbors Classifier และ RandomForest Classifier
เลือก Models ที่ดีที่สุด 1 อันมาใช้ทำนายว่าใครสามารถทำเงินมากกว่า 50K
คำถามที่น่าสนใจเกี่ยวกับปัญหา (Interested Questions)
สำรวจความถี่ช่วงอายุใดสามารถทำเงิน 50K ได้มากที่สุด
สำรวจว่าอาชีพใดที่มีสามารถทำเงิน 50K ได้มากที่สุด
สำรวจช่วงอายุของแต่ละเพศที่ส่งผลกับการทำเงินมากกว่า 50K มากที่สุด
สำรวจว่าคนที่อายุตั้งแต่ 30 ปีขึ้นไป ที่สามารถทำเงินมากกว่า 50K จบด้วยวุฒิการศึกษาใดมากที่สุด
ข้อมูลที่จะนำมาวิเคราะห์ (Dataset)
Name: Adult Data Set
From: UCI Dataset
คำอธิบายเกี่ยวกับข้อมูลโดยคร่าว
การสกัดข้อมูลที่ทำโดย Barry Becker จากฐานข้อมูลจากสำมะโนประชากรปี 1994 ใส่ในข้อมูล Adult.csv ของ Barry Becker
แหล่งที่มาของข้อมูล
https://archive.ics.uci.edu/ml/datasets/Adult
กระบวนการ Data Science ทำเราใช้
Collect Data
ดึงข้อมูลจาก Adult.csv
Cleaning Data
จัดการกับค่า " ?" ในบาง Columns โดยเปลี่ยนเป็นค่า np.Nan
Drop row ข้อมูลเป็นที่มีค่า NaN อยู่ในข้อมูล
ลบ Columns: fnlwgt ที่อธิบายไม่ได้ เพราะเจ้าของข้อมูลไม่อธิบาย และเราไม่สามารถเดาได้เลย
Drop Columns Education-num ออกเพราะค่า Education-num เป็นเหมือนเลขบอกว่าอยู่ใน Education ระดับไหน (เช่น grade ของ ม.6 = 12)
เปลี่ยนชื่อ Columns class เป็น 50K
และเปลี่ยนค่าจาก string: ">50K" กับ string:"<=50K"
เป็น Boolean:True , Boolean:False ตามลำดับ
Explore Data & Data Visualize
Model
ทำ Pipeline แปลงข้อมูลที่เป็น String ผ่าน ColumnTransformer โดยใช้ OneHotEncoder