BÀI TẬP CÂY QUYẾT ĐỊNH CÓ ĐÁP ÁN

     
vào Data Mining and Business Intelligence...Data Mining & Business Intelligence...(Entire Site)
tra cứu kiếm
sieuthithietbido.com.vn » Data Mining & Business Intelligence » Data Mining và Business Intelligence » Cây đưa ra quyết định (Decision Tree)

*

*

*

Cây đưa ra quyết định với việc phân lớp (Decision Tree with Classification Problem)

Nguyễn Văn Chức – chuc1803gmail.com

1. Reviews về cây quyết định

Cây ra quyết định (Decision Tree) là một cây phân cấp có kết cấu được dùng làm phân lớp các đối tượng dựa vào dãy các luật (series of rules). Những thuộc tính của đối tượng người dùng (ngoại trừ thuộc tính phân lớp – Category attribute) hoàn toàn có thể thuộc những kiểu dữ liệu khác biệt (Binary, Nominal, ordinal, quantitative values) trong khi đó nằm trong tính phân lớp phải tất cả kiểu tài liệu là Binary hoặc Ordinal.Bạn vẫn xem: bài bác tập cây ra quyết định có đáp án

Tóm lại, cho dữ liệu về các đối tượng người dùng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra những luật để tham gia đoán lớp của các đối tượng không biết (unseen data)

Bài viết này chỉ trình bày ứng dụng cây đưa ra quyết định vào giải quyết bài toán phân lớp. Nếu bạn xem xét lý thuyết về xuất bản cây quyết định thế nào (các thuật toán xây dừng cây quyết định), các chúng ta có thể tìm bài viết liên quan các tài liệu khác hoặc đón đọc nội dung bài viết tiếp theo (Building a decision tree using ID3 Algorithm) bên trên http://sieuthithietbido.com.vn/forums/, topic Data Mining và Business Intelligence

Để giúp chúng ta ứng dụng được cây ra quyết định trong việc phân lớp bọn họ cùng bước đầu với ví dụ dưới đây:

Ta có tài liệu (training data) về 10 đối tượng người dùng (người). Mỗi đối tượng được diễn tả bởi 4 ở trong tínhlà Gender, car Ownership, Travel Cost/Km, Income Level và 1 nằm trong tính phân các loại (category attribute) là Transportation mode. Trong số ấy thuộc tính Gender bao gồm kiểu binary, thuộc tính car Ownership gồm kiểu Quantitative integer (0,1), Travel Cost/Km vàIncome Level gồm kiểu tài liệu Ordinal.

Bạn đang xem: Bài tập cây quyết định có đáp án

Tranining data cho thấy sự gạn lọc về loại phương tiện vận chuyển (car, bus, train) của khách phụ thuộc vào 4 ở trong tính đã cho (xem bảng).

Attributes

Classes

Gender

Car ownership

Travel Cost ($)/km

Income Level

Transportation mode

Male

0

Cheap

Low

Bus

Male

1

Cheap

Medium

Bus

Female

1

Cheap

Medium

Train

Female

0

Cheap

Low

Bus

Male

1

Cheap

Medium

Bus

Male

0

Standard

Medium

Train

Female

1

Standard

Medium

Train

Female

1

Expensive

High

Car

Male

2

Expensive

Medium

Car

Female

2

Expensive

High

Car

Dựa vào Training Data sinh hoạt trên, chúng ta cũng có thể tạo ra cây ra quyết định như sau


*

Chú ý rằng trong cây đưa ra quyết định trên, ở trong tính “Income Level” không xuất hiện trong cây bởi vì dựa vào training data sẽ cho, ở trong tính “Travel Cost/Km” sẽ hiện ra cây quyết định tốt dùng để làm phân loại xuất sắc hơn “Income Level”

Làm sao để áp dụng cây đưa ra quyết định trong dự đoán lớp của những dữ liệu không biết

Mục đích chính của cây ra quyết định là dùng để dự đoán lớp (xác định lớp) của các đối tượng không biết (unseen data). Trả sử rằng ta có dữ liệu về 3 tín đồ với những giá trị tài liệu đã biết về các thuộc tính Gender, oto Ownership,Travel Cost/Km, Income Level. Mặc dù ta chưa biết họ đang chọn phương tiện đi lại vận đưa nào (Car, Bus, Train). Trách nhiệm của họ là áp dụng cây quyết định đã chế tạo ra để tham gia đoán (predict) Alex, Buddy và Cherry đang chọn phương tiện đi lại vận gửi nào dựa vào 4 nằm trong tính của họ. Dữ liệu dưới đây còn được gọi là Testing Data.

Person name

Gender

Car ownership

Travel Cost ($)/km

Income Level

Transportation Mode

Alex

Male

1

Standard

High

?

Buddy

Male

0

Cheap

Medium

?

Cherry

Female

1

Cheap

High

?

Chúng ta ban đầu từ node cội của cây (root node) từ ở trong tính Travel Cost/Km, ta thấy rằng nếu như Travel Cost/Km là Expensive thì người này sẽ chọn phương tiện đi lại là Car. Nếu như Travel Cost/Kmlà standard thì họ đang chọn phương tiện đi lại vận đưa là Train. Trường hợp Travel Cost/Km là Cheap thì cây ra quyết định cần tới quý giá của trường Gender của fan đó, trường hợp GenderMale thì lựa chọn Bus, ví như giới tính là Female thì cây quyết định cần soát sổ xem bạn đó gồm sử hữubao nhiêu xe khá (Car Ownership). Giả dụ số xe hơi download là 0 thì người này sẽ chọn xe cộ Bus, trường hợp số xe tương đối sở hữu là 1 trong những thì người này sẽ chọn Train.

Theo cây quyết định trên, các luật (Series of Rules) được hình thành từ cây đưa ra quyết định dùng để tham dự đoán như sau:

Rule 1 : If Travel cost/km is expensive then mode = oto

Rule 2 : If Travel cost/km is standard then mode = train

Rule 3 : If Travel cost/km is cheap & gender is male then mode = bus

Rule 4 : If Travel cost/km is cheap and gender is female và she owns no car then mode = bus

Rule 5 : If Travel cost/km is cheap & gender is female & she owns 1 car then mode = train

Kết trái phân lớp bằng cây ra quyết định như sau:

Person name

Travel Cost ($)/km

Gender

Car ownership

Transportation Mode

Alex

Standard

Male

1

Train

Buddy

Cheap

Male

0

Bus

Cherry

Cheap

Female

1

Train

Cây đưa ra quyết định là một phương pháp phân lớp rất công dụng và dễ dàng hiểu. Tuy nhiên có một số chăm chú khi áp dụng cây đưa ra quyết định trong thi công các mô hình phân lớp như sau:

Hiệu của phân lớp của cây quyết định (Series of Rules) phụ thuộc vào rất mập vào training data. Chẳn hạn cây ra quyết định được tạo ra bởi chỉ số lượng giới hạn 10 samples training data trong lấy ví dụ trên thì kết quả ứng dụng cây quyết định để tham dự đoán những trường hợp khác là không cao (thường training data đề nghị đủ bự và tin cậy) và bởi vậy ta quan trọng nói rằng tập các luật (Series of Rules) được ra đời bở cây đưa ra quyết định trên là tập luật xuất sắc nhất.

Xem thêm: Dàn Ý Lá Lành Dùm Lá Rách (6 Mẫu), Dàn Ý Giải Thích Câu Tục Ngữ Lá Lành Đùm Lá Rách

Có tương đối nhiều thuật toán phân lớp như ID3, J48, C4.5, CART (Classification and Regression Tree),… câu hỏi chọn thuật toán nào nhằm có kết quả phân lớp cao mặc dù thuộc vào rất nhiều yếu tố, vào đó kết cấu dữ liệu tác động rất bự đến công dụng của các thuật toán. Chẳn hạn như thuật toán ID3 và CART cho kết quả phân lớp vô cùng cao đối với các trường tài liệu số (quantitative value) trong khi đó các thuật toán như J48, C4.5 có kết quả hơn đối với các dữ liệu Qualititive value (ordinal, Binary, nominal).

2. Xây dựng quy mô phân lớp bởi cây đưa ra quyết định trong Weka

Trong ví dụ sau đây, tôi sẽ xây dựng dựng mô hình phân lớp (Classification Model) bằng cây ra quyết định trong weka. Dữ liệu được dùng trong lấy ví dụ như này là tệp tin weather.arff có 4 ở trong tính Outlook, Temperature, Humidity, Windy với thuộc tính phân các loại là Play có 2 quý giá là Yes cùng No. Đây là dữ liệu mô tả về khả năng có mang lại sân để chơi thể thao (tennis chẳn hạn) hay là không của những người dân chơi thể thao nhờ vào vào thời tiết.


*

Rule 1: If outlook = “sunny” và humidity

Rule 2: If outlook = “sunny” and humidity > 75 then Play = “no”

Rule 3: If outlook = “overcast” then Play= “yes”

Rule 4: If outlook = “rainy” and windy = TRUE then Play =”no”

Rule 5: If outlook = “rainy” và windy = FALSE then Play =”yes”

Như vậy, cùng với cây ra quyết định được sinh ra bởi vì training data trên, theo Rule 3 ta khẳng định giá trị mang lại trường phân lớp (play) của unseen data bên trên là “yes” (nghĩa là với thời tiết hôm nay là : outlook (overcast), temperature (85), humidity (80), windy (true) thì phần nhiều người sẽ đến sân đùa tennis).

Xem thêm: Lợi Dụng Địa Hình Địa Vật - Bài 7: Lợi Dụng Địa Hình, Địa Vật

áp dụng cây ra quyết định trên sẽ giúp đỡ cho người quản lý dự đoán tài năng đến sân nghịch tennis khách hàng tùy theo thời tiết.

PS. Next topic : Building a decision tree using ID3 Algorithm. All comments please send to chucnv