Tổng hợp 45 câu hỏi môn khai thác dữ liệu

Tổng hợp 45 câu hỏi trắc nghiệm môn học Khai Thác Dữ Liệu chuyên ngành Công nghệ thông tin. Hy vọng sẽ giúp ích các bạn trong việc ôn tập và trong các kì thi sắp tơi.

Trang 1

Câu hỏi 2

Đúng

Đạt điểm 1,00 trên 1,00

Đặt cờ Đoạn văn câu hỏi

Trong danh sách sau, thao tác nào không được cho là thao tác khai thác dữ liệu : 1 Frequent pattern mining

2 Regression 3 Data warehousing 4 Clustering Select one:

a 3 b 2 c 2 và 3 d 1

Câu hỏi 3

Đúng

Bài toán tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được gọi là Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài toán?

Select one:

a Data Pre-processing b Clustering

Trang 2

Câu hỏi 4

Đúng

Bài toán dẫn xuất ra mô hình từ tập dữ liệu huấn luyện được gán nhãn được gọi là Select one:

a Học có giám sát (supervised learning) b Học không giám sát (unsupervised learning) c Học tăng cường (reinforcement learning) d Tất cả các câu còn lại đều sai

Câu hỏi 5

Đúng

Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa trên những dữ liệu đã biết trước?

Select one:

Trang 3

Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu? Select one:

a Tồn tại nhiễu dữ liệu b Dữ liệu thiếu sót

c Xuất hiện trùng lặp dữ liệu d Câu a, b, và c đúng e Chỉ câu a và b đúng

Câu hỏi 8

Đúng

Đạt điểm 1,00 trên 1,00 Đặt cờ

Đoạn văn câu hỏi

Câu hỏi 6

Đúng

Một trang web thương mại điện tử muốn tăng cường thêm tính năng gợi ý cho khách hàng các món hàng nên mua cùng nhau sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?

Select one:

c Classification

d Frequent Pattern Mining

Trang 4

Cho dataset như hình, cho biết số chiều (dimension) và kích thước (size) của dataset?

Select one:

a Số chiều dữ liệu là 5, Kích thước dữ liệu là 10 b Số chiều dữ liệu là 10, Kích thước dữ liệu là 5 c Số chiều dữ liệu là 2, Kích thước dữ liệu là 10

Trang 5

Câu hỏi 9

Đúng

Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu B của bảng dữ liệu sau:

d Số chiều dữ liệu là 1, Kích thước dữ liệu là 5

Trang 6

Cho dataset như hình, cho biết thuộc tính nào có dạng

Ordinal

Select one:

Trang 7

a Taxable Income b Refund

Các mệnh đề nào sau đây đúng với khái niệm sampling Select one:

a Sampling là kỹ thuật chính cho thao tác chọn dữ liệu (data selection)

b Sử dụng sampling vì lý do thao tác trên toàn bộ tập dữ liệu là tốn kém và mất nhiều thời gian c Dùng kết quả sampling để khai thác sẽ cho kết quả tương đương với dùng toàn bộ dataset nếu thực hiện sampling hợp lý

d Các câu còn lại đều đúng

Đúng

Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu?

Trang 8

Câu hỏi 14

Đúng

Giải thuật nào sau đây được xếp vào nhóm học không giám sát (unsupervised learning)? Select one:

a Linear Regression b ID3 Decision Tree c K-Means

Case-based learning là gì? Select one:

a Là giải thuật học máy để tìm sự phân lớp tối ưu cho một tập dữ liệu mẫu dựa trên lý thuyết xác suất

b Là giải thuật học máy để giới hạn không gian tìm kiếm cho một giả thiết

c Là một hướng tiếp cận để thiết kế giải thuật học máy lấy ý tưởng từ việc con người gặp tình huống mới thì sẽ diễn giải tình huống mới bằng cách tham chiếu đến các tình huống đã xảy ra trước đó d Không có câu nào đúng

Đúng

Đặt cờ

Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các mục quảng cáo của khách viếng thăm Đây là dạng bài toán:

Select one:

a Data Pre-processingb Clustering

c Classification d Data Visualization

Đúng

Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu?

Trang 9

Trong Naive Bayes, các giá trị xác suất được xác định bằng cách nào? Select one:

a Là các tham số nhập vào từ người dùng

Đặt cờ

Giải thuật nào sau đây là giải thuật xây dựng m ô hình phân lớp dựa trên cây quyết địnhSelect one:

a Hunt’s Algorithm b CART

c C4.5

d Tất cả đều đúng

Trang 10

b Được ước lượng từ tập dữ liệu huấn luyện c Được ước lượng từ tập dữ liệu kiểm tra

d Được gán giá trị mặc định và giải thuật tự điều chỉnh sau khi đánh giá kết quả

Đúng

Cho Confusion Matrix như sau:

Cho số lượng trường hợp bộ phân lớp cho kết quả sai? Select one:

a 15 b 50 c 110 d 105

Trang 11

Mô tả nào sau đây đúng cho khái niệm "overfitting"?Select one:

a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đoán sai.

b Khi mô hình học quá phức tạp dẫn đến thực thi chính xác trên tập dữ liệu huấn luyện nhưng nhiều dự đoán sai trên tập dữ liệu kiểm tra

c Khi mô hình học quá phức tạp dẫn đến thời gian thực thi lớn nhưng có kết quả chính xác.d Tất cả các câu còn lại đều sai

Mô hình cây quyết định rơi vào tình huống overfitting nghĩa là? Select one:

a Cây có cấu trúc phức tạp b Cây có cấu trúc đơn giản c Cây có nhiều node lá d Tất cả đều sai

Trang 12

Mệnh đề nào đúng về độ đo F-score cho mô hình phân lớp Select one:

a F-Score càng lớn thì bộ phân lớp càng tốt b F-Score càng bé thì bộ phân lớp càng tốt

c F-Score không tính được cho bộ phân lớp nhị phân d Tất cả đều sai

Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra? Select one:

a Node lá

b Node trung gian

Mô hình học máy nào được gọi là lazy-learning? Select one:

a KNN b K-Means c Naive Bayes d Tất cả đều đúng

Trang 13

c Tất cả đều sai d Tất cả đều đúng

Đúng

Mô tả nào sau đây đúng cho khái niệm "underfitting" Selectone:

a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đoán sai

Đúng

Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu? Select one:

a 0 b 1 c 2 d 3 e k

Trang 14

DBSCAN là giải thuật phân vào nhóm: Select one:

a Clustering b Classification

c Association rule discovery d Tất cả đều đúng

Trong giải thuật gom cụm theo mật độ DBSCAN, khái niệm mật độ được mô hình hóa như thế nào? Select one:

a Qua tham số mô tả số điểm tối thiểu trong một bán kính cho trước b Qua tham số mô tả số điểm tối đa trong một bán kính cho trước

c DBSCAN tự phát hiện số cụm cùng mật độ của nó d Tất cả đều sai

Trang 15

DBSCAN cần cho biết số cụm trước khi thực thi? Hãy chọn một:

Đúng Sai

Chỉ ra mệnh đề sai về K-Means Select

Trường hợp nào sau đây K-Means không cho kết quả tốt 1 Dữ liệu có ngoại biên (outlier)

2 Dữ liệu có mật độ phân bố thay đổi 3 Dữ liệu phân bố theo hình tròn

4 Dữ liệu phân bố theo dạng hình không lồi (non-convex) Select one:

a 1 và 2 b 2 và 3 c 3 và 4 d 1, 2, và 3 e 1, 2, và 4

Trang 16

K-Means thuộc giải thuật học máy Selectone:

a Có giám sát (supervised learning)Supervised b Không có giám sát (unsupervised learning) c Tất cả đều sai

Đúng

Đạt điểm 1,00 trên 1,00 Đoạn văn câu hỏi

Giải thuật K-Means yêu cầu điều gì? Select one:

a Số cụm cho trước

b Độ đo khoảng cách định nghĩa trước c Trung tâm cụm khởi tạo trước d Tất cả các ý còn lại

Trang 17

DBSCAN cho phép tìm mật độ phân bố của các điểm dữ liệu trong tập dữ liệu?

Hãy chọn một: Đúng Sai

Đúng

Nếu biết support của Itemset {a, b, c} là 99, hãy chobiết giá trị nào sau đây chắc chắn không phải support của itemset {a, b} :

Select one: a 98 b 99 c 100

d Tất cả đều sai

Đúng một phần Đạt điểm 0,33 trên 1,00

Đúng

Điều kiện dừng của giải thuật K-Means có thể là: Select one or more:

a Sau một số lần lặp định trước b Việc phân cụm không thay đổi c Các trung tâm cụm không thay đổi

d Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước

Trang 18

Câu hỏi 38

Đúng

Nếu biết support của Itemset {a, b} là 99, hãy cho biết giá trị nào sau đây chắc chắn không phải support của itemset {a, b, c} :

Select one: a 98 b 99 c 100

Trang 19

Câu hỏi 39

Đúng

Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập phổ biến và luật kết hợp trên cho dataset sau:

T_id Itemlist

T1 {A, B, D, F} T2 {A, B, C, D, E} T3 {A, B, C, E} T4 {A, B, D}

Cho biết kích cỡ itemsets lớn nhất có thể tìm được là bao nhiêu? Select one:

a 3 b 2 c 1 d 4

Đúng

Giải thuật khai thác mẫu phổ biến? Select one:

a Apriori b FP-Grownth c ECLAT

Trang 20

Câu hỏi 41

Đúng

Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp? Select one:

a Ngưỡng hỗ trợ MinSup b Ngưỡng tin cậy MinConf c Số điểm tối thiểu MinPTs d câu a và b

Đúng

Cho một tập dữ liệu và một ngưỡng hỗ trợ minSup Gọi A là số lượng frequent itemset,

B là số lượng closed frequent itemsets, C là số lượng max frequent itemsets tìm được Cho biết mệnh đề nào sau đây là đúng:

Select one:

a A >= B >= C b A <= B <= C c A <= C <= B

d Tất cả các giải thuật trên

Trang 21

Đúng

Trong khai thác tập phổ biến, nếu một dataset có 99 loại mục (item) thì số tập phổ biến tối đa có thể có là bao nhiêu?

Select one: a 2^99 - 1 b 99 c 100 d 99!

Đúng

Một tập mục (itemset) được gọi là phổ biến nếu: Select one:

a Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước b Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước c Độ hỗ trợ đúng bằng ngưỡng cho trước

Đúng

Đạt điểm 1,00 trên 1,00 Đặt cờ

Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}.

Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C, E}

Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng lặp tiếp theo?

Select one or more: a {A, B, C}

b {B, C, E} c {C, D, E} d {B, C, D} d B <= A <= C