Đang tải... (xem toàn văn)
Tổng hợp 45 câu hỏi trắc nghiệm môn học Khai Thác Dữ Liệu chuyên ngành Công nghệ thông tin. Hy vọng sẽ giúp ích các bạn trong việc ôn tập và trong các kì thi sắp tơi.
Trang 1Câu hỏi 2
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Trong danh sách sau, thao tác nào không được cho là thao tác khai thác dữ liệu : 1 Frequent pattern mining
2 Regression 3 Data warehousing 4 Clustering Select one:
a 3 b 2 c 2 và 3 d 1
Câu hỏi 3
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Bài toán tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được gọi là Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài toán?
Select one:
a Data Pre-processing b Clustering
Trang 2Câu hỏi 4
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Bài toán dẫn xuất ra mô hình từ tập dữ liệu huấn luyện được gán nhãn được gọi là Select one:
a Học có giám sát (supervised learning) b Học không giám sát (unsupervised learning) c Học tăng cường (reinforcement learning) d Tất cả các câu còn lại đều sai
Câu hỏi 5
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa trên những dữ liệu đã biết trước?
Select one:
a Data Pre-processing b Clustering
Trang 3Đặt cờ Đoạn văn câu hỏi
Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu? Select one:
a Tồn tại nhiễu dữ liệu b Dữ liệu thiếu sót
c Xuất hiện trùng lặp dữ liệu d Câu a, b, và c đúng e Chỉ câu a và b đúng
Câu hỏi 8
Đúng
Đạt điểm 1,00 trên 1,00 Đặt cờ
Đoạn văn câu hỏi
Câu hỏi 6
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Một trang web thương mại điện tử muốn tăng cường thêm tính năng gợi ý cho khách hàng các món hàng nên mua cùng nhau sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?
Select one:
a Data Pre-processing b Clustering
c Classification
d Frequent Pattern Mining
Trang 4Cho dataset như hình, cho biết số chiều (dimension) và kích thước (size) của dataset?
Select one:
a Số chiều dữ liệu là 5, Kích thước dữ liệu là 10 b Số chiều dữ liệu là 10, Kích thước dữ liệu là 5 c Số chiều dữ liệu là 2, Kích thước dữ liệu là 10
Trang 5Câu hỏi 9
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu B của bảng dữ liệu sau:
Đoạn văn câu hỏi
d Số chiều dữ liệu là 1, Kích thước dữ liệu là 5
Trang 6Cho dataset như hình, cho biết thuộc tính nào có dạng
Ordinal
Select one:
Trang 7a Taxable Income b Refund
Các mệnh đề nào sau đây đúng với khái niệm sampling Select one:
a Sampling là kỹ thuật chính cho thao tác chọn dữ liệu (data selection)
b Sử dụng sampling vì lý do thao tác trên toàn bộ tập dữ liệu là tốn kém và mất nhiều thời gian c Dùng kết quả sampling để khai thác sẽ cho kết quả tương đương với dùng toàn bộ dataset nếu thực hiện sampling hợp lý
d Các câu còn lại đều đúng
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu?
Trang 8Câu hỏi 14
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Giải thuật nào sau đây được xếp vào nhóm học không giám sát (unsupervised learning)? Select one:
a Linear Regression b ID3 Decision Tree c K-Means
Case-based learning là gì? Select one:
a Là giải thuật học máy để tìm sự phân lớp tối ưu cho một tập dữ liệu mẫu dựa trên lý thuyết xác suất
b Là giải thuật học máy để giới hạn không gian tìm kiếm cho một giả thiết
c Là một hướng tiếp cận để thiết kế giải thuật học máy lấy ý tưởng từ việc con người gặp tình huống mới thì sẽ diễn giải tình huống mới bằng cách tham chiếu đến các tình huống đã xảy ra trước đó d Không có câu nào đúng
Đúng
Đặt cờ
Đoạn văn câu hỏi
Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các mục quảng cáo của khách viếng thăm Đây là dạng bài toán:
Select one:
a Data Pre-processingb Clustering
c Classification d Data Visualization
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu?
Trang 9Trong Naive Bayes, các giá trị xác suất được xác định bằng cách nào? Select one:
a Là các tham số nhập vào từ người dùng
Đặt cờ
Đoạn văn câu hỏi
Giải thuật nào sau đây là giải thuật xây dựng m ô hình phân lớp dựa trên cây quyết địnhSelect one:
a Hunt’s Algorithm b CART
c C4.5
d Tất cả đều đúng
Trang 10b Được ước lượng từ tập dữ liệu huấn luyện c Được ước lượng từ tập dữ liệu kiểm tra
d Được gán giá trị mặc định và giải thuật tự điều chỉnh sau khi đánh giá kết quả
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho Confusion Matrix như sau:
Cho số lượng trường hợp bộ phân lớp cho kết quả sai? Select one:
a 15 b 50 c 110 d 105
Trang 11Đoạn văn câu hỏi
Mô tả nào sau đây đúng cho khái niệm "overfitting"?Select one:
a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đoán sai.
b Khi mô hình học quá phức tạp dẫn đến thực thi chính xác trên tập dữ liệu huấn luyện nhưng nhiều dự đoán sai trên tập dữ liệu kiểm tra
c Khi mô hình học quá phức tạp dẫn đến thời gian thực thi lớn nhưng có kết quả chính xác.d Tất cả các câu còn lại đều sai
Mô hình cây quyết định rơi vào tình huống overfitting nghĩa là? Select one:
a Cây có cấu trúc phức tạp b Cây có cấu trúc đơn giản c Cây có nhiều node lá d Tất cả đều sai
Trang 12Đoạn văn câu hỏi
Mệnh đề nào đúng về độ đo F-score cho mô hình phân lớp Select one:
a F-Score càng lớn thì bộ phân lớp càng tốt b F-Score càng bé thì bộ phân lớp càng tốt
c F-Score không tính được cho bộ phân lớp nhị phân d Tất cả đều sai
Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra? Select one:
a Node lá
b Node trung gian
Đoạn văn câu hỏi
Mô hình học máy nào được gọi là lazy-learning? Select one:
a KNN b K-Means c Naive Bayes d Tất cả đều đúng
Trang 13c Tất cả đều sai d Tất cả đều đúng
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Mô tả nào sau đây đúng cho khái niệm "underfitting" Selectone:
a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đoán sai
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu? Select one:
a 0 b 1 c 2 d 3 e k
Trang 14Đặt cờ Đoạn văn câu hỏi
DBSCAN là giải thuật phân vào nhóm: Select one:
a Clustering b Classification
c Association rule discovery d Tất cả đều đúng
Trong giải thuật gom cụm theo mật độ DBSCAN, khái niệm mật độ được mô hình hóa như thế nào? Select one:
a Qua tham số mô tả số điểm tối thiểu trong một bán kính cho trước b Qua tham số mô tả số điểm tối đa trong một bán kính cho trước
c DBSCAN tự phát hiện số cụm cùng mật độ của nó d Tất cả đều sai
Trang 15Đoạn văn câu hỏi
DBSCAN cần cho biết số cụm trước khi thực thi? Hãy chọn một:
Đúng Sai
Chỉ ra mệnh đề sai về K-Means Select
Đoạn văn câu hỏi
Trường hợp nào sau đây K-Means không cho kết quả tốt 1 Dữ liệu có ngoại biên (outlier)
2 Dữ liệu có mật độ phân bố thay đổi 3 Dữ liệu phân bố theo hình tròn
4 Dữ liệu phân bố theo dạng hình không lồi (non-convex) Select one:
a 1 và 2 b 2 và 3 c 3 và 4 d 1, 2, và 3 e 1, 2, và 4
Trang 16K-Means thuộc giải thuật học máy Selectone:
a Có giám sát (supervised learning)Supervised b Không có giám sát (unsupervised learning) c Tất cả đều sai
Đúng
Đạt điểm 1,00 trên 1,00 Đoạn văn câu hỏi
Giải thuật K-Means yêu cầu điều gì? Select one:
a Số cụm cho trước
b Độ đo khoảng cách định nghĩa trước c Trung tâm cụm khởi tạo trước d Tất cả các ý còn lại
Trang 17Đặt cờ Đoạn văn câu hỏi
DBSCAN cho phép tìm mật độ phân bố của các điểm dữ liệu trong tập dữ liệu?
Hãy chọn một: Đúng Sai
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Nếu biết support của Itemset {a, b, c} là 99, hãy chobiết giá trị nào sau đây chắc chắn không phải support của itemset {a, b} :
Select one: a 98 b 99 c 100
d Tất cả đều sai
Đúng một phần Đạt điểm 0,33 trên 1,00
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Điều kiện dừng của giải thuật K-Means có thể là: Select one or more:
a Sau một số lần lặp định trước b Việc phân cụm không thay đổi c Các trung tâm cụm không thay đổi
d Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước
Trang 18Câu hỏi 38
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Nếu biết support của Itemset {a, b} là 99, hãy cho biết giá trị nào sau đây chắc chắn không phải support của itemset {a, b, c} :
Select one: a 98 b 99 c 100
d Tất cả đều sai
Trang 19Câu hỏi 39
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập phổ biến và luật kết hợp trên cho dataset sau:
T_id Itemlist
T1 {A, B, D, F} T2 {A, B, C, D, E} T3 {A, B, C, E} T4 {A, B, D}
Cho biết kích cỡ itemsets lớn nhất có thể tìm được là bao nhiêu? Select one:
a 3 b 2 c 1 d 4
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Giải thuật khai thác mẫu phổ biến? Select one:
a Apriori b FP-Grownth c ECLAT
Trang 20Câu hỏi 41
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp? Select one:
a Ngưỡng hỗ trợ MinSup b Ngưỡng tin cậy MinConf c Số điểm tối thiểu MinPTs d câu a và b
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho một tập dữ liệu và một ngưỡng hỗ trợ minSup Gọi A là số lượng frequent itemset,
B là số lượng closed frequent itemsets, C là số lượng max frequent itemsets tìm được Cho biết mệnh đề nào sau đây là đúng:
Select one:
a A >= B >= C b A <= B <= C c A <= C <= B
d Tất cả các giải thuật trên
Trang 21Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Trong khai thác tập phổ biến, nếu một dataset có 99 loại mục (item) thì số tập phổ biến tối đa có thể có là bao nhiêu?
Select one: a 2^99 - 1 b 99 c 100 d 99!
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Một tập mục (itemset) được gọi là phổ biến nếu: Select one:
a Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước b Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước c Độ hỗ trợ đúng bằng ngưỡng cho trước
d Tất cả đều sai
Đúng
Đạt điểm 1,00 trên 1,00 Đặt cờ
Đoạn văn câu hỏi
Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}.
Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C, E}
Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng lặp tiếp theo?
Select one or more: a {A, B, C}
b {B, C, E} c {C, D, E} d {B, C, D} d B <= A <= C