PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST

10 2.5K 7
PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST

Đang tải... (xem toàn văn)

Thông tin tài liệu

1 PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST Giảng viên hướng dẫn: TS. Phạn Xuân Thanh Cục khảo thí và kiểm định chất lượng Học viên : Đặng Trần Cường Lớp: K9. Đo lường và đánh giá trong giáo dục Viện Đảm bảo chất lượng giáo dục - ĐHQGHN Tóm tắt Bài báo này nhằm đưa ra kết quả khi sử dụng phần mềm Quest/Conquest để phân tích 5 câu Viết Đề số 2 môn Tiếng Anh của kỳ khảo sát đánh giá kết quả học tập của học sinh lớp 9 năm học 2008-2009. Các phần mềm QUEST/CONQUEST được xây dựng dựa trên lý thuyết ứng đáp câu hỏi IRT để phân tích câu hỏi từ đó đưa ra được cái nhìn khách quan về đặc điểm câu hỏi, đề thi, năng lực thí sinh và các mối quan hệ giữa các yếu tố này. Từ khóa: Lý thuyết khảo thí hiện đại, phân tích đề thi, Quest, Conquest. 1. Đặt vấn đề. Kiểm tra đánh giá kết quả học tập của học sinh là một việc làm quan trọng không thể thiếu trong quá trình dạy học. Hiện nay, việc kiểm tra đánh giá kết quả học tập của học sinh thường được tiến hành bằng các bài thi sử dụng câu hỏi trắc nghiệm và tự luận. Đồng thời, song song với việc kiểm tra đánh giá, việc vận dụng các phần mềm để xử lý số liệu của câu hỏi, đề thi cũng ngày càng được chú trọng do tính hiệu quả, chính xác cao. Bên cạnh các phần mềm VITESTA, WINSTEP, ….các phần mềm QUEST/CONQUEST là những phần mềm thông dụng, đang được sử dụng nhiều nhất để phân tích câu hỏi. Kỳ khảo sát đánh giá kết quả học tập của học sinh lớp 9 năm học 2008- 2 2009 là kỳ khảo sát cấp quốc gia với cỡ mẫu là hơn 35000 học sinh lớp 9 của 63 tỉnh/thành phố. Kỳ khảo sát đánh giá năng lực học sinh ở 4 môn: Toán, Ngữ Văn, Tiếng Anh và Vật lý. Bài báo này chỉ giới hạn trong mục đích đánh giá chất lượng của đề thi Viết Đề số 2 môn Tiếng Anh học sinh lớp 9 với cỡ mẫu là 11671. 2. Lý thuyết ứng đáp IRT. Thuyết ứng đáp câu hỏi (Item Response Theory-IRT) là một lý thuyết của khoa học về đo lường trong giáo dục, ra đời từ nửa sau của thế kỷ XX và phát triển mạnh mẽ cho đến nay. So với lý thuyết khảo thí cổ điển, lý thuyết khảo thí hiện đại ưu việt hơn nhiều, được áp dụng ngày càng rộng rãi để định cỡ các câu hỏi và thiết kế các đề thi. Thuyết đáp ứng câu hỏi của Rasch mô hình hóa mối quan hệ giữa mức độ khả năng của người làm trắc nghiệm và đáp ứng của người ấy với câu trắc nghiệm. Mỗi câu trắc nghiệm được mô tả bằng một thông số (độ khó) ký hiệu là ô và mỗi người làm trắc nghiệm được mô tả bằng một thông số (khả năng) ký hiệu là 6. Mỗi khi một người cố gắng trả lời một câu hỏi, các thông số độ khó và khả năng tác động lẫn nhau, để cho một xác suất đáp ứng của người làm trắc nghiệm ấy. Dạng toán học của mô hình này là: P(θ) )exp(1 )exp( δθ δθ −+ − = Trong đó P(θ) là xác suất để thí sinh n có năng lực θ trả lời ĐÚNG câu hỏi có độ khó δ 3. Xử lý số liệu bằng phần mềm QUEST và CONQUEST. Chúng tôi sử dụng phần mềm QUEST/CONQUEST để phân tích đề thi viết môn Tiếng Anh lớp 9. Cấu trúc đề thi gồm 25 câu TNKQ và 5 câu TL đánh giá 3 cấp độ nhận biết, thông hiểu, vận dụng của học sinh. Trong đó: Đối với 25 câu hỏi TN có 13 câu hỏi ở mức nhận biết, 6 câu hỏi ở mức thông hiểu và 6 câu hỏi ở mức vận dụng. Đối với 5 câu hỏi tự luận có 3 câu ở mức độ thông hiểu, 1 câu ở mức vận dụng thấp và 1 câu ở mức vận dụng cao. Cỡ mẫu là 587 học sinh 3 lớp 9 tỉnh Nghệ An. Chương trình QUEST/CONQUEST sẽ cho chúng ta biết các thông tin quan trọng như: sự phù hợp của câu hỏi với mô hình RASCH, sự phù hợp của các câu hỏi với nhau, năng lực của thí sinh so với độ khó của đề thi, độ tin cậy của đề thi và các chỉ số đặc trưng cho từng câu hỏi như độ khó, độ phân biệt, hệ số tương quan, độ tin cậy, sai số…. 3.1. Mức độ phù hợp với mô hình Rash Khi đề thi phù hợp với mô hình Rasch thì trị số kỳ vọng của các bình phương trung bình (mean square) gần bằng 1 và độ lệch chuẩn SD gần bằng 0: Summary of item Estimates ========================= Mean .00 MEAN =0 SD .80 SD GẦN BẰNG 1 SD (adjusted) .80 Reliability of estimate 1.00 Fit Statistics =============== Infit Mean Square Outfit Mean Square Mean 1.01 Mean .96 MEAN =1 SD .10 SD .14 SD GẦN BẰNG 0 Infit t Outfit t Mean .26 Mean -1.08 SD 6.66 SD 6.27 0 items with zero scores 0 items with perfect scores =========================================================== =========================================================== ============== QUEST: The Interactive Test Analysis System 4 Case Estimates 11/11/14 10:47 all on anhtl (N =**** L = 5 Probability Level= .50) Summary of case Estimates ========================= Mean .05 SD 1.36 SD (adjusted) 1.07 Reliability of estimate .62 Fit Statistics =============== Infit Mean Square Outfit Mean Square Mean .96 Mean .96 MEAN GẦN BẰNG 1 SD .68 SD .80 SD HƠI CAO 3611 cases with zero scores 172 cases with perfect scores - Căn cứ vào các kết quả ở trên ta thấy dữ liệu của đề thi phù hợp với mô hình Rasch. -Các thông tin về kết quả tính toán cho thấy năng lực của thí sinh (case 5 estimate) tham gia làm khảo sát là (0.05) cao hơn so với độ khó chung của bài kiểm tra (0.00). Trong biểu đồ Item Fit sau đây, mỗi câu trắc nghiệm được biểu thị bằng dấu *. Những câu trắc nghiệm nằm trong hai đường chấm thẳng đứng có giá trị INFIT MNSQ nằm trong khoảng (0.77 ; 1.30) sẽ phù hợp với mô hình Rasch. Nếu câu nào nằm ngoài khoảng này là không phù hợp và sẽ bị loại bỏ. Item Fit 10/11/14 10:47 all on anhtl (N =**** L = 5 Probability Level= .50) INFIT MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40 1.50 1.60 + + + + + + + + + + + + +- 1 item 1 . * | . 2 item 2 . * | . 3 item 3 . * | . 4 item 4 . | * . 5 item 5 . | * . ============================================================= ================================================================== ===== Kết quả cho thấy cả 5 câu hỏi đều nằm trong khoảng cho phép. Điều này chứng tỏ các câu hỏi đã đo đúng được cái cần đo. 3.2. Bản đồ phân bố độ khó câu hỏi thi và năng lực thí sinh Bản đồ phân bố độ khó câu hỏi thi và năng lực thí sinh cho thấy mức độ phù hợp của đề thí đối với thí sinh dự thi. Có thể là đề thi quá dễ, quá khó hoặc rất phù hợp. 6 QUEST: The Interactive Test Analysis System Item Estimates (Thresholds) 10/11/14 10:47 all on anhtl (N =**** L = 5 Probability Level= .50) 4.0 | | | | | | | | 5.2 3.0 | | | | XXXXXXXXXXXXXXXXX | | | | 2.0 | | | | | XXXXXXXXXXXXXXXXXXXX | | | 1.0 | | 3.2 XXXXXXXXXXXXXXXXXXXX | | | 2.2 | XXXXXXXXXXXXXXXXX | .0 | 1.2 | XXXXXXXXXXXXXXXX | | 4.2 5.1 | XXXXXXXXXXXXX | | 2.1 | -1.0 XXXXXXXXXXXXX | 3.1 4.1 | 1.1 | XXXXXXXXXXXXXXX | | | | | -2.0 | XXXXXXXXXXXXXXXX | | | | | 7 | | -3.0 | Each X represents 2 students Nhìn vào biểu đồ phân bố ta thấy năng lực của thí sinh thấp hơn so với mức yêu cầu của đề thi. 3.3. Độ tin cậy của đề thi Summary of item Estimates( đối với đề thi) ========================= Mean .00 SD .80 SD (adjusted) .80 Reliability of estimate 1.00 Kết quả tính toán bằng phần mềm QUEST cho thấy đề thi có độ tin cậy là 1.0. Đây là một đề thi có độ tin rất cao, đánh giá được đúng những năng lực cần đánh giá. 3.4. Phân tích câu hỏi theo các tiêu chí Ta tiếp tục xem xét các chỉ số thu được từ kết quả phân tích bằng phần mềm QUEST như sau: - Categories: Các mức điểm của câu hỏi. - Disc: độ phân biệt của câu hỏi giữa các nhóm thí sinh, (Disc) phải nằm 8 trong khoảng 0,25 - 0,75. - Percent: tỉ lệ phần trăm của một phương án là tỉ lệ giữa số thí sinh chọn phương án đó so với thí sinh làm bài kiểm tra; Infit MNSQ phải nằm trong khoảng 0,77 - 1,30. - Beserial: hệ số tương quan point biserial. Cần loại bỏ những câu hỏi có mối tương quan thấp hoặc dưới 0 sẽ làm tăng độ tin cậy của bài kiểm tra. - P-Value: Là xác suất thống kê khả năng mỗi phương án trả lời được lựa chọn phải nhỏ hơn hoặc bằng 0.05 - StepLabel 1: Giữa giá trị 0 và 1 có một bước, thí sinh thực hiện được bước này khi trả lời đúng câu hỏi. - Thresholds: ngưỡng để vượt qua, thực chất là độ khó của câu trắc nghiệm. - Error: sai số trong tính toán. 9 3.4.1. Độ phân biệt (tiêu chí Disc) Chỉ số phân biệt (Disc - Distribution of Item difficulty and student ability) của các câu hỏi nằm trong khoảng 0.28 -0.75 là trong khoảng chấp nhận. Các kết quả chạy ra của phần mềm QUEST cho thấy chỉ số phân biệt của 5 câu hỏi thi còn rất tốt. 3.4.2. Hệ số tương quan (point biserial) Hầu hết các mức yêu cầu ở mức độ thấp đều có hệ số tương quan rất thấp (chủ yếu >0, 1 số yêu cầu có hệ số tương quan ≈0.20). Chỉ có các yêu cầu ở mức độ cao nhất mới có hệ số tương quan cao, hầu hết đều từ 0.60 trở lên trừ câu hỏi . 3.4.3.Tiêu chí Thresholds. Chỉ số Thresholds của các câu hỏi của đề thi nằm hầu hết đều nằm ở mức thấp hoặc nhỏ hơn 0. Trừ đối với yêu cầu ở mức 2 của câu hỏi số 1 ,3 và các mức yêu cầu của câu hỏi số 5 có chỉ số Thresholds > 0.5, đặc biệt là yêu cầu ở mức 2 cảu câu hỏi số 5 có chỉ số Thresholds khá cao (3.13). Như vậy yêu cầu này là khá khó đối với học sinh. 3.3.4 Tiêu chí P-value 100% các câu hỏi của đề thi đều có P-value bằng 0 hoặc nhỏ hơn . Điều này cho thấy các câu hỏi đều có độ tin cậy rất cao. 4. Kết luận. Qua phân tích đề thi trên chúng ta có thể dễ dàng nhận thấy đây là một đề thi khó so với học sinh. 10 TÀI LIỆU THAM KHẢO 1. TS. Phạm Xuân Thanh , Tài liệu giảng dạy “Mô hình Rasch và Phân tích dữ liệu”. 2. GS. Lâm Quang Thiệp (2011), Đo lường trong giáo dục, lý thuyết và ứng dụng, Nhà xuất bản Đại học quốc gia Hà Nội. . δ 3. Xử lý số liệu bằng phần mềm QUEST và CONQUEST. Chúng tôi sử dụng phần mềm QUEST/ CONQUEST để phân tích đề thi viết môn Tiếng Anh lớp 9. Cấu trúc đề thi gồm 25 câu TNKQ và 5 câu TL đánh giá. khi sử dụng phần mềm Quest/ Conquest để phân tích 5 câu Viết Đề số 2 môn Tiếng Anh của kỳ khảo sát đánh giá kết quả học tập của học sinh lớp 9 năm học 2008-2009. Các phần mềm QUEST/ CONQUEST được. 1 PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST Giảng viên hướng dẫn: TS. Phạn Xuân Thanh Cục khảo thí và kiểm định chất lượng Học viên : Đặng Trần Cường Lớp: K9. Đo lường và đánh

Ngày đăng: 18/05/2015, 10:12

Từ khóa liên quan

Mục lục

  • PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST

  • 3.3. Độ tin cậy của đề thi

  • Summary of item Estimates( đối với đề thi)

  • =========================

  • Mean .00

  • SD .80

  • SD (adjusted) .80

  • Reliability of estimate 1.00

  • Kết quả tính toán bằng phần mềm QUEST cho thấy đề thi có độ tin cậy là 1.0. Đây là một đề thi có độ tin rất cao, đánh giá được đúng những năng lực cần đánh giá.

  • 3.4. Phân tích câu hỏi theo các tiêu chí

  • 3.4.1. Độ phân biệt (tiêu chí Disc)

  • 3.4.2. Hệ số tương quan (point biserial)

  • 3.4.3. Tiêu chí Thresholds.

  • 3.3.4 Tiêu chí P-value

  • 4. Kết luận.

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan