Hiển thị các bài đăng có nhãn stats. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn stats. Hiển thị tất cả bài đăng

Thứ Sáu, 18 tháng 6, 2010

Tỷ lệ tốt nghiệp THPT 2010 cao, tại sao?

Bài viết này tôi mới viết theo yêu cầu của tòa báo hôm qua để trả lời câu hỏi đã đưa trong tựa của entry này, và đã đăng trên báo Pháp Luật TP HCM hôm nay, ở đây. Dưới đây là bản gốc mà tôi đã viết, có thể có chút khác biệt với bản đã đăng trên báo, do đã được biên tập ít nhiều. Xin đưa lên đây để các bạn cùng đọc và trao đổi, tranh luận.
---
Kết quả kỳ thi tốt nghiệp phổ thông vừa qua đã gây ra sự tranh cãi giữa hai quan điểm, một bên cho rằng tỷ lệ đỗ cao của năm nay là do học sinh học tốt hơn năm trước, còn bên kia cho rằng tỷ lệ này chẳng qua là do năm nay đề thi dễ hơn, và việc tổ chức kỳ cũng lỏng hơn. Vậy, ai đúng ai sai?

Tôi cho rằng nếu chỉ dựa trên những thông tin mà hiện nay dư luận có được thì cuộc tranh cãi này sẽ mãi không có câu trả lời, vì cả hai phía đều có thể đúng (cũng có nghĩa là cả hai phía đều có thể sai!) Bởi, theo lý thuyết về kiểm tra đánh giá giáo dục thì kết quả của một kỳ thi được tạo thành bởi 3 yếu tố như sau (không kể các yếu tố ngẫu nhiên không khống chế được, giả định là như nhau giữa các kỳ thi):

1. Năng lực của thí sinh
2. Độ khó của bài thi hoặc cách cho điểm
3. Các yếu tố liên quan đến việc tổ chức kỳ thi

Vấn đề là với cách sử dụng điểm thô (điểm tuyệt đối) như tại Việt Nam hiện nay thì không thể có căn cứ nào để so sánh năng lực của thí sinh năm này với năm trước cả. Đơn giản là vì thí sinh mỗi năm mỗi khác, đề thi mỗi năm cũng là đề thi mới (không thể dùng lại đề cũ, tất nhiên rồi). Chính vì vậy mà khoa học trắc nghiệm đã phải đưa ra khái niệm điểm chuẩn hóa, hay còn gọi là điểm thống kê/điểm tương đối, để có thể đưa ra những so sánh giữa các năm với nhau.

Đây là một vấn đề khá kỹ thuật, nhưng có thể giải thích theo ngôn ngữ bình dân như sau: Nếu không có căn cứ nào khác ngoài điểm thi để chứng minh là năng lực của thí sinh có khác biệt giữa các năm, thì phải chấp nhận giả định là năng lực của thí sinh giữa các năm không có gì khác biệt.

Nói cách khác, nếu năm trước thí sinh có điểm cao nhất là 8/10, còn năm nay thí sinh có điểm cao nhất là 9/10, thì phải xem 2 điểm số khác nhau đó là tương đương với nhau (8 điểm của năm trước bằng 9 điểm của năm nay). Điều này cũng đồng nghĩa với kết luận là đề thi năm nay dễ hơn, hoặc chấm điểm nới tay hơn. Hoàn toàn không thể dùng sự khác biệt về điểm thô để kết luận về năng lực của thí sinh.

Ngoài ra, xét về tính logic của lập luận thì nếu có những khác biệt trong cách tổ chức thi giữa 2 năm, bắt buộc ta phải kết luận là sự thay đổi trong cách tổ chức thi năm nay đã tạo ra sự khác biệt về kết quả so với năm trước.

Như vậy, kết luận của Bộ Giáo dục rằng tỷ lệ tốt nghiệp cao năm nay phản ánh năng lực cao hơn của thí sinh là một kết luận không đủ căn cứ (chưa kể, ý kiến của Bộ Giáo dục thiếu tính khách quan khi chính mình chỉ đạo việc toàn bộ mọi khâu từ tổ chức giảng dạy, ra đề thi, tổ chức kỳ thi, rồi sau đó dựa trên kết quả của chính kỳ thi do mình tổ chức để kết luận rằng mình đã làm tốt).

Nếu Bộ có những lý do để tin rằng quả thật năng lực thí sinh đã tăng lên thì chỉ còn cách tổ chức một đợt thử nghiệm, chọn mẫu ngẫu nhiên một số thí sinh đã thi xong kỳ thi năm nay, và cho các em làm lại đề thi năm ngoái, rồi so điểm. Tất nhiên, sẽ có nhiều vấn đề kỹ thuật cần phải giải quyết để đảm bảo điểm số của các thí sinh trong mẫu thử nghiệm trên hai bài thi có thể so sánh được với nhau, nhưng nếu muốn có câu trả lời chính xác thì chỉ có thể làm cách đó. Còn nếu Bộ không đưa ra được số liệu như vậy thì cho dù thí sinh năm nay có thực sự giỏi hơn năm ngoái, Bộ cũng sẽ đành chịu mang tiếng “đề dễ, tổ chức thi lỏng” như hiện nay!

Một nhận xét cuối cùng. Thực ra, việc thử nghiệm như đã nêu ở trên chính là một bước trong quy trình ra đề thi, và LẼ RA ĐÃ PHẢI ĐƯỢC THỰC HIỆN TRƯỚC KHI THI để đảm bảo rằng đề thi của các năm là tương đương nhau. Nếu Bộ làm việc một cách chuyên nghiệp, thì những kết quả thử nghiệm này đã phải được công bố trước khi thi rồi. Như thế, khi có kết quả thì sẽ không thể có bất kỳ tranh cãi gì nữa.

Những việc như thế này, các nước tiên tiến đã làm cả thế kỷ nay. Việt Nam cải cách thi cử mãi hàng chục năm nay, có cả một Cục chuyên môn để làm việc này, chuyên gia trong nước cũng không thiếu, chẳng hiểu tại sao cứ loay hoay mãi như thế?
----
Cập nhật lúc 7g40 sáng 19/6:
Trên báo Thanh Niên hôm nay có đăng mẩu tin tóm tắt "Có 4 lý do dẫn đến tốt nghiệp cao", ở đây. Tin này hẳn là dựa trên bài phỏng vấn một quan chức của Bộ Giáo dục, đã được nêu trong bài viết này, và đã đăng hôm qua ở đây.

Phát biểu trong phỏng vấn này hẳn là phản hồi của Bộ GD với dư luận xã hội đã được phản ánh trong bài viết hôm qua về việc tại sao năm nay tỷ lệ tốt nghiệp lại "đẹp" như thế, đăng trên Báo Thanh Niên, ở đây.

Xin đưa các bài viết ấy lên đây để rộng đường dư luận.
---
Cập nhật tiếp lúc 3g20' chiều cùng ngày:
Tôi lại vừa tìm thấy mấy bài viết của GS Nguyễn Văn Tuấn về cùng một vấn đề, rất thú vị, nên đem hết các links về đây, again, "cho nó khỏi lạc bầy" ;-). Chúng ở đây, và ở đây.

Và cám ơn GS Nguyễn Văn Tuấn về những bài này, thật vậy!

Thứ Năm, 17 tháng 6, 2010

Số liệu về giáo dục VN, dành cho những người đang học thống kê

Riêng gửi các bạn học viên trong lớp Cao học Đo lường Đánh giá Khóa 2
---
Tôi vừa tìm thấy bài này trên trang của vietnamnet, ở đây. Với cái tựa thật ấn tượng: Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân.

Một bài viết với nhiều số liệu, và rất rất nhiều ấn tượng, phải nói là "không thể nào quên", thật vậy!

Vấn đề đặt ra với những người đang tập tành đọc số liệu thống kê giáo dục (giống như các bạn học viên của tôi) là: có thể rút ra những kết luận giống như trong bài viết từ những số liệu này không?

Câu hỏi tôi mới đặt ra là một câu hỏi "Yes-No Question", cho nên trên nguyên tắc chỉ có thể có 2 câu trả lời: có hoặc không.

Chọn câu trả lời nào, có lẽ tùy thuộc vào trình độ và quan điểm của các bạn. Câu hỏi này theo tôi là một câu rất hay đấy; nó sẽ giúp tôi hiểu được các bạn nhiều hơn rất nhiều.

Chúng ta sẽ thảo luận "đáp án" của câu hỏi này trong lớp vào tuần sau nhé!

Còn các bạn hay đọc blog của tôi, nếu các bạn trả lời hoặc trao đổi gì ở đây, thì tôi rất biết ơn. Vì đọc bài đó với những số liệu và kết luận đã đưa, tôi không thể không quan tâm, thật vậy!
---
Cập nhật sáng ngày 18/6/2010:

Đã đọc entry này, thì các bạn cũng nên bỏ chút thời gian đọc thêm mấy bài này nữa:
1. Trên báo Thanh Niên hôm nay, tại đây.
2. Và trên blog cá nhân của tôi, viết tối qua, tại đây.
Có ai có comment gì không? Hay là ai cũng ..."no comments", nhỉ?

Chủ Nhật, 13 tháng 6, 2010

Bài đáng đọc: "Dữ liệu - nhiều không bằng dùng khôn ngoan"

Bài này đã đăng cách đây vài tuần trên Tuần Việt Nam, và tôi đã đọc, thấy đáng để giới thiệu với mọi người nên đã viết entry dở dang. Nhưng sau đó bận quá nên không kết thúc, rồi quên luôn. Nay cuối tuần, ngồi dọn dẹp lại blog, nên hoàn tất để gửi lên chia sẻ với mọi người.
--
Một trong những bài hiếm hoi ở VN về vai trò của dữ liệu và cách sử dụng dữ liệu trong quản lý. Bài đó, ở đây.

Rất đáng đọc, đọc cả bài và đọc kỹ. Còn ở đây tôi chỉ xin chép lại một vài điều mà tôi tâm đắc, cùng những bình luận của tôi về việc sử dụng dữ liệu trong quản lý. Các tựa nhỏ do tôi đặt (trong bài cũng có các tựa của nó, nhưng tôi tin rằng các tựa nhỏ của tôi phù hợp hơn với điều tôi muốn chia sẻ ở đây).

Phải biết rõ mình cần gì!
[...] [C]ách đầu tiên để đơn giản hóa và cải thiện quy trình dữ liệu là đưa ra rõ ràng những câu hỏi then chốt mà bạn cần biết câu trả lời - và sau đó tâp trung thu thập những dữ liệu xung quanh những điều này, hơn là việc giài quyết tất cả các khả năng có thể xảy ra.

Hãy kể một câu truyện từ dữ liệu
[...] [N]hững phần dữ liệu tách biệt [...] cần được sắp xếp lại với nhau thành một lời giải thích mạch lạc về tình hình kinh doanh, nghĩa là biến chúng thành một bàn tường trình. Các nhà quản lý nên xem xét dữ liệu trước để biết những gì là cần thiết để có thể tường trình lại những vấn đề mà họ sẽ được yêu cầu kể.

Đừng quên dữ liệu đã trở thành một nguồn lực quan trọng
Rõ ràng dữ liệu kinh doanh và phân tích dữ liệu của nó rất quan trọng cho các tổ chức để thành công - có thể thấy một thực tế là các công ty như IBM đang đầu tư hàng tỉ đôla để mua lại những tin tức kinh doanh và không gian phân tích. Nhưng ngay cả những công cụ tự động hiệu quả nhất cũng sẽ trở thành vô dụng trừ khi các nhà quản lý rõ ràng về các câu hỏi cần đặt ra.

Rất đúng, phải không? Mà muốn thu thập, xử lý, và diễn giải đúng dữ liệu thì phải học một chút về thống kê. Vậy nếu các bạn chưa biết gì về thống kê thì hãy học đi nhé! Hoặc chờ tôi viết trên blog này, statistics for dummies, just like me!;-)

Thứ Năm, 13 tháng 5, 2010

Nhập môn thống kê giáo dục (8): Ước lượng trong thống kê suy diễn

Bài này nhằm cung cấp thêm thông tin cho các học viên cao học Đo lường - Đánh giá Khóa 2 đang học môn Thống kê ứng dụng với tôi. Vì tôi nhận thấy các bạn bắt đầu có vẻ cảm thấy khó hiểu từ lúc chuyển từ thống kê mô tả sang thống kê suy diễn rồi.

Mà quả thật, hiểu đúng suy diễn thống kê là một điều không dễ các bạn ạ. Thời nay, khi các phần mềm máy tính có thể giúp người ta thực hiện mọi loại tính toán thống kê trong chỉ vài giây, thì cái khó của thống kê không còn là nhớ công thức và thực hiện các tính toán nữa, mà là hiểu đúng cái tư duy bên dưới các cách tính toán đó. Muốn hiểu, phải đọc nhiều, ngẫm nghĩ nhiều, đặc biệt là từ các ví dụ cụ thể.

Vậy thì đây, các bạn đọc nhé. Tôi chép nguyên văn từ trang wikipedia tiếng Việt, có thể tìm thấy ở đây. Hoặc đọc dưới đây, có gì thắc mắc thì hỏi luôn trong phần comment.

Enjoy!

---
Trong thống kê, một ước lượng là một giá trị được tính toán từ một mẫu thử (échantillon) và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong dân số (population). Người ta luôn tìm một ước lượng sao cho đó là ước lượng "không chệch" (unbiased), hội tụ (converged), hiệu quả (efficient) và vững (robust).

Ví dụ về ước lượng
Muốn xác định độ cao trung bình của trẻ ở độ tuổi 10, ta thực hiện một điều tra trên một mẫu được lấy trên tập thể các trẻ em ở độ tuổi 10 (ví dụ mẫu điều tra là các em học sinh được lấy ngẫu nhiên từ nhiều trường ở nhiều vùng khác nhau). Chiều cao trung bình tính được từ mẫu điều tra này, thường là trung bình tích lũy, sẽ là một ước lượng cho chiều cao trung bình của trẻ em ở độ tuổi 10.

Nếu ta muốn xác định tỷ lệ bầu cử cho ứng cử viên A, ta có thể thực hiện một điều tra trên một mẫu dân số tiêu biểu. Tỷ lệ bầu cho A trong mẫu điều tra là một ước lượng của tỷ lệ bầu cho A của toàn thể dân số.

Giả sử ta muốn xác định tổng số cá có trong hồ, ta bắt đầu bằng cách bắt lên n con cá (ví dụ n=50), đánh dấu chúng, sau đó lại thả xuống hồ cho chúng lẫn với những con khác. Sau đó lấy một mẫu cá bất kỳ trong hồ, tính tỷ lệ p cá bị đánh dấu trong mẫu đó (ví dụ mẫu có 20 con trong đó có 2 con có dấu, p=1/10). Khi đó giá trị n/p (=500) là một ước lượng cho tổng số cá có trong hồ. Nếu trong mẫu không có con cá nào bị đánh dấu, ta thực hiện lại trên một mẫu khác.

Thông thường ta tìm ước lượng cho một trung bình, cho tổng dân số, cho một tỷ lệ hoặc cho một phương sai.

Đánh giá ước lượng
Một ước lượng là một giá trị x (x nhỏ) được tính toán trên một mẫu được lấy một cách ngẫu nhiên, do đó giá trị của x là một biến ngẫu nhiên với kì vọng E(x) và phương sai V(x). Nghĩa là giá trị x có thể dao động tùy theo mẫu thử, nó có ít cơ hội để có thể bằng đúng chính xác giá trị X (X lớn) mà nó đang ước lượng. Mục đích ở đây là ta muốn có thể kiểm soát sự sai lệch giá trị x và giá trị X.

+ Một biến ngẫu nhiên luôn dao động xung quanh giá trị kì vọng của nó. Ta muốn là kì vọng của x phải bằng X. Khi đó ta nói ước lượng là không chệch (unbiased). Trung bình tích lũy trong ví dụ về chiều cao trung bình của trẻ 10 tuổi một ước lượng đúng, trong khi ước lượng về tổng số cá trong hồ được tính như trong ví dụ là một ước lượng không đúng, đó là ước lượng thừa: trung bình tổng số cá ước lượng được luôn lớn hơn tổng số cá có thực trong hồ.

+ Ta cũng muốn là khi mẫu thử càng rộng, thì sai lệch giữa x và X càng nhỏ. Khi đó ta nói ước lượng là hội tụ. [Ở đây tôi cắt bỏ phần công thức toán vì tôi nghĩ các bạn không giỏi toán sẽ không hiểu (giống như tôi!), làm ngăn trở các bạn đọc tiếp. Nhớ rằng trong môn học này tôi chỉ chú trọng phần tư duy thống kê hơn là thao tác thống kê.]

+ Biến ngẫu nhiên dao động quanh giá trị kì vọng của nó. Nếu phương sai V(x) càng bé, thì sự dao động càng yếu. Vì vậy ta muốn phương sai của ước lượng là nhỏ nhất có thể. Khi đó ta nói ước lượng là hiệu quả (efficient).

+ Cuối cùng, trong quá trình điều tra, có thể xuất hiện một giá trị "bất thường" (ví dụ có trẻ 10 tuổi nhưng cao 1,80 m). Ta muốn giá trị bất thường này không ảnh hưởng quá nhiều đến giá trị ước lượng. Khi đó ta nói ước lượng là vững (robust). Có thể thấy trung bình tích lũy trong ví dụ về chiều cao trung bình trẻ 10 tuổi không phải là một ước lượng vững.

Ước lượng của trung bình và phương sai
[Phần này có nhiều ký hiệu và công thức nên tôi không chép vào được, đã bị cắt đi, các bạn đọc trực tiếp trên wikipedia vậy. Sở dĩ như thế là do tôi không biết cách chèn ký hiệu toán học và trong text trực tiếp trên blog như thế này - có lẽ sẽ làm được nếu đánh máy lại trên word chăng?]

Các ảnh hưởng của điều tra đến ước lượng
Phân chia dân số thành các lớp đồng nhất để làm mẫu điều tra có thể làm giảm đáng kể giá trị phương sai của ước lượng, do đó ước lượng sẽ càng hiệu quả.

Lấy mẫu một cách ngẫu nhiên với xác suất không đồng đều, dẫn đến điều tra nhiều lần hoặc co cụm, sẽ làm thay đổi các công thức được tính trên.

Cuối cùng, việc dùng thêm các thông tin phụ hợp lý cho phép chỉnh sửa các ước lượng để có được các kết quả gần với giá trị thật cần ước lượng hơn.

Ước lượng phân phối xác suất
Khả năng ước lượng kì vọng và phương sai cho phép ước lượng các tham số của một phân phối xác suất (phân phối bình thường, phân phối Poisson vv...).

Trong xác suất, ta thường xác định một phân phối xác suất lý thuyết dựa vào các thực nghiệm thống kê. [...] Để làm rõ sự sai khác giữa chúng có đáng kể hay không, ta thực hiện các kiểm định giả thuyết thống kê, trong đó phổ biến nhất là kiểm định χ² (Chi bình phương).
-----
Đọc thêm về ước lượng và khoảng tin cậy tại đây.

Nhập môn thống kê giáo dục (7): Thống kê mô tả và thống kê suy diễn/suy luận

Phần trích dưới đây được lấy từ trang web Toán ứng dụng (toanungdung.com), ở đây.
---
Nhiệm vụ của thống kê là thu thập, phân tích, suy luận hoặc giải thích, và biểu diễn các số liệu (data). Ngoài ra thống kê cũng có nhiệm vụ dự báo (prediction and forecasting) từ việc phân tích số liệu. Thống kê được ứng dụng rộng rãi trong các ngành khoa học tự nhiên, khoa học xã hội, trong nghiên cứu con người, trong công tác điều hành quản lý chính phủ, trong kinh doanh, ...

Thống kê học được phân chia thành 2 nhánh chính:

Thống kê mô tả (Descriptive statistics): nghiên cứu việc tổng hợp, số hóa, biểu diễn bằng đồ thị các số liệu thu thập được. Sau đó tính toán các tham số đặc trưng cho tập hợp dữ liệu như: trung bình, phương sai, tần suất, tỷ lệ, ...Mục đích là để mô tả tập dữ liệu đó.

Thống kê suy luận (Inferential statistics): nghiên cứu sự ngẫu nhiên, sai số của các tập dữ liệu, từ đó mô hình hóa và đưa ra các suy luận cho tập tổng thể. Các suy luận này có thể là: trả lời đúng / sai cho các giả thuyết đặt ra (kiểm định giả thuyết thống kê), ước lượng các tham số của tổng thể (ước lượng), mô tả sự tác động qua lại giữa các biến số (tương quan), mô hình hóa quan hệ giữa các biến số (hồi quy), nội suy các giá trị không thể quan sát được (extrapolation, interpolation). Các kỹ thuật mô hình hóa khác trong thống kê suy luận gồm: (M)ANOVA (phân tích phương sai), chuỗi thời gian (time series), và khai phá dữ liệu (data mining).

[...]

Một số phân ngành trong Thống kê ứng dụng:

+Khoa học bảo hiểm (actuarial science): nghiên cứu về rủi ro trong bảo hiểm, tài chính, ...

+Sinh thống kê: phân tích các số liệu sinh học.

+Hóa thống kê: Phân tích các số liệu hóa học.

+Phân tích số liệu (data analysis): tổng hợp, mô hình hóa, chọn lọc thông tin, từ đó đưa ra các kết luận, quyết định hoặc điều chỉnh các quyết định trước đó.

+Khai khá dữ liệu (data mining): là một chuyên ngành của phân tích số liệu (data analysis), mục đích là khai phá các thông tin khác tiềm ẩn thông qua số liệu đo được. Các ngành nhỏ của khai phá dữ liệu gồm: phân loại (classification), phân nhóm (clustering), hồi quy (regression), ... Khai phá dữ liệu được ứng dụng nhiều trong các ngành nghiên cứu tiếp thị thị trường (marketing), đặc biệt là tiếp thị địa lý (geomarketing), chẩn đoán phân loại trong y sinh học, ...

+Kinh tế lượng: ứng dụng các phương pháp thống kê trong việc tính toán, mô hình hóa các đại lượng và các quy luật kinh tế.

+Địa lý thống kê: nghiên cứu về cơ cấu và chuyển động của dân số.


+Thống kê năng lượng (Energy statistics): tổng hợp, phân tích các số liệu về năng lượng trên lãnh thổ quốc gia hoặc thế giới như dầu, khí ga, điện, và các nguồn năng lượng sạch (gió, mặt trời, ...). Mục đích là đìều tiết, dự báo, ngăn ngừa các cuộc khủng hoảng năng lượng.

+Thống kê kỹ thuật (Engineering statistics): xây dựng thực nghiệm, quản lý chất lượng, quản lý quá trình sản xuất, hạn chế rủi ro trong xây dựng, thiết kế hệ thống.

+Dịch tễ học: nghiên cứu sai số trong dự báo, dự đoán bệnh, khả năng lây bệnh, hiệu quả của thuốc, ...

+Khí tượng và hải dương học: nghiên cứu các hiện tượng thời tiết, các nhân tố trong khí quyển như độ ẩm, nhiệt độ, trên mặt nước biển như nhiệt độ mặt nước biển, gió, độ cao của sóng, ... từ các quan sát thu được (từ các trạm quan sát, hình ảnh vệ tinh, v.v.), từ đó đưa ra các ước lượng, mô hình hoặc các dự báo. Các nghiên cứu này gắn liền với lý thuyết cơ học chất lỏng (fluid mechanics) và các phương pháp đồng hóa dữ liệu (data asimilation), ...

+Xử lý thông tin (signal processing): thu thập phân tích các thông tin dưới dạng sóng, tín hiệu, hình ảnh, từ đó phân tích, ứng dụng các kỹ thuật thống kê suy luận để sàng lọc, điều chỉnh các thông tin đó. Ví dụ như xử lý các tín hiệu kỹ thuật số, làm rõ hình ảnh, phân tích các chuyển động, nhận diện chuyển động trong các máy quay theo dõi,...

+Thống kê xã hội (Social statistics): dùng các hệ thống đo lường thống kê để nghiên cứu thái độ con người hoặc 1 nhóm người trong môi trường xã hội.

+Mô hình hóa thống kê: nghiên cứu, xây dựng mô hình các quy luật phân phối, chuyển động, phát triển của một hoặc nhiều biến số từ các dữ liệu đo được.

Thứ Tư, 21 tháng 4, 2010

Nhập môn thống kê giáo dục (6): "Thống kê với giáo viên"

Tiếp tục bài viết của cố GS Dương Thiệu Tống.
---
Thống kê với giáo viên

Một trong những chức năng chính yếu của đại học là nghiên cứu, nghiên cứu của thầy giáo và nghiên cứu của sinh viên. Đó là đặc điển nổi bật phân biệt cấp đại học với các cấp học khác. Khi thống kê được xem như là bạn đồng hành của nghiên cứu khoa học thì thống kê học tất nhiên phải là môn học bắt buộc của các ngành khoa học tự nhiên cũng như khoa học xã hội. Ở đây tôi không muốn nói đến môn thống kê học hiện được giảng dạy tại một số trường đại học như là một bộ phận của Toán học hay là một bộ môn chuyên nghiệp của từng nghành khoa học kỹ thuật, mà tôi muốn đề cập đến khoa Thống kê giáo dục và tâm lý, một lĩnh vực kiến thức đã được phát triển trong vòng một trăm năm nay và hiện được áp dụng trfong hầu hết mọi công trình nghiên cứu giáo dục tâm lý trên toàn thế giới.

Dù nghiên cứu giáo dục ở cấp học nào, thống kê và nghiên cứu khoa học giáo dục cũng là “ hai mặt của một vấn đề”. Chẳng hạn, trong công việc xây dựng lý luận dạy và học cho bậc đại học Việt Nam, tất nhiên ta phải phát xuất từ việc quan sát thực tiễn giáo dục đại học Việt Nam, từ đó bằng phương pháp nghiên cứu khoa học ta tìm hiểu các quy luật tác động đến việc dạy và học ở đại học nước ta, phối hợp các quy luật ấy để hình thành lý luận (theory) dạy và học, rồi lý luận ấy phải được kiểm chứng. Thống kê học và các kỹ thuật nghiên cứu khoa học sẽ giúp ta trong tất cả các giai đoạn nghiện cứu ấy. Lý luận khoa học giáo dục, nói chung, không thể xây dựng từ khoảng chân không, hay xuất phát từ trí tưởng tượng xuất chúng của một nhân vật nào, dù trong nước hay nước ngoài, dù xưa hay nay. Các lý luận và công trình nghiên cứu hiện hữu chỉ có thể hướng dẫn cho sự quan sát của chúng ta, cung cấp những mô hình và phương pháp nghiên cứu khả dĩ làm giúp ngắn lại khoảng cách biệt giữa khoa học giáo dục nước ta và thế giới. Nhưng muốn khai thác được hiệu quả của kho tàng kiến thức ấy, thầy giáo và sunh viên chúng ta cần phải đọc và hiểu các tài liệu chuyên môn, đặc biệt là các công trình nghiên cứu khoa học đã được công bố trên các tạp chí.

Điều mà ai cũng rõ là việc học tập trong bất cứ lĩnh vực nào cũng đòi hỏi phải tham khảo tài liệu rộng rãi. Việc đọc sách chuyên môn chủ yếu là nhằm mở rộng kiến thức, làm phong phú thêm khả năng nắm vững các thuật ngữ chuyên môn. Hiện nay, ta không thể nào đọc các tài liệu chuyên môn trong lĩnh vực khoa học giáo dục và tâm lý mà không gặp những khái niệm, thuật ngữ, ký hiệu thống kê. Điều gần như chắc chắn là không một ai có thể đọc được một bản tường trình nghiên cứu trên các tạp chí nghiên cứu khoa học giáo dục hay tâm lý xuất bản hiện nay trên thế giới nếu không nắm vững các kỹ thuật thống kê và phương pháp nghiên cứu khoa học. Một học sinh trung học hay tiểu học có thể đọc được một tài liệu khó bằng cách bỏ bớt lướt qua những phần gọi là “xương xẩu” ấy lại là phần quan trọng nhất của nội dung. Nếu ta bỏ qua những phần liên quan đến thống kê hay phương pháp nghiên cứu trong khi đọc một công trình nghiên cứu giáo dục hay tâm lý, như vậy ta dễ dàng bị lệ thuộc vào các kết luận của người khác, hay chúng ta chỉ đánh giá được tài liệu căn c ứ trên các kết luận của tác giả mà không quan tâm đến v iệc đánh giá các phương pháp mà họ sử dụng đế đạt được các kết quả ấy. Chính các phương pháp này mới là quan trọng để quyết định giá trị các kết luận.

Tóm lại, theo tôi nghĩ, việc nắm vững lý luận thống kê giáo dục và phương pháp nghiên cứu khoa học là những yêu cầu cấp bách đối với người thầy giáo và sinh viên đại học, không những để thực hiện các công trình nghiên cứu giáo dục ở đại học và các cấp học khác mà còn để đọc, hiểu, đánh giá các công trình nghiên cứu đã được thực hiện trong nước và ngoài nước. Cả hai loại công việc này đều cần thiết cho việc xây dựng lý luận giáo dục và tâm lý Việt Nam trong phong trào cải cách giáo dục hiện nay.
---
Dương Thiệu Tống (2005). Thống kê ứng dụng trong nghiên cứu khoa học giáo dục (trang 139-167). NXB Khoa học xã hội. In tại TP. Hồ Chí Minh.

Chủ Nhật, 18 tháng 4, 2010

Nhập môn thống kê giáo dục (5): "Thống kê và nghiên cứu khoa học"

Tiếp tục giới thiệu với các bạn bài viết của GS Dương Thiệu Tống, lần này là vai trò của thống kê trong nghiên cứu khoa học.
---
[...] [T]ư duy thống kê cũng như các phương pháp tính toán thống kê giúp cho việc nghiên cứu khoa học về nhiều phương diện:

1. Trước hết, thống kê giúp cho việc mô tả các hiện tượng một cách chính xác. Mục tiêu của khoa học là mô tả các hiện tượng một cách đầy đủ và chính xác làm sao cho các điều mô tả ấy trở nên có ích lợi cho bất cứ ai có thể hiểu được nó khi đọc các ký hiệu sử dụng. Toán học và Thống kê học là một bộ phận của ngôn ngữ diễn tả, là một sản phẩm phát triển của các ký hiệu ngôn ngữ của chúng ta, được áp dụng một cách đặc biệt cho các loại mô tả mà các nhà khoa học đòi hỏi.

2. Thống kê học buộc ta phải tư duy một cách thật rõ ràng và chính xác. Có những nhà khoa học xã hội bênh vực cho những kết luận mơ hồ của họ bằng cách cho rằng thà họ phát biểu một cách mơ hồ mà đúng còn hơn là đưa ra những kết luận rõ ràng, minh bạch nhưng lại sai. Nhưng vấn đề không phải chỉ có hai lựa chọn, một là “mơ hồ mà không đúng”, hai là “rõ ràng nhưng sai lầm”. Ta vẫn có thể vừa “rõ ràng” và “đúng”, và cái cơ may có những kết luận đúng thường thiên về phía những lý luận hay phát biểu rõ ràng, chính xác hơn là ở những kết luận mơ hồ.

3. Thống kê cho phép ta tóm tắt các kết quả dưới dạng dễ hiểu và dễ xử lý. Các khối lượng quan sát của chúng, nếu cứ để y nguyên thì thật là phức tạp, hầu như vô nghĩa. Trước khi ta có thể trong thấy được cả cây lẫn rừng, ta phải tạo nên một thứ trật tự nào đó cho các dữ kiện. Thống kê cung cấp cho ta phương tiện để đem lại sự trật tự cho các dữ kiện. Chẳng hạn, ta không thể nhớ hằng trăm điểm số của sinh viên, nhưng nếu ta tính điểm trung bình và độ lệch tiêu chuẩn của phân bố các điểm số ấy thì ta có thể xử lý và giải thích các điểm số ấy một cách dễ dàng hơn.

4. Thống kê cho phép ta rút ra những kết luận tổng quát, và quá trình rút ra các kết luận ấy phải được thực hiện theo đúng quy tắc được chấp nhận. Hơn thế nữa, bằng phương tiện thống kê, ta có thể tuyên bố về mức tin tưởng mà ta có thể đặt vào các kết luận và cả mức độ rộng rãi của việc áp dụng những điều khái quát hóa của chúng ta.

5. Thống kê cho phép ta đưa ra những điều tiên đoán về “mức độ” có thể xảy ra của một sự việc nào đó trong những điều kiện mà ta đã biết và đã đo lường. Chẳng hạn, ta có thể tiên đoán về điểm số một sinh viên năm thứ nhất có thể đạt được về môn Toán học, nếu ta biết được điểm số của sinh viên ấy trên bài trắc nghiệm tiêu chuẩn hóa về khả năng toán (nếu ta có thể trắc nghiệm như vậy) điểm số trung bình cuả sinh viên ấy ở bậc trung học và có thể cả số giờ học sinh ấy dành hành tuần cho môn Toán v.v. Điều tiên đoán của ta có thể một phần nào sai lầm vì có nhiều yếu tố khác mà ta không biết và chưa kể đến, nhưng các phương pháp thống kê sẽ bảo cho ta biết giới hạn sai lầm là bao nhiêu để cho phép ta đua ra những điều tiên đoán như vậy.. Như thế, không những ta có thể đưa ra những điều tiên đoán mà còn biết mức độ tin tưởng ta có thể dặt vào những sự tiên đoán ấy.

6. Thống kê cho phép ta phân tích một số yếu tố nguyên nhân của các biến số phức tạp. Điều rõ rệt nhất là trong khoa học xã hội nói chung và khoa học giáo dục và tâm lý nói riêng, mọi biến cố, hay kết quả xảy ra do nhiều yếu tố nguyên nhân khác nhau. Lý do vì sao một phương án hay một biện pháp nào đó thành công hay thất bại thật là đa dạng và phức tạp. Các yếu tố nguyên nhân thường được phát hiện và chứng minh tốt nhất là bằng phương pháp thực nghiệm. Nếu ta có thể chứng minh rằng, với tất cả các yếu tố khác được giữ cố định,một phương án hay biện pháp nào đó thất bại theo mức độ thiếu sót một yếu tố X nào đó thì có lẽ rằng yếu tố X là nguyên nhân thất bại của biện pháp ấy. Thật ra đây chỉ là một thí dụ được đơn giản hóa để minh họa. Cố nhiên trong thực tế, vấn đề phức tạp hơn nhiều và người nghiên cứu phải nắm vững các kỹ thuật thống kê cũng như thiết lập đồ án thực nghiệm ( exprimental designs) mới có thể giải quyết một cách hiệu quả, cả về phương pháp lẫn lý luận.

Tuy nhiên, đối với nhà khoa học xã hội, không phải bao giờ học cũng điều khiển được con người và sự việc theo ý muốn để có thể dựng nên những cuộc thí nghiệm trong những điều kiện lý tưởng. Giải pháp thông thường là thực hiện những cuộc nghiên cứu bằng thống kê, dùng những con người ấy bằng hoạt động bình thường của họ, rồi trên cơ sở ấy người ta đưa ra những điều tiên đoán. Các chuyên viên về bảo hiểm nhân mạng thường làm như vậy. Họ theo dõi, nghiên cứu tất cả các yếu tố có thể ảnh hưởng đến thời gian sống lâu của con người, rồi xác định tầm quan trọng của các yếu tố ấy. Trên cơ sở các kết quả nghiên cứu bằng thống kê, họ có thể tuyên đoán một cá nhân thuộc một loại nào đó có thể sống được bao lâu, rồi công ty bảo hiểm căn cứ vào đó mà dự thảo chính sách bảo hiểm thích hợp. Dẫu sao, đây cũng chỉ là một thí dụ cho thấy rằng phương pháp thống kê có thể thay thế cho các cuộc thí nghiệm, các dữ kiện thực nghiệm cũng phải được xử lý bằng các phương pháp thống kê. Do đó, ta có thể nói rằng các phương pháp thống kê với các thực nghiệm khoa học thường đi kèm với nhau như hình với bóng.
---
Dương Thiệu Tống (2005). Thống kê ứng dụng trong nghiên cứu khoa học giáo dục (trang 139-167). NXB Khoa học xã hội. In tại TP. Hồ Chí Minh.

Thứ Bảy, 10 tháng 4, 2010

Nhập môn thống kê giáo dục (4): "Thống kê với khoa học xã hội"

Một phần khác trong bài viết của cố GS Dương Thiệu Tống mà tôi đã đăng trên blog này trong loạt bài Nhập môn thống kê giáo dục, bài số 3.
---

[...]Đây là một vấn đề lớn khá phức tạp, vì vậy tôi chỉ xin nêu một vài điểm căn bản liên hệ đến lý thuyết thống kê ta đang đề cập mà thôi.

Như ta đã biết, mọi tiên đoán trong tất cả các lĩnh vực khoa học đều chứa đựng sai số. Hai nguồn gốc của sai số ấy là sự khái quát hóa quy nạp và đo lường. Hai tính chất “mong manh” này của khoa học thực nghiệm không phải là những yếu tố phân biệt các lý luận khoa học tự nhiên với các lý luận khoa học xã hội mặc dù xác suất loại trừ các sai số này có thể giảm đi một cách đáng kể trong trường hợp các quy luật đã được xác nhận đúng đắn lồng trong một lý luận được phát triển ở mức cao và với các dụng cụ đo lường tinh vi. Như vậy, xét về phương diện nguồn gốc của sai số này thì sự khác biệt giữa khoa học “chính xác” và “không chính xác” quả là không đúng và sự khác biệt giữa cái được gọi là khoa học “cứng” và khoa học “mềm” chỉ là sự khác biệt về khoa học mà thôi. Ta có thể nhận thấy rõ sự khác biệt về mức độ này nếu xét đến hai đặc tính “khép kín” (closure) và “hoàn chỉnh” (completeness) của một số các thuyết vật lý học. Tính chất thứ nhất đòi hỏi rằng các khái niệm hay biến số căn bản được lồng trong một thuyết nào đó chỉ tác động qua lại với nhau mà thôi chứ không tác động với một biến số nào khác vào một thời điểm và địa điểm nhất định. Tính chất thứ hai nêu lên rằng các biến số thực sự tạo nên một sự khác biệt hay thay đổi nào đó phải đầy đủ, nghĩa là không được bỏ sót trong việc phát biểu các lý luận. Các thuyết cơ học thiên văn và nhiệt động học phi – nguyên tử là hai thuyết vật lý cổ điển, tuy nhiên mỗi thuyết đều gần như “đầy đủ” và “khép kín”, xét về phương diện các biến mà mỗi thuyết đều đề cập đến. Trong thuyết thứ nhất các biến số khối lượng, vận tốc, khoảng cách tác động với nhau và chỉ có chúng tác động qua lại với nhau mà thôi; trong thuyết thứ hai, đó là những biến số: thể tích, nhiệt độ, áp suất và một số các biến số khác cũng tác động với nhau như vậy. Các thuyết này gồm các quy luật theo đó ta có thể tính ra bất cứ lúc nào các trị số của một biến số này nếu ta biết được các trị số của tất cả các biến số khác. Không có cái gì khác xảy ra vào thời điểm và địa điểm nào đó có thể ảnh hưởng tới hành vi của các tính chất mà lý thuyết đề cập đến, ngoài những biến số mà thuyết đã nêu ra; hoặc ít nhất là ta cũng phải kể đến những yếu tố bên ngoài có thể gây ảnh hưởng khi ta đưa ra những điều tiên đoán hay tính toán. Tầm mức “hoàn chỉnh” và “khép kín” của các thuyết vật lý học ấy như thế nào, đó là vấn đề mà các nhà khoa học vật lý ngày nay có thể thẩm định.

Ở đây tôi chỉ nêu lên thí dụ ấy để thấy rõ rằng xét về hai đặc tính trên đây thì khoa học xã hội khó lòng đạt được các tiêu chuẩn ấy. Muốn xác định được tính “hoàn chỉnh” và “khép kín” của bất cứ hệ thống nào, trước hết ta phải làm sao đoán chắc được rằng không có cái gì bên ngoài hệ thống ảnh hưởng đến nó hoặc biết rằng những cái gì đi vào và đi ra hệ thống. Nói cách khác ta cần phải biết tất cả các biến số liên hệ. Nhưng khoa học xã hội làm thế nào thỏa mãn được điều kện này với tất cả những phức tạp của nó ít nhất là với tình trạng hiểu biết của ta hiện nay. Tính “khép kín” trong khoa học xã hội khó có thể xác định vì các tác động tương hỗ giữa các biến số không phải bao giờ cũng có tính cách nghịch đảo và đối xứng trong khoa học tự nhiên. Trong các lý thuyết vật lý, nếu một biến số x là một hàm số của biến số khác y, không những ta biết rằng một sự thay đổi nào đó ở y đem đến một sự thay đổi ở x mà ta còn biết rằng đều nghịch đảo cũng vẫn đúng. Ta cũng còn biết thêm rằng những gì xảy ra cho một biến số nếu thiếu một biến số kia. Trong khoa học xã hội, nếu ta biết rằng A và nguyên nhân gây ra B, ít khi có trường hợp ta có thể nói những sự thay đổi ở B sẽ ảnh hưởng như thế nào đến A hay là cái gì sẽ xảy ra cho B nếu không có A. Mặt khác tính “hoàn chỉnh” của khoa học xã hội cũng là một vấn đề thực khó khăn vì không một khoa học xã hội nào tự nó đạt được “tính hoàn chỉnh”. Mọi lý luận về hành vi của con người đều chứa đựng các biến số liên hệ đến các yếu tố chính trị, kinh tế, tâm lý, xã hội v.v. Vì tất cả các yếu tố này tác động lẫn nhau cho nên mỗi khoa học xã hội đều phụ thuộc ít hay nhiều vào những khám phá trong lĩnh vực khoa học khác.

Chính vì những khó khăn và thiếu sót trên mà khoa học xã hội phải nghĩ ra và ngày càng phát triển các kỹ thuật đặc biệt để hoàn chỉnh kiến thức trong lĩnh vực của mình hầu có thể sánh vai với các khoa học khác. Thống kê là một trong các kỹ thuật thiết yếu ấy. Mặc dù hiện nay vẫn còn có khoảng trống khá lớn giữa kiến thức thống kê với những gì ta cần phải biết và muốn biết trong lĩnh vực khoa học xã hội, các kỹ thuật thống kê, trong phạm vi những giới hạn của nó có thể cung cấp cho ta một phương pháp đạt dần đến “tính khép kín” và “hoàn chỉnh” của khoa học, những tiêu chuẩn tưởng chừng như không bao giờ đạt tới được và trở thành một dụng cụ không thể thiếu được của khoa học xã hội.

Trong mọi khoa học, như ta đã biết việc tìm hiểu các qui luật đòi hỏi phải có sự trừu tượng hóa hay là sự lựa chọn trong tất cả các khả năng mà thế giới bên ngoài có thể trưng bày ra cho ta. Vì vậy, các quy luật do tự bản chất của chúng chỉ mô tả một số khía cạnh nhất định của các loại sự vật hay biến cố mà chúng ta coi là có sự liên hệ. Vậy trong khoa học xã hội, biến số nào cần phải lựa chọn, cái gì cần phải loại ra, đó là một vấn đề khó khăn tưởng chừng như không thể giải quyết nổi. Sự tiến bộ về học tập của sinh viên đại học chẳng hạn, có thể phụ thuộc vào nhiều biến số, nhưng chiều cao và sức nặng của anh ta có lẽ không phải là những biến số đáng cho ta để ý. Nhưng ngay cả đến những biến số khác có thể có ảnh hưởng, như chương trình học, phương pháp giảng dạy của thầy giáo, trí thông minh, kinh nghiệm học tập, tình trạng gia đình v.v. cũng quá nhiều và quá khó khăn khiến cho ta khó có thể xác định tầm quan trọng tương đối của mỗi biến số để từ đó đưa ra một phát biểu nào đó về mối tương quan chính xác giữa sự tiến bộ về học tập của sinh viên và các yếu tố khác liên hệ.

Nhưng trước vấn đề khó khăn như vậy, nhà khoa học xã hội không chịu bó tay. Họ sử dụng cái mà thống kê học gọi là: “những biến số ngẫu nhiên” ta hãy đưa ra đây một thí dụ quen thuộc của nhà thống kê học là gieo một con xúc xắc. Khi ta gieo một con xúc xắc, mặt nào đó sẽ xuất hiện tùy thuộc vào rất nhiều nguyên nhân: trọng tâm của con xúc xắc, sức ném v.v. Nếu ta thử cố gắng tính toán các kết quả của mỗi lần thử bằng những quy luật cơ học thì chắc chắn ta sẽ tuyệt vọng vì ta khó đo lường chính xác tất cả mọi điều kiện ban đầu. Thay vì làm như vậy, ta biểu thị tất cả những nguyên nhân đa dạng ấy bằng một phân bố xác xuất cho một thuộc tính nào đó mà ta quan tâm đến. Nhà khoa học xã hội cũng làm như vậy. Họ cố ý lựa chọn một số ít yếu tố nào đó thay vì tất cả các yếu tố ảnh hưởng đến hành vi của con người, chuyển mục tiêu từ việc tiên đoán những hành vi cá nhân hay từng biến cố riêng lẽ đến việc tiên đoán “biến số ngẫu nhiên”, nghĩa là tiên đoán tần số xảy ra của loại hành vi ấy trong một nhóm cá nhân đông đảo có các yếu tố đã được xác định. Đó là cái giá mà họ phải trả. Cái phần thưởng dành cho họ là thay vì ngồi “nguyền rủa trong bóng tối” trước sự phức tạp vô hạn của con người và xã hội, họ “đốt lên được ngọn nến” để soi sáng một lĩnh vực mà họ muốn tìm hiểu, tuy đó không phải là sự hiểu biết về từng biến cố riêng rẽ mà là một phân bố xác suất, nhưng kiến thức ấy không phải là vô giá trị.

[Chỗ này viết rất hay, và nêu đúng bản chất của KHXH cũng như lý do tại sao thống kê lại cần thiết đến thế cho KHXH. Tiếc rằng hiện nay việc dạy thống kê cho các ngành KHXH vẫn chưa được chú trọng đúng mức.]

Những ý niệm trên đây dẫn đến việc sử dụng cái gọi là các “phương trình ngẫu nhiên” (stochastic equations) trong việc tiên đoán ngày nay. Chẳng hạn, xác xuất thành công của học sinh ở trường học được biểu thị như là một hàm số của trí thông minh. Các trị số quan sát của tần số thành công bị ảnh hưởng bởi các sai số quan sát. Nếu ta biết được phân bố xác suất của các sai số ấy ta có thể tiên đoán về xác xuất thành công cho một mức hay chỉ số thông minh nào đó. Như vậy kết quả tiên đoán của ta là một hàm số của cả trí thông minh (thường được đo bằng thương số trí tuệ) lẫn phân bố sai số. Trong vật lý học cũng vậy. Chẳng hạn, áp suất được đo lường ở một nhiệt độ cố định là hàm số của thể tích cộng hay trừ một sai số đã biết liên hệ đến đo lường thể tích. Nếu không có sai số quan sát thì mối liên hệ được phát biểu giữa áp suất và thể tích là chính xác, không cần phải có thêm phần tử thống kê. Tuy nhiên trong thí dụ của ta ở đây, cũng như trong khoa học xã hội nói chung, dù không có sai số hay dù thuyết sai số cho phép ta tách ra phần sai số số ấy, ta vẫn không thể tiên đoán được các trị số của cá nhân mà chỉ tiên đoán được một phân bố xác suất mà thôi. Đó là vì ngoài các sai số đo lường ra còn có một loại sai số khác, không liên hệ gì đến một biến số đặc biệt nào mà nằm ngay chính trong phương trình . Ta điều biết rằng không phải chỉ có trí thông minh mới ảnh hưởng đến sự tiến bộ của học sinh mà có rất nhiều các yếu tố khác, có thể rất nhỏ, đã bị bỏ qua, cho nên các yếu tố này có thể được biểu thị bằng một biến riêng biệt. Trong trường hợp này, ta có thể nói rằng mối liên hệ nêu ra trong phương trình là đúng nhưng ta phải kể thêm trong đó một phần “nhiễu” (disturbance). Phần nhiễu này phải có một phân bố xác suất đã được biết, không bị ảnh hưởng bởi những thay đổi của các biến số. Như vậy, trong thí dụ của ta ở đây, sự thành công của học sinh được biểu thị như là một hàm số của trí thông minh (thương số trí tuệ) và một biến số ngẫu nhiên. Phần gọi là ngẫu nhiên này biểu thị tác động hỗn hợp của tất cả các yếu tố không được xác định hay chưa được biết. Lối biểu thị như thế rất được thông dụng ngày nay trong khoa kinh tế học lý thuyết cũng như trong tâm lý học thực nghiệm. Do đó, người ta phân chia các biến số ra hai loại: các biến số hệ “thống” (systematic) bao gồm các biến số đã được xác định và nêu ra trong lý luận và các biến số “nhiễu” bao gồm tất cả các biến số khác không xác định hay chưa biết. Với sự hiểu biết ngày càng gia tăng về các nguồn gốc của sai số quan sát và với sự cải thiện các dụng cụ đo lường, ta sẽ có thể giảm thiểu sai số gây nên do các yếu tố này, đồng thời với sự hiểu biết gia tăng về các nguyên nhân ảnh hưởng đến hành vi của con người ta sẽ có thể giảm thiểu sai số trong phương trình bằng cách phân tích các yếu tố gọi là “nhiễu” ra thành các phần tử, và như vậy, dần dần ta có thể đạt đến mức “hoàn chỉnh” cao hơn của các biến số trong lĩnh vực nghiên cứu.

Tóm lại, qua phần trình bày trên đây, ta thấy rằng chính vì sự thiếu tính “hoàn chỉnh” và “khép kín” tương đối của khoa học xã hội so với khoa học tự nhiên mà thống kê xác suất trở thành một dụng cụ không thể thiếu được của nhà khoa học xã hội. Nhà khoa học xã hội không thể bó tay trước sự phức tạp của những nguyên nhân ảnh hưởng đến hành vi của con người và cũng không thể tin rằng mọi hành vi là do ngẫu nhiên không thể tiên đoán được. Bằng lý luận thống kê xác suất, họ gộp tất cả các nguyên nhân chưa xác định hay chưa biết trong cái gọi là “biến số ngẫu nhiên” và tìm hiểu phân bố xác suất của nó. Những biến số này không phải là ngẫu nhiên vĩnh viễn. Với kiến thức ngày càng gia tăng, họ có thể giảm thiểu được các sai số, thu hẹp lại phần gọi là “nhiễu” bằng cách phân tích nó ra thành bộ phận, nhờ đó đạt đến mức kiến thức ngày càng sâu rộng hơn, chính xác và hoàn chỉnh hơn trong lĩnh vực khoa học của mình.
---
Dương Thiệu Tống (2005). Thống kê ứng dụng trong nghiên cứu khoa học giáo dục (trang 139-167). NXB Khoa học xã hội. In tại TP. Hồ Chí Minh.

Thứ Ba, 6 tháng 4, 2010

Statistics jokes

Một số truyện cười về thống kê, xin chép lại cho mọi người đọc, thư giãn khi quá căng thẳng vì học thống kê mà không hiểu!
---

In God we trust. All others must bring data.
Chúng ta tin vào Chúa. Còn mọi người khác, nhớ đem theo dữ liệu nhé.

If I had only one day left to live, I would live it in my statistics class: it would seem so much longer.
Nếu tôi chỉ còn nửa ngày để sống sót, tôi sẽ trải qua thời gian ấy trong lớp thống kê: tôi sẽ có cảm giác còn được sống lâu hơn rất nhiều.

Three statisticians went out hunting, and came across a large deer. The first statistician fired, but missed, by a meter to the left. The second statistician fired, but also missed, by a meter to the right. The third statistician didn't fire, but shouted in triumph, "On the average we got it!"
Ba nhà thống kê đi săn, gặp một con hươu lớn. Người thứ nhất bắn trượt, do nhắm lệch 1 mét về bên trái. Người thứ hai bắn cũng trượt, do lệch một mét về bên phải. Người thứ ba không bắn, mà reo lên mừng rỡ: "Nếu tính trung bình thì chúng ta đã bắn trúng rồi đó!"

Did you hear about the politician who promised that, if he was elected, he'd make certain that everybody would get an above average income?
Bạn có nghe việc một nhà chính trị đã hứa khi tranh cử, rằng nếu trúng cử ông ta sẽ cam kết sẽ làm cho mọi người có mức thu nhập trên trung bình hay chưa?

There are three kinds of lies: lies, damned lies, and statistics.
Có ba loại nói láo: nói láo, nói láo trắng trợn, và nói thống kê.

Logic is a systematic method for getting the wrong conclusion with confidence.
Statistics is a systematic method for getting the wrong conclusion with 95% confidence.
Logic là phương pháp có hệ thống để giúp ta đi đến kết luận sai một cách tự tin. Còn thống kê là phương pháp có hệ thống để giúp ta đi đến kết luận sai với chỉ khoảng 95% độ tự tin thôi.

I asked a statistician for her phone number... and she gave me an estimate.
Tôi hỏi xin một nhà thống kê số điện thoại của cô ta ... và cô ấy cho tôi một ước lượng.

A statistician's wife had twins. He was delighted. He rang the minister who was also delighted. "Bring them to church on Sunday and we'll baptize them," said the minister.
"No," replied the statistician. "Baptize one. We'll keep the other as a control.
Một nhà thống kê có vợ sinh con sinh đôi. Ông ta rất mừng và gọi điện cho mục sư để đăng ký làm lễ rửa tội cho con. Mục sư bảo: "Đem hai đứa trẻ đến nhà thờ, ta sẽ làm phép rửa cho chúng." Người cha trả lời: "Không, chỉ cần rửa tội một đứa thôi, đứa kia phải ở nhà để làm nhóm đối chứng."

Thứ Sáu, 2 tháng 4, 2010

Nhập môn thống kê giáo dục (3): "Việc giảng dạy và học tập thống kê giáo dục học ở đại học"


Tiếp tục loạt bài Nhập môn thống kê giáo dục lần này, tôi xin giới thiệu một phần trích trong bài viết rất dài có tựa đề là "Lý thuyết thống kê với khoa học giáo dục-tâm lý" của GS Dương Thiệu Tống, một nhà giáo, nhà khoa học giáo dục nổi tiếng ở miền Nam, thành danh từ thời Việt Nam Cộng Hòa, người đã trực tiếp tham gia tổ chức kỳ thi "Tú Tài IBM" năm 1974 sử dụng phương pháp trắc nghiệm khách quan mà những năm sau này Bộ Giáo dục và Đào tạo đã áp dụng để cải cách thi cử.

Bài viết này được công bố lần đầu tiên vào năm 1998, 20 năm trước khi GS Dương Thiệu Tống qua đời, trên Tạp chí Phát triển Khoa học và Công nghệ của ĐHQG-HCM. Hơn 20 năm đã qua, mà đọc lại những gì GS Tống viết vẫn còn rất mới. Nhưng chắc chắn những gì ông viết cũng đã được nung nấu, âm ỉ từ trước đó rất lâu rồi, mà chỉ đến khi VN mở của thì GS Tống mới nói ra được. Đủ biết là giáo dục VN lạc hậu như thế nào so với thế giới!

Ai cũng biết rõ GS Tống là một người rất trăn trở với sự nghiệp giáo dục của đất nước, và cũng đã cố hết sức mình để góp sức vào sự nghiệp đó. Nói đến ông, sẽ có nhiều giảng viên ở ĐH Sư phạm TP Hồ Chí Minh còn nhắc đến lớp học Thống kê giáo dục do ông tổ chức tại gia trong một thời gian dài, để tự mình đào tạo ra những người có chút hiểu biết và tư duy thống kê để áp dụng trong giáo dục.

Tôi cũng có một vài kỷ niệm cá nhân với GS Tống. Trước hết là vào giữa năm 1996, khi gần nộp luận án, thầy hướng dẫn của tôi có hỏi tôi xem ở VN có người nào cùng trong ngành giáo dục và có học hàm, học vị để có thể cùng chấm luận án của tôi được không. Để khoa đề cử vào danh sách cho hội đồng xem xét và mời (chưa chắc đã được mời, nhưng danh sách thì cứ đề nghị). Mời như vậy là để công bằng cho nghiên cứu sinh, vì có thể luận án đưa ra những điều có ý nghĩa lớn cho quốc gia của mình, nhưng những giáo sư ở các nước khác sẽ không được thấy cái đóng góp đó.

Người đầu tiên tôi nghĩ đến là GS Dương Thiệu Tống, vì ngành giáo dục của VN lúc ấy cũng chẳng có mấy ai biết về hệ thống giáo dục phương Tây (tư bản) để mà tham gia. Nhưng sau đó thì tôi không thấy thầy tôi hỏi nữa, chắc là do Hội đồng thuộc mấy cái nước tư bản khốn nạn (dù chính nó cho tôi học bổng, một loại viện trợ giáo dục cho VN) nó không muốn cho các nhà khoa học của mình nở mày nở mặt với thiên hạ (!).

Sau khi về, tôi còn được gặp thầy Tống nhiều lần, có một lần ở tại nhà của ông tại đường bây giờ là đường gì tôi quên rồi, nhưng ngày xưa là Trương Minh Giảng (tên này có từ hồi trước 1975 lận! Hình như bây giờ là Lê Văn Sỹ). Nhà trong hẻm sâu lắt léo, bây giờ có đi lại cũng ... bó tay luôn. Lúc ấy ông đang có "seminar tại gia" cho các giảng viên trẻ (so với ông) và ông mời tôi đến để nghe. Vì lần ấy tôi có đang làm đề tài về trắc nghiệm, và muốn mời ông làm phản biện. Ông rất vui, và nói một câu tôi còn nhớ: "Tôi sẵn sàng đọc, và tôi sẽ "phản biện", nhưng mà tôi không "phản" các bạn đâu!".

Lần cuối cùng tôi định gặp ông là khi một GS Mỹ mà tôi quen đã lâu - từ đầu thập niên 1990 - khi trở lại VN năm 2008, muốn đến thăm ông. GS người Mỹ đó lúc đó đang làm việc ở Hà Nội, tôi nhờ hẹn gặp ông để khi xong việc ở Hà Nội thì vào Sài Gòn gặp ông. Khi tôi nhờ người liên lạc thì lúc ấy ông đang rất mệt, phải thở oxy, nhưng lúc ấy vì tuổi đã cao, thỉnh thoảng vẫn mệt như thế, nên không nghĩ ông đã đến lúc nguy kịch. Không ngờ chỉ vài ngày sau là ông mất, và vị GS người Mỹ kia dù đang ở VN, đang chờ bay vào SG để gặp ông, nhưng không còn kịp nữa!

Ai muốn đọc thêm về GS Tống thì có thể đọc bài này trên Tuần Việt Nam, viết khi ông mất. Còn dưới đây là một phần bài viết của ông, có liên quan đến loạt bài về nhập môn thống kê của tôi.

Và trước khi đọc, xin cúi đầu một giây để tưởng nhớ về ông! Một người đúng là đã tận hiến cho giáo dục VN, như tựa bài báo ở trên.

Phần in nghiêng đậm (bold italics) trong bài dưới đây là do tôi thêm vào để nhấn mạnh.
--
Việc giảng dạy và học tập thống kê giáo dục học ở đại học

[...] [B]ản chất của thống kê là toán học, và ngay cả trong số các thầy giáo môn toán học, không phải ai cũng nắm được tất cả những ý nghĩa, ứng dụng và các phân nhánh của lý thuyết thống kê. Nếu các giáo chức thuộc ngành khoa học tự nhiên có thể tìm thấy ở khoa thông kê và phương pháp nghiên cứu khoa học giáo dục những khái niệm quen thuộc và sẵn sàng áp dụng thống kê cho các công trình nghiên cứu giáo dục của mình thì các thầy giáo trong lĩnh vực khoa học xã hội, mặc dù họ có thể ý thức được tầm quan trọng của thống kê, vẫn còn e ngại trước những con số, những công thức rườm rà, tưởng như vượt khỏi khả năng hiểu biết của mình về toán học. Mặc dù vậy, cả hai loại thầy giáo nói trên đều cần phải nghiên cứu, cả hai phải nắm vững một bộ môn mà họ không được chuẩn bị đồng đều như nhau.

Nhưng có lẽ ít có môn học nào chứng tỏ có nhiều mức hiểu biết như khoa thống kê học. Những nhà khoa học trứ danh như Charles Darwin đã từng thú nhận ông đã gặp nhiều khó khăn với khoa thống kê. Một nhà khoa học khác cũng nổi danh không kém và là người anh em họ với Darwin, Sir Francis Galton, một người nổi tiếng thông minh xuất chúng đã có nhiều công lao đem môn thống kê vào việc nghiên cứu tâm lý, cũng phải đưa một số vấn đề toán học cho người khác giải quyết dùm.

Thật ra có nhiều cách hiểu cùng một vấn đề như nhau. Một sinh viên có thể nắm vững các ý tưởng mới mẻ về thống kê ở trình độ của nhà toán học. Sinh viên khác có thể chỉ hiểu các quy tắc tư duy logic và các khái niệm thống kê để hỗ trợ cho việc suy nghĩ, lý luận của mình. Lại có sinh viên khác nữa nắm vững các kỹ thuật tính toán thống kê mà chỉ có ý niệm tối thiểu về ý nghĩa của nó.

Mục đích của việc giảng dạy thống kê giáo dục ở đại học, nói chung, không phải là để đào tạo những chuyên viên với trình độ hiểu biết của nhà toán học, cũng không phải đào luyện những người chỉ biết lý luận thống kê, hay ngược lại, chỉ biết tính toán như cái máy. Ngày nay, khoa Thống kê ứng dụng trong giáo dục và tâm lý đã được phát triển và được giảng dạy có hiệu quả ngang nhau cho Thầy giáo và Sinh viên thộc các lĩnh vực khoa học tự nhiên và xã hội.

Mục đích của việc giảng dạy và học tập môn thống kê giáo dục và tâm lý ngày nay nhằm đến những kết quả cụ thể như sau:

1. Nắm vững thuật ngữ Thống kê. Để có thể đọc và hiểu một ngoại ngữ, người học bao giờ cũng phải xây dựng cho mình một số vốn liếng từ ngữ. Đối với người mới học, thống kê có thể xem như một “ngoại ngữ”, nhưng với thời gain học tập, ngoại ngữ nay không còn xa lạ với người học nữa. Từ ngữ của nó bao gồm các khái niệm, được biểu thị bằng các thuật ngữ thống kê, các ký hiệu dùng để thay thế ngôn ngữ. Một phần lớn các thuật ngữ này đều nằm trong toán học, một số khác sẽ dần dần trở thành quen thuộc với người học trong quá trình sử dụng.

2. Tiếp thu và phát triển khả năng tính toán thống kê. Mặc dù mục đích của thống kê không phải là đào tạo những người tính toán như máy, nhất là hiên nay, với sự phát triển các máy điện toán hiện đại, nhưng việc tính toán thống kê cũng rất quan trọng. Đối với nhiều người, sự hiểu biết các khái niệm lại càng thêm chắc chắn, sâu sắc qua việc áp dụng các khái niệm ấy trong tính toán. Do đó, người nghiên cứu càng hiểu thêm ý nghĩa của các khái niệm và ý nghĩa công việc làm của mình. Kỹ năng tính toán thống kê, trong đó bao gồm cả việc áp dụng các công thức và thảo hoạch các bước tính toán cần thiết, càng ngày càng được trau dồi qua việc huấn luyện.

3. Biết giải thích các kết quả thống kê một cách đúng đắn. Các kết quả rút ra được từ các phép tính thống kê chỉ có lợi ích nếu được giải thích đúng đắn. Như vậy, các kết luận rút ra từ các dữ kiện mới mang đầy đủ ý nghĩa của nó. Không biết giải thích các kết quả thống kê người ta sẽ vô cùng bối rối trước những trang dày đặc các kết quả tính toán khi sử dụng các phần mềm thống kê hiện có sẵn trên thị trường, chẳng hạn SPSSPC, SYSTAT, BMDP, SAS, STATISTICA vv. Hiểu sai lầm kết quả các phép tính thống kê cũng dẫn đến những kết luận sai lầm hay vượt qua khỏi phạm vi giải thích mà các kết quả thống kê cho phép. Vì người đọc một bản tường trình nghiên cứu bình thường ít khi có thể giải thích kết quả nghiên cứu đúng như nhà nghiên cứu đã suy nghĩ nên trách nhiệm của người nghiên cứu là phải trình bày thật rõ các kết luận của mình và nêu ra những hạn chế có thể có trong các kết luận. Vì vậy, khả năng giải thích ý nghĩa kết quả của thống kê là điều kiện cần thiết đối với người đọc cũng như người làm các công trình nghiên cứu.

4. Nắm vững Logic của thống kê. Giống như tất cả các địa hạt khác của toán học, thống kê là một hệ thống logic được áp dụng đặc biệt trong việc xử lý các vấn đề khoa học. Nó là một lối tư duy khoa học, một thứ ngôn ngữ chuyên môn. Điều này thật khó giải thích với những người mới bắt đầu học thống kê, nhưng họ có thể nhận thấy đần dần thứ logic ấy khi đề cập đến các vấn đề như: sai số chọn mẫu, thiết lập giả thuyết nghiên cứu(research hypothesis) và giả thuyết bất dị(hay giả thuyết không chệch (null hypothesis), như có nơi thường gọi), các vấn đề tiên đoán (prediction), phân tích các yếu tố ( factor analysis)vv. Người nghiên cứu bắt buộc phái nắm vững các khía cạnh logic của vấn đề nghiên cứu trước khi thực hiện các nghiên cứu thực nghiệm hay điều tra khảo sát. Vì không hiểu như vậy nên nhiều người nghiên cứu thiếu kinh nghiệm thường chỉ nghĩ đến việc thu thập dữ kiện mà chưa suy nghĩ phân tích kỹ lưỡng vấn đề nghiên cứu. Kết quả là họ không biết những loại dữ kiện nào cần phải thu thập, và khi thu thập được mớ dữ kiện hỗn độn, họ không biết xử lý như thế nào để rút ra kết luận. Công việc thiết kế đồ án nghiên cứu buộc người nghiên cứu phải nắm vững trước hết các khía cạnh logic của vấn đề nghiên cứu, các kỹ thuật thống kê nào thích hợp cần phải sử dụng để giải quyết các vấn đề mình đang muốn tìm hiểu.

5. Biết khi nào nên và không nên áp dụng thống kê. Không phải mọi vấn đề giáo dục hay tâm lý đều có thể giải quyết được bằng thống kê. Tất cả mọi thống kê đều có những giới hạn của chúng.Mọi thống kê (statistic) đều phát xuất từ những ý tưởng thuần túy toán học, như vậy chúng phải dựa trên một số giả định (asumptions). Thì số thống kê ấy mới áp dụng được một cách thích hợp. Chẳng hạn, khi ta dạy cho học viên về các hệ số tương quan, thí dụ: hệ số tương quan Pearson, tương quan phi phết, tương quan nhị phân (biserial), hệ số tương quan tetrachoric v.v., ta cần cho học viên hiểu các giả định đặt ra cho mỗi loại về tính chất của các biến số, hoặc biến số ấy được giả định là phân bố chuẩn(normous), hoặc liên tục(continuous), hoặc phân đôi(dichotomous), hoặc phân ba(trichotomous) vv. Hiểu biết được các giới hạn của việc sử dụng thống kê một cách sai lầm, chỉ có tác dụng thuyết phục những ai chưa biết. Những lỗi thuyết phục như vậy thật là vô cùng tai hại cho việc tìm hiểu khoa học.

[Nói thêm chút: Tôi cho rằng 3 mục tiêu 3, 4, 5 là các mục tiêu quan trọng nhất, đặc biệt đối với những nhà quản lý và lãnh đạo trong ngành giáo dục.

Và liên hệ phần 5 này với những phần tôi đã viết: logic thống kê là một phần của tư duy thống kê, tiếng Anh gọi là statistical reasoning - lập luận thống kê. Tôi sẽ viết về cái này sau, cũng trong loạt bài này.]


6. Hiểu biết các căn bản toán học của thống kê. Mục tiêu thứ năm vừa nói trên đây có thể đạt được tương đối dễ dàng đối với các học viên có căn bản toán học khá vững. Nhưng điều kiện này không nhất thiết đòi hỏi ở mọi học viên, nhất là học viên thuộc lĩnh vực khoa học xã hội. Các sách thống kê ứng dụng trong giáo dục và tâm lý, được xuất bản và sử dụng làm sách giáo khoa trong vòng một thế kỷ nay, đã được soạn thảo để làm sao cho mọi học viên đều có thể học mà chỉ cần đòi hỏi ở họ một số kiến thức cơ bản về đại số học. Đó không phải là những cuốn sách dạy học viên về kỹ năng tính toán thống kê hay áp dụng các công thức một cách máy móc, mà trái lại, kinh nghiệm trong việc sử dụng các sách ấy, kèm theo với phương pháp giảng dạy thích hợp, cho thấy rằng các học viên, kể cả học viên ngành khoa học xã hội, đều có thể sử dụng thống kê một cách có ý thức, nắm vững được các tương quan toán học làm cơ sở cho thống kê mà không cần có trình độ cao cấp về các phép tính ma trận, hình học giải tích hay tích phân.

Tuy nhiên, đối với các học viên có căn bản toán hay những ai muốn tìm hiểu sâu hơn về căn bản toán học của thống kê thì việc chứng minh các công thức cũng có thể giúp họ hiểu thấu đáo ý nghĩa của các phép tính, lý do vì sao chúng được sử dụng, và có lẽ nhờ đó mà dễ nhớ hơn công thức thích hợp để áp dụng khi cần.

Vì vậy, một số sách thống kê giáo dục, nhưng không phải tất cả, thường có riêng phần phụ đính đề cập đến các cơ sở toán học của thống kê, dành riêng cho loại độc giả này.

[Lại nói thêm: GS Tống nói đoạn số 6 này thật trúng ý tôi! Đó, các bạn (dốt toán giống tôi, suỵt, nói nho nhỏ thôi) thấy không, đâu có cần giỏi toán mới dùng được thống kê giáo dục? Mà, cái này nói lén à nhen, có nhiều người giỏi toán nhưng chỉ như cái máy giải toán thôi, chứ chắc gì đã có tư duy thống kê, phải hôn các bạn?]
-----
Dương Thiệu Tống (2005). Thống kê ứng dụng trong nghiên cứu khoa học giáo dục (trang 139-167). NXB Khoa học xã hội. In tại TP. Hồ Chí Minh.

Chủ Nhật, 28 tháng 3, 2010

Nhập môn thống kê giáo dục (1): Thống kê là gì và tại sao phải học thống kê?

Tiếp theo bài mở đầu hôm trước, hôm nay tôi sẽ bắt đầu loạt bài "Nhập môn thống kê giáo dục", viết bằng ngôn ngữ bình dân, thông thường để nó dễ hiểu nhất ngay cả đối với những người chỉ mới hết THCS. Bởi vì như đã nói hôm trước, điều quan trọng trong việc ứng dụng thống kê trong giáo dục không phải là khả năng biết thao tác thống kê (việc này ngày nay chỉ cần một lệnh enter trên máy tính) mà là có tư duy thống kê - statistical thinking, vì không ai khác có thể tư duy thay cho chúng ta.

May mắn thay, tư duy thống kê là cái mà mỗi người chúng ta đều có tiềm năng, mà không biết là mình có. Vì vậy, môn học "nhập môn thống kê giáo dục" này, theo cách hiểu (và mong đợi) của tôi, sẽ làm cho tiềm năng đó thành năng lực thực sự để giải quyết những vấn đề trong cuộc sống của mình.

Như đã nêu trong tựa entry, trong bài viết này tôi sẽ trả lời câu hỏi: Thống kê là gì và tại sao phải học thống kê. Như vậy, bài viết sẽ gồm 2 phần, xoay quanh 2 phần của câu hỏi nói trên.

--

Phần dưới đây được viết dựa theo ý tưởng và cấu trúc của bài viết trên trang web của ĐH Melbourne, ở đây.

Thống kê là gì?
Tư duy thống kê hiện diện thường xuyên trong cuộc sống nhiều hơn chúng ta tưởng rất nhiều. Khi ta phát biểu "Anh ta là người tầm thước", hoặc "Thường thì tôi không ăn sáng", hoặc nữa "Cô ấy chắc khó lòng thi đậu kỳ này", tất cả những phát biểu trên đều có thể xem là có chứa tư duy thống kê.

Vậy thống kê là gì? Đó là một ngành học giúp ta thực hiện những công việc sau:
1. Thu thập dữ liệu và thiết kế các nghiên cứu định lượng
2. Tóm tắt thông tin nhằm hỗ trợ quá trình tìm hiểu về một vấn đề hoặc đối tượng nào đó
3. Đưa ra những kết luận dựa trên số liệu, và
4. Ước lượng hiện tại hoặc dự báo tương lai
Thống kê thường đi kèm với môn học song hành là Xác xuất, là ngành học nhằm đưa ra các mô hình toán học về sự ngẫu nhiên và cho phép tính toán về sự ngẫu nhiên trong những trường hợp phức tạp.

Tại sao cần phải học thống kê?
Ngày nay thống kê đã trở nên một công cụ quan trọng trong công việc của các nhà chuyên môn thuộc nhiều ngành khác nhau: y tế, tâm lý, giáo dục, xã hội học, kỹ thuật, vật lý vv. Thống kê cũng là một phần quan trọng trong các hoạt động thường ngày trong xã hội như kinh doanh, công nghiệp, và chính quyền.

Vì vậy, để đáp ứng yêu cầu của cuộc sống hiện đại thì tư duy thống kê là điều không thể thiếu đối với bất kỳ ai, dù công việc của người đó có liên quan trực tiếp đến các phương pháp thống kê hay không.

Dưới đây là một số ví dụ về việc ứng dụng thống kê trong cuộc sống hàng ngày.

1. Y tế
Ánh nắng mặt trời và ung thư da
Chứng cứ thuyết phục về mối liên hệ giữa việc tiếp xúc trực tiếp với ánh nắng mặt trời và ung thư da đã được một nhà thống kê người Úc phát hiện ra, Ông Oliver Lancaster. Ông quan sát thấy rằng tỷ lệ người bị ung thư da trong số dân da trắng gốc Bắc Âu có tương quan thuận với vĩ độ của nơi họ ở, tức có tỷ lệ với lượng ánh nắng mặt trời mà họ tiếp xúc: các tiểu bang ở phía bắc có tỷ lệ ung thư da cao hơn các tiểu bang phía nam.

Quan sát này chỉ có thể đưa ra được bằng việc thu thập đầy đủ các số liệu và đưa ra các quan sát có phương pháp về tỷ lệ ung thư da. Đó là lý do tại sao cần học thống kê.

2. Điều tra xã hội/ thăm dò dư luận
Có nên tin kết quả điều tra qua điện thoại trên các chương trình TV không?
Đại khái các cuộc thăm dò thuộc loại này được thực hiện như sau. Bạn xem một chương trình TV trong đó bạn xem đài được mời gọi điện thoại đến đài truyền hình để trả lời một câu hỏi đơn giản như "Liệu TQ có sẽ tăng giá đồng Nhân dân tệ không?". Quay số 1 là có, số 2 là không chẳng hạn.

Kết quả của những cuộc thăm dò như thế này thiếu tin cậy, do cách thu thập số liệu không được kiểm soát. Ví dụ, một bạn xem đài có thể quay số nhiều lần, và các hội đoàn có cùng quan điểm cũng có thể làm như vậy. Muốn có thông tin đúng phải thiết kế cách thu thập thông tin một cách có phương pháp, sử dụng phương pháp lấy mẫu ngẫu nhiên. Lấy mẫu là một nội dung quan trọng được dạy trong môn thống kê.

Những ai muốn đọc thêm các thí dụ khác (bằng tiếng Anh) xin vào trang web của Khoa Thống kê trường ĐH Melbourne theo link đã nêu ở trên.

Enjoy, and good luck!
--
Cập nhật ngày 2/4/2010:
Lý do cần phải học thống kê ư? Câu trả lời thật rõ ràng, ở đây này: For Today's Graduates, Just One Word: Statistics. Sinh viên tốt nghiệp ngày nay chỉ cần một từ thôi: Thống kê. Tin trên báo New York Times ngày 5/8/2009.

Thứ Bảy, 27 tháng 3, 2010

Viết cho những người mới học thống kê giáo dục lần đầu tiên

Tôi viết entry này để tặng các sinh viên cao học chuyên ngành đo lường đánh giá trong giáo dục, những người cần học thống kê giáo dục và sẽ phải dùng nó dài dài trong cuộc đời làm việc của mình, nếu các bạn làm đúng ngành mình học.

Trước khi viết thêm, tôi cần xác định ngay tôi hoàn toàn không phải là chuyên gia thống kê, mù tịt về phần toán học làm cơ sở cho cách tính toán của nó. Nếu là thời xưa, phải dùng máy tính tay và nhớ công thức để tính, thì chắc chắn là tôi "chết ngay tại chỗ" rồi chứ không còn ngồi đây mà viết entry này nữa. Nếu có dám nhận là gì, thi tôi chỉ gồng mình lên nhận mình có hiểu biết các khái niệm thường dùng, và có khả năng sử dụng thống kê để giải quyết những vấn đề quen thuộc mà công việc quản lý đặt ra cho tôi hàng ngày mà thôi. Thế cũng giỏi lắm rồi còn gì.

Thời tôi còn làm luận văn tiến sĩ ở Úc vào giữa thập niên 1990, tôi vẫn còn phải tính bằng tay khi ngồi dự thính trong lớp thống kê của sinh viên. Nhưng lúc ấy cũng đã có SPSS rồi (phải thuộc syntax để viết lệnh, chứ không dùng menu dễ dàng như ngày nay). Nên tôi mới sống sót được qua cái luận văn khủng khiếp đó. Vậy các bạn yên tâm là đa số chúng ta đều sợ thống kê, trừ mấy cái đầu siêu việt mê toán thì không nói. Mà nói lén các vị ấy một chút, mấy người giỏi toán dạy thống kê cho các bạn thì các bạn sẽ không hiểu gì hết, và có lẽ cũng chẳng dùng được đâu vì quá trừu tượng.

Quay trở lại thống kê và phần mềm thống kê. Tôi cho rằng việc phải tính bằng tay như ngày xưa tuy khó nhưng cũng có tác dụng của nó: giúp người học hiểu rõ khái niệm hơn, và nếu không hiểu thì không thể nào tính được. Còn ngày nay, cứ nhập số liệu vào máy, nghịch ngợm một hồi cũng ra được đủ thứ kết quả, mặc dù người học có thể chẳng hiểu gì. Thế mới chết! Mà đó cũng là kinh nghiệm tôi đã trải qua rất nhiều lần khi ngồi hội đồng chấm luận văn cao học ngành phương pháp giảng dạy tiếng Anh rồi.

Nói gần, nói xa, chẳng qua nói thật: Tôi cho rằng việc học thống kê thời nay, đặc biệt là với đối tượng như các bạn, thì hiểu rõ khái niệm và ý nghĩa của các kết quả thao tác thống kê còn quan trọng hơn nhiều so với việc có thể thao tác ra nó. Mà cách sách vở soạn để dạy thống kê ở VN đa số vẫn chỉ chú trọng phần thao tác. Giống như rất nhiều thứ khác ở VN: quên hỏi why, mà chỉ hỏi what hoặc how mà thôi!

Vì quan điểm như vậy, nên các sách thống kê của VN rất thiếu phần minh họa cụ thể và được bối cảnh hóa để người học hiểu rõ khái niệm. Và quan trọng không kém là giải thích sao cho người học hiểu được và đọc được các kết quả thống kê, tương tự như các bác sĩ đọc kết quả xét nghiệm vậy. Đã là bác sĩ thì không cần, mà có lẽ cũng không thể, tự tay làm xét nghiệm, mà chỉ cần đọc ra ý nghĩa của kết quả xét nghiệm thôi.

Vậy phải làm sao? Tôi nghĩ, có lẽ tôi sẽ cần chia sẻ dài dài những suy nghĩ của tôi với các bạn trên blog này. Nhưng hôm nay thì tạm dừng lại với việc giới thiệu một trang web mà tôi cho rằng đáp ứng được đúng nhu cầu của các bạn (một kiểu statistics for idiots đấy mà). Đó là trang web Hyperstats Online Statistics Textbook, ở đây. Bảo đảm rất dễ chịu, dễ hiểu, và đáp ứng đúng yêu cầu giúp hiểu khái niệm và ý nghĩa hơn là thao tác. Điều duy nhất có thể gây khó khăn cho các bạn là ... tiếng Anh, nhưng không sao, có thể gửi comment hỏi tôi thì tôi sẽ trả lời.

Tạm thời thế các bạn nhé. Ít ra các bạn có thể yên tâm rằng các bạn cũng chẳng kém gì hơn ai: tôi đã bật mí cái bí mật dốt toán của tôi ra cho các bạn biết rồi đấy. Mà vẫn tồn tại tốt đến giờ với thống kê giáo dục đó thôi!
--
Cập nhật ngày 28/3/2010
Thêm một link nữa cho các bạn. Trang web có tên Statistics Help for Journalists. Dễ hiểu, dành cho người dốt toán (!). Link đây: http://nilesonline.com/stats/

Hoặc trang này, cũng dành cho người mới học: http://www.nvctc.commnet.edu/ir/statsprimer.shtml

Một link khác, advanced hơn, chỉ dẫn đến những nguồn tư liệu về thống kê. Ở đây.
Link đây: http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm

Còn các link này dành cho giáo viên, ở đây. Link: http://www.datadesk.com/support/guide/

đây nữa, link: http://www.stat.psu.edu/online/program/stat504/01_overview/index.html