[Khái quát] Xác suất thống kê
TỔNG QUAN XÁC SUẤT THỐNG KÊ
Xác
suất thống kê là một lý thuyết quan trọng trong các bài toán nghiên cứu về số
liệu, đặc biệt là ngành CNTT. Học tốt môn xác suất thống kê sẽ là nền tảng cho
việc nghiên cứu chuyên sâu sau này, đặc biệt là trong lĩnh vực Trí tuệ nhân tạo.
Vậy xác suất thống
kê là gì? Nó là một nhánh của toán học bao gồm hai nội dung: Xác suất, Thống kê.
Chúng ta sẽ phân tích rõ từng thành phần trong khái niệm này
Xác suất (Probability)
Đó là một lý thuyết
toán học tính toán về khả năng xảy ra của một vấn đề nào đó, như là tỉ lệ tung
ra một mặt của xúc xắc, hay là khả năng trúng giải độc đắc của một tờ vé số. Các
bài toán xác suất đã có từ thời nguyên thủy, nhưng nở rộ vào thời kỳ Phục Hưng(*).
Những con bạc không thể giải thích được quy luật của những trò chơi may rủi, nên
đã tìm đến những nhà khoa học nổi tiếng và nhờ họ nghiên cứu về nó. Trong một
khoảng thời gian dài, có những nghi ngờ về việc liệu lý thuyết xác suất sẽ trở
thành một phần trong toán học hoặc vật lý hay không. Thắc mắc này được đưa ra bởi
nhà toán học David Hilbert, và đã được trả lời bởi nhà toán học A. N.
Kolmogorov vào giữa thế kỉ XX, khi mà ông đã xây dựng được một nền tảng cơ bản
vững chắc cho lý thuyết xác suất, là nguồn gốc của các phương pháp giải quyết bài
toán tỉ lệ sau này.
(Một chút thông
tin về việc xây dựng một lý thuyết toán học: Người ta sẽ tìm ra những tiên đề,
và tổng hợp lại thành một lý thuyết. Tiên đề là mệnh đề đầu tiên không có chứng
minh, được xem như một sự thật luôn đúng. Giả sử tất cả mệnh đề đều cần phải chứng
minh, vậy thì một mệnh đề A sẽ cần mệnh đề B để chứng minh (A không tự dùng A
chứng minh chính nó), mệnh đề B sẽ cần mệnh đề C để chứng minh. Như thế, sẽ có
vô hạn mệnh đề chứng minh nhau. Vì vậy, ta cần phải có một tiên đề, là nguồn gốc
để xây dựng một nền tảng cơ bản về lĩnh vực nào đó, và là cơ sở để mở rộng các
mệnh đề khác.)
Thống kê (Statistics)
Thống kê là một ngành
khoa học về việc thu thập, phân loại, xử lý và trình bày những dữ liệu số. Ví dụ
như việc thu thập số liệu dân cư của một tỉnh thành, tính mật độ dân số trên một
tỉnh trung bình của cả nước, biểu diễn số lượng dân số từng tỉnh vào một biểu đồ.
Tất cả, đều là công việc của thống kê. Việc thống kê đã có từ xa xưa khi những
người cai quản đất nước muốn biết số liệu về đất đai, trồng trọt, chăn nuôi,… để
đưa ra một chính sách quản lý phù hợp. Thuật ngữ “statistics” có nguồn gốc từ
tiếng Latin “status” hoặc là tiếng Ý “statista”, vốn ban đầu có nghĩa là “chính
phủ”. Shakespeare đã dùng từ này trong vở kịch Hamlet năm 1602. Sau nhiều lần
thay đổi, nghĩa của từ ngày nay đã chuyển thành “thống kê”. Mặc dù không có một
bài viết cụ thể nào về lịch sử về ứng dụng thống kê, thế nhưng ta có thể hiểu về
nguồn gốc là do nhu cầu của con người.
Mối quan hệ giữa xác suất và thống kê
Xác suất là quá trình
tìm ra kết quả của một vấn đề ngẫu nhiên nào đó, trong khi đó thống kê là sự đo
lường mức độ của vấn đề đó. Thống kê dùng để cung cấp số liệu kiểm tra tính đúng
đắn của xác suất. Giả sử bạn vào sòng bài, thấy một quả xúc xắc, nghĩ rằng mỗi
mặt có khả năng nằm ngửa như nhau, và tính toán được tỉ lệ quay xúc xắc của một
mặt bất kì là 1/6, nhưng khi thống kê bạn nhận ra rằng có một số mặt có tỉ lệ dính
đến 50% (có thể là do xúc xắc đó đã được cài đặt thiết bị gian lận). Lúc này bạn
cần phải thực hiện tính toán loại.
Nhìn
chung, xác suất thống kê là một ngành khoa học nghiên cứu về dữ liệu số, phù hợp
cho những bạn có xu hướng đi theo con đường nghiên cứu sau này.
//
Nội dung lịch sử xác suất có tham khảo từ sách Probability and Mathematical
Statistics của Eugene Lukacs.
Nội dung bài viết thuộc
về Lê Công Diễn.
Người viết: Lê Công Diễn
Mang đi nhớ ghi nguồn
-------------------------------------------------------------------------------------------------------
(*)
Phục Hưng: Từ thế kỷ XV đến thế kỷ XVII, lan rộng ở châu Âu. Là thời kỳ phát
triển mạnh mẽ về tiếng Latin, sự phục hồi các dữ liệu cổ điển, sự phát triển các
kỹ thuật vẽ, và cuộc cải cách giáo dục.
Nhận xét
Đăng nhận xét