Dành cho những bạn chưa xem qua phần đầu :
Tổng quan về Statistics : khái niệm và ứng dụng của thống kê
Những kiến thức cơ bản, quan trọng cần nắm trong Descriptive Statistics
(Lưu ý ở bài viết này chúng tôi sẽ không đề cập đến tóm tắt và trình bày dữ liệu, vì các đồ thị trong bước này chúng tôi sẽ gộp vào trình bày vào bài viết Data visualization sắp tới)
Những thông tin, kiến thức và kỹ năng chúng tôi trình diễn dưới đây được tổng hợp, tìm hiểu thêm từ những giáo trình, tài liệu mà chúng tôi đã đề cập ở phần trước khái niệm và ứng dụng của Statistics .
Đang xem : Statistic là gì
Mẫu và tổng thể và toàn diện :
Tổng thể (population): là tập hợp các đơn vị (hay phần tử) mà chúng ta quan tâm để quan sát, thu thập dữ liệu và tiến hành phân tích, nghiên cứu.
Mẫu (sample): là một tập hợp con bao gồm các đơn vị (hay phần tử) lấy ra từ tổng thể bằng những phương pháp lấy mẫu, mục đích đại diện cho tổng thể nghiên cứu.
Thông thường trong thực tiễn tất cả chúng ta không hề tích lũy toàn bộ những đơn vị chức năng trong một tổng thể và toàn diện, hoặc một toàn diện và tổng thể có rất nhiều đơn vị chức năng tổng thể và toàn diện khiến cho việc nghiên cứu và phân tích mất thời hạn, tốn kém do đó tại sao thống kê lại tôn vinh quy trình lấy mẫu, và cung ứng những giải pháp để nhờ vào đó trải qua mẫu lấy được hoàn toàn có thể đưa ra những Kết luận về toàn diện và tổng thể. Ví dụ xem xét về mức độ tương quan giữa thời hạn làm thêm đến tác dụng học tập của sinh viên tại một trường ĐH, nếu tất cả chúng ta thu thập dữ liệu của toàn bộ sinh viên của trường ĐH ấy thì phức tạp và khó khăn vất vả, thay vào đó chọn ngẫu nhiên một số ít lớp sinh viên để điều tra và nghiên cứu. Một câu nói vui trong thống kê : “ Tất cả mọi thứ tất cả chúng ta làm trong thống kê đều chỉ dựa vào mẫu nhưng điều tất cả chúng ta chăm sóc lại là đặc thù của tổng thể và toàn diện điều tra và nghiên cứu. ”
Lưu ý : mặc dầu là kiến thức và kỹ năng quan trọng, nhưng trong bài viết này chúng tôi sẽ không đề cập đến giải pháp và quá trình lấy mẫu mà chỉ tập trung chuyên sâu vào những kiến thức và kỹ năng, công thức toán học trong thống kê miêu tả. Mong những bạn thông cảm
Tham số tổng thể và toàn diện và số liệu thống kê :
Tham số tổng thể (a parameter) là một giá trị, thường là một số liệu được dùng để mô tả tổng thể. Một parameter thường được đo lường, tính toán trên các đơn vị trong tổng thể.
Số liệu thống kê (a statistic) là một giá trị, thường là một số liệu được dùng để mô tả một mẫu. Một số liệu thống kê thường được đo lường, tính toán trên các đơn vị trong mẫu.
Dữ liệu, biến, quan sát và thang đo :
Dữ liệu (data) là toàn bộ những thông tin, dữ kiện, các sự thật, các con số,…của các đơn vị (phần tử) trong tổng thể với mục đích thu thập, phân tích, tóm tắt, nghiên cứu…. về một hiện tượng, vấn đề nào đó.
Quan sát (observation) là tập hợp các dữ liệu của 1 đơn vị tổng thể thu thập được thể hiện dưới các thang đo (measurement) khác nhau. Ví dụ học sinh Nguyễn Văn A (1 đơn vị nghiên cứu trong tổng thể) có tuổi: 18, quê quán: tp Hồ Chí Minh, điểm trung bình: 8.0, học lực: giỏi, v.v khi tất cả các thông tin, dữ liệu (các chỗ gạch chân) này đều có thang đo riêng, và thể hiện trên một dòng, thì dòng này gọi là một quan sát.
Biến (variable) là khái niệm dùng để chỉ các đặc điểm của đơn vị (phần tử) trong tổng thể nghiên cứu. Nói cách khác biến là một đặc tính biểu hiện giá trị khác nhau cho các đơn vị tổng thể khác nhau. Biến (hay dữ liệu) thường có 2 dạng chính là định tính (qualitative/categorical variable), định lượng (quantitative/numerical variable).
Biến định tính hay biến phân loại là biến phản ánh tính chất, hay loại hình, không có biểu hiện trực tiếp bằng con số. Ví dụ giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo, học thức, v.v Với biến định tính chúng ta có thể đếm số quan sát cho từng loại, và tính % cho mỗi loại trong tổng thể. Ví dụ số người độc thân đếm được là 350, tổng số quan sát là 1000 vậy chiếm 35%. Có hai dạng Nominal (định danh), và Ordinal (thứ bậc)
Biến định lượng là biến biểu hiện trực tiếp bằng con số ví dụ tuổi, chiều cao, trọng lượng, năng suất làm việc của công nhân, số dư trong tài khoản ngân hàng, thời gian sử dụng PIN điện thoại, v.v. Biến định lượng được chia làm 2 loại biến định lượng rời rạc (discrete) và biến định lượng liên tục (continuous)
Biến định lượng rời rạc (discrete variable) là biến mà giá trị của nó có thể vô hạn, hữu hạn và có thể đếm được. Một biến rời rạc bao gồm các loại riêng biệt, không thể chia tách, không có giá trị có thể tồn tại giữa hai giá trị kế nhau. Ví dụ, số trẻ em trong một gia đình hoặc số học sinh tham gia lớp học. Nếu bạn quan sát lớp học từ ngày này sang ngày khác, bạn có thể đếm 20 sinh viên một ngày và 21 sinh viên vào ngày hôm sau. Tuy nhiên, không thể bao giờ quan sát một giá trị trong khoảng từ 20 đến 21 (tức không thể nào có 20.5 sinh viên). Một biến rời rạc cũng có thể bao gồm các quan sát khác nhau về chất (định tính). Ví dụ, một người có thể được phân loại theo thứ tự sinh (sinh trước hoặc sinh sau), theo nghề nghiệp (y tá, giáo viên, luật sư, v.v.) và sinh viên đại học có thể được phân loại theo chuyên ngành học thuật (nghệ thuật, sinh học, hóa học, v.v. .). Trong mỗi trường hợp, các biến đó là rời rạc vì nó bao gồm các loại riêng biệt, không thể chia tách.
Biến định lượng liên tục (continuous variable) là biến mà các giá trị của nó có thể chia tách hoặc nói cách khác các giá trị của nó có thể lấp đầy một trục số. Ví dụ trọng lượng, chiều cao của một người,.v.v. Biến định lượng liên tục thường có giá trị vô hạn, hay có vô số giá trị có thể nằm giữa bất kỳ hai giá trị quan sát (ví dụ giữa 0 và 1 có 0.1516, 0.98999), không thể quan sát, không thể đếm được.
Ngoài biến đinh tính và biến định lượng ta có thêm một loại biến khác gọi là biến nhị phân (binary variable). Biến nhị phân là trường hợp mà các biến định tính và định lượng (hiếm gặp) chỉ có 2 giá trị, 2 biểu hiện không trùng nhau của một đơn vị, nếu đơn vị không có giá trị này, thì phải chứa giá trị còn lại của biến thay phiên. Ví dụ hỏi sinh viên nào đã tham gia chương trình “Mùa hè xanh” thì sinh viên chỉ có thể trả lời “có” hoặc “không”; khách hàng đã rời bỏ dịch vụ của công ty hay chưa “đã rời bỏ” hoặc “chưa rời bỏ”. Trong trường hợp một biến của một đối tượng nghiên cứu có nhiều giá trị và vô số biểu hiện thì chúng ta có thể chuyển thành biến thay phiên ví dụ thành phần kinh tế có thể chia thành 2 phần là thành phần kinh tế nhà nước và ngoài nhà nước thay vì là 5 (kinh tế nhà nước, kinh tế tập thể, kinh tế tư nhân (cá thể, tiểu chủ, tư bản tư nhân), kinh tế tư bản nhà nước, kinh tế có vốn đầu tư nước ngoài) để tránh sự phức tạp. Biến nhị phân có 2 dạng: Symmetric (đối xứng) và Asymmetric (không đối xứng)
Những nét đứt khúc ở đồ thị trên là do trong một số ít tài liệu khác, những biến phân loại theo Nominal, Ordinal, hay Binary được xem là biến rời rạc Discrete vì như chúng tôi trình diễn biến Discrete hoàn toàn có thể là những biến định tính, những bạn hoàn toàn có thể xem lại ở trên ( mong những bạn quan tâm thêm ) .
Thang đo
Scales of Measurement (thang đo) lượng hóa hiện tượng nghiên cứu xác định lượng thông tin có trong dữ liệu, phân loại dữ liệu, chỉ ra các phân tích thống kê và là cơ sở để tóm tắt, trình bày dữ liệu phù hợp nhất.
Nominal scale (thang đo định danh) dùng cho biến định tính, hay biến danh nghĩa, tức các giá trị, dữ liệu được biểu hiện dưới mã số, nhãn hoặc tên, không có sắp xếp theo trật tự, không có quan hệ hơn kém, chỉ được dùng để phân loại các đối tượng nghiên cứu với nhau, và đếm tần số xuất hiện của các biểu hiện.
Ví dụ thực trạng hôn nhân gia đình của bạn : 1. Độc thân 2. Có mái ấm gia đình 3. Đã ly dị 4. Trường hợp khác .
Ordinal scale (thang đo thứ bậc) được sử dụng cho biến định tính, và có trường hợp cho biến định lượng, trong thang đo này, giá trị hay biểu hiện của biến có mối quan hệ hơn kém, có thứ bậc, sự chênh lệch, hoặc khoảng cách giữa 2 giá trị hay biểu hiện không nhất thiết bằng nhau
Ví dụ thu nhập trung bình của bạn là bao nhiêu mỗi tháng ?
8 triệu VND
Interval scale (thang đo khoảng) được dùng cho biến định lượng và trường hợp cả biến định tính, thang đo khoảng chính là thang đo thứ bậc có khoảng cách đều nhau hoặc khoảng cách được xác định rõ ràng, mang ý nghĩa phân tích.
Ví dụ nhiệt độ 290C – 330C khoảng cách 40C, 350C – 390C cũng chênh lệch 40C .
Ratio scale (thang đo tỷ lệ) có đầy đủ tính chất của thang đo khoảng, tỷ lệ giữa 2 giá trị thu thập có ý nghĩa, có thể áp dụng phép toán cộng trừ, và số 0 trong thang đo này có giá trị thật tức có ý nghĩa thật sự. Ví dụ bạn có 50000 VND, bạn dùng hết và còn 0 đồng, nghĩa là bạn không còn gì hết. Tiền tệ có trị số 0 thật nên nó là thang đo tỷ lệ. Khác với nhiệt độ là thang đo khoảng, ví dụ chúng ta không thể nói 00C nghĩa là không có gì, mà 00C tức là rất lạnh, lạnh hơn 100C, 200C,…
Lưu ý các thang đo cấp cao hơn sẽ bao hàm tính chất của các thang đo cấp nhỏ hơn.
Nguồn hình : “ Basic Statistics for Business and Economics ” ( 9 th Edition 2019 ) của nhà xuất bản Mc Graw Hill
Các đặc trưng giám sát mức độ, khuynh hướng tập trung chuyên sâu của tài liệu
Đo lường khuynh hướng tập trung (Measures of Central tendency) là xác định các chỉ tiêu biểu hiện mức độ đại diện của một biến định lượng nào đó của một tổng thể bao gồm nhiều đơn vị cùng loại.
Mean (số trung bình cộng):
Giá trị trung bình là tổng giá trị của những quan sát chia cho số lượng quan sát, được hiểu là điểm cân đối. Mean là sự san bằng bù trừ chênh lệch toàn bộ những giá trị trong tập dữ liệu, là đại diện thay mặt cho độ tập trung chuyên sâu của tài liệu. Nhược điểm của mean là nhạy cảm với những giá trị đột biến, giá trị ngoại lệ. Ví dụ trung bình của ( 3 + 4 + 5 + 6 + 7 + 8 ) = 5.5, trung bình của ( 3 + 4 + 5 + 6 + 7 + 30 ) = 9.16
Công thức :
Trung bình của toàn diện và tổng thể :
Trung bình của mẫu :
N : là tổng số đơn vị chức năng, quan sát trong toàn diện và tổng thể
n : là tổng đơn vị chức năng, quan sát trong mẫu rút ra từ tổng thể và toàn diện .
Xem thêm : Xem Phim Hương Mật Tựa Khói Sương Tập 35 Vietsub + Thuyết Minh Full Hd
∑ X : là tổng giá trị của những đơn vị chức năng trong tổng thể và toàn diện
∑ x : là tổng giá trị của những đơn vị chức năng trong mẫu
Median (trung vị)
Median ( Me ) là giá trị đứng ở vị trí TT, ở vị trí giữa trong dãy số sắp xếp từ bé đến lớn. Trung vị sẽ chia dãy số thành 2 phần mỗi phần có số quan sát, hay số đơn vị chức năng bằng nhau. Trường hợp tổng số quan sát là số lẻ, thì trung vị là giá trị đứng ở vị trí thứ ( n + 1 ) / 2 còn trường hợp tổng số quan sát là số lẻ thì median sẽ là trung bình cộng ( n / 2 ) và ( n + 2 ) / 2. Trung vị có ưu điểm hơn Mean vì biểu lộ mức độ tập trung chuyên sâu đúng chuẩn hơn và không bị ảnh hưởng tác động bởi những giá trị đột biến hay ngoại lệ .
Ví dụ : ( dãy số n = 9 ) 2000 ; 2200 ; 2250 ; 2300 ; 2400 ; 2500 ; 2700 ; 3000 ; 3300, Me ở vị trí ( 9 + 1 ) / 2 = 5 là 2400 .
Ví dụ ( dãy số n = 10 ) 2000 ; 2200 ; 2250 ; 2300 ; 2400 ; 2500 ; 2700 ; 3000 ; 3300 ; 3400, Me là giá trị trung bình của 2 giá trị ở vị trí ( 10/2 ) = 5 và ( 10 + 2 ) / 2 = 6, tức bằng ( 2400 + 2500 ) / 2 = 2450
Mode (Mốt)
Mode ( Mo ) là chỉ tiêu bộc lộ một giá trị, hay một bộc lộ của một biến được lặp lại nhiều nhất trong dãy số, hay tập dữ liệu. Mode giám sát dựa trên tần số là số lần tái diễn của biểu lộ hay giá trị của biến. Mốt không chịu ảnh hưởng tác động bởi những giá trị ngoại lệ, đột biến nhưng lại không nhạy cảm với sự biến thiên của dãy số. Mốt tương thích cho những trường hợp nghiên cứu và điều tra thị trường ví dụ như người mua ưu thích mẫu sản phẩm nào nhất trong dòng loại sản phẩm A .
Ví dụ số sinh viên có điểm số là 5 điểm : 20 sinh viên, tiếp đến với điểm số là 6 thì có 15 sinh viên, là 7 thì có 10 sinh viên, là 8 thì có 30 sinh viên, là 9 thì có 8 sinh viên, là 10 thì có 1 sinh viên, vậy Mo = 8 ( không lấy tần số, hay số sinh viên làm Mo )
Lưu ý ở phần này và những phần sau, là những công thức chúng tôi ra mắt chỉ là công thức chung, trình diễn thực chất của những chỉ số, còn rất nhiều trường hợp, nhiều công thức khác những bạn hoàn toàn có thể tìm kiếm, tra cứu trên mạng và tìm hiểu thêm thêm ở những tài liệu khác chi tiết cụ thể hơn. Mong những bạn thông cảm .
Như vậy tất cả chúng ta đã biết về những thang đo dùng cho tài liệu nào, tất cả chúng ta cùng xem qua mối quan hệ giữa những chỉ số đo lường độ tập trung chuyên sâu với những thang đo .
Các đặc trưng đo lường và thống kê khuynh hướng phân tán của tài liệu
Chúng ta đã biết qua những chỉ số miêu tả khuynh hướng tập trung chuyên sâu của tài liệu, tức chỉ mới biết về những giá trị đại diện thay mặt của những biến trong tài liệu hay nói cách khác mới biết được tài liệu tập trung chuyên sâu nói về cái gì, nhưng tất cả chúng ta chưa có thông tin về mức độ biến hóa, hay chênh lệch giữa những giá trị của những biến trong tài liệu, nói cách khác là độ biến thiên, hay phân tán của tài liệu. Các chỉ số biểu lộ độ phân tán góp phần rất nhiều ở những giải pháp thống kê suy nhiễn từ ước đạt, kiểm định, nghiên cứu và phân tích nguyên do – tác dụng ( ANOVA ), hồi quy đối sánh tương quan ( quan hệ nhân – quả giữa những đối tượng người dùng nghiên cứu và điều tra ), v.v
Các bạn cùng xem qua ví dụ biểu đồ dưới đây lấy từ “Essentials of Statistics For The Behavioral Sciences” (9th edition) của Cengage Learning. Ở biểu đồ (a) giá trị 70 inches chính là trung bình của dãy số liệu về chiều cao của người trung niên tương tự ở biểu đồ (b) là 170 pounds, trung bình của dãy số liệu về cân nặng. Chúng ta thấy các số liệu về chiều cao phân tán ít hơn, so với số liệu về cân nặng. Để tìm ra mức độ phân tán chúng ta cần phải biết về các chỉ số đo lường khuynh hướng biến thiên (Measures of Dispersion / Variability)
Nguồn hình “ Essentials of Statistics For The Behavioral Sciences ” ( 9 th edition ) của Cengage Learning
Range (khoảng biến thiên)
Là khoảng cách giữa giá trị lớn nhất ( Max ) và giá trị nhỏ nhất ( Min ) của dãy số. Range càng nhỏ thì tổng thể và toàn diện càng đồng đều, Mean sẽ có tính đại diện thay mặt cao hơn và ngược lại nếu Range cao thì tổng thể và toàn diện càng phân tán, tính đại diện thay mặt của Mean sẽ thấp hơn. Range là thước đo đơn thuần nhất nhưng cũng có điểm yếu kém lớn nhất là chỉ quan tâm đến Min và Max chưa phản ánh không thiếu mức độ biến thiên của những quan sát, đặc biệt quan trọng Range rất nhạy cảm khi có giá trị ngoại lệ, đột biến .
Ví dụ có 2 tổ sản xuất với hiệu suất thao tác ( ví dụ m vải ) như sau :
Tổ 1 : 30, 36, 28, 39, 40, 45 có Range = 45 – 28 = 17
Tổ 2 : 25, 34, 42, 33, 44, 48 có Range = 48 – 25 = 23
Vậy tổ 2 có hiệu suất lao động biến thiên nhiều hơn tổ 1 .
Percentiles (Phân vị), Quartiles (Tứ phân vị), Interquartile Range (Độ trải giữa)
Phân vị thứ p ( p nằm từ 0 đến 100 ) trong một dãy số sắp xếp theo thứ tự tăng dần là một giá trị chia dãy số thành 2 phần với một phần gồm p % số đơn vị chức năng có giá trị nhỏ hơn hoặc bẳng phân vị thứ p, phần còn lại có ( 100 – p ) % số đơn vị chức năng có giá trị bằng hoặc lớn hơn phân vị thứ p .
Tứ phân vị chia dãy số thành 4 phần, mỗi phần có số quan sát, số đơn vị chức năng bằng nhau. Ví dụ trung vị chính là phận vị thứ 2 kí hiệu Q2 tức có 50 % số quan sát có giá trị lớn hơn Q2 và 50 % số quan sát có giá trị nhỏ hơn Q2. Tứ phân vị gồm có Q1 ( tứ phân vị thứ 1, ứng với phân vị thứ 25 ), Q2 ( trung vị, ứng với phân vị thứ 50 ), và Q3 ( tứ phân vị thứ 3, ứng với phân vị thứ 75 ). Tứ phân vị được dùng để đo lường và thống kê độ trải giữa, là chênh lệch giữa Q1 và Q3, chỉ số giám sát khuynh hướng phân tán của tài liệu .
Công thức của phân vị vị trí i :
Q1 trong tứ phân vị ứng với p = 25 vậy nằm ở vị trí 25 % * ( n + 1 ) của dãy số với n là tổng những quan sát trong dãy số, Q3 ứng với p = 75, nằm ở vị trí 75 % * ( n + 1 ). Như vậy tất cả chúng ta sẽ tìm được độ trải giữa, độ trải giữa càng lớn thì dãy số phân tán nhiều và ngược lại .
Hình minh họa về tứ phân vị và độ trải giữa ( nguồn hình : satmasterkey.com )
Mean absolute deviation (MAD – độ lệch tuyệt đối trung bình)
Là trung bình cộng của độ lệch tuyệt đối giữa những giá trị của từng quan sát trong dãy số và trung bình cộng của dãy số ( Mean ). Nếu độ lệch tuyệt đối trung bình càng nhỏ, thì tổng thể và toàn diện sẽ càng đồng đều, đặc thù đại diện thay mặt của Mean sẽ cao hơn. Mean absolute deviation xét đến toàn bộ những giá trị, những biến trong dãy số nên thống kê giám sát khuynh hướng phân tán tốt hơn Range và độ trải giữa .
Công thức trên tính cho mẫu, còn chon toàn diện và tổng thể thì tất cả chúng ta thay trung bình tổng thể và toàn diện vào công thức .
Variance (phương sai) và Standard Variance (độ lệch chuẩn)
Phương sai là trung bình cộng của bình phương những độ lệch giữa những giá trị của từng quan sát và số trung bình cộng ( Mean ) của dãy số. Độ lệch chuẩn chính là căn bậc 2 của phương sai. Phương sai lớn phản ánh khuynh hướng phân tán nhiều, và độ biến thiên cao của tài liệu, độ lệch chuẩn đại diện thay mặt cho một giá trị trung bình, là chênh lệch giữa giá trị của mỗi quan sát so với trung bình cộng của dãy số, do đó cũng bộc lộ được độ biến thiên, độ lệch chuẩn càng cao thì dãy số phân tán nhiều và ngược lại .
Phương sai toàn diện và tổng thể điều tra và nghiên cứu :
Phương sai của mẫu hiệu chỉnh ( thường được dùng thông dụng trong thống kê suy diễn )
Còn độ lệch chuẩn thì những bạn cứ lấy căn bậc 2 của 2 công thức trên .
Phương sai và độ lệch chuẩn được sử dụng tương hỗ trong những giải pháp ước đạt, kiểm định, ANOVA, và nghiên cứu và phân tích hồi quy .
Z-score (chuẩn hóa dữ liệu)
Z-score cho tất cả chúng ta biết một giá trị của một quan sát bất kể trong tài liệu lệch khỏi trung bình cộng của dãy số bao nhiều lần độ lệch chuẩn. Gọi Z-score là một giải pháp chuẩn hóa dữ liệu vì nó được sử dụng để biến hóa những tài liệu định lượng với những đơn vị chức năng đo khác nhau thành một thang đo chuẩn. Z-score được dùng để chuẩn hóa dữ liệu giả định cho tổng thể và toàn diện có phân phối chuẩn ở thống kê suy diễn .
Hệ số chuẩn hóa Z cho tài liệu mẫu :
Hệ số chuẩn hóa Z cho tài liệu tổng thể và toàn diện :
Ví dụ để những bạn dễ hiểu : bài kiểm tra năng lượng của một nhóm nhân viên cấp dưới M khi sử dụng chiêu thức kiểm tra A là 1200 điểm, cùng với nhiều nhóm nhân viên cấp dưới khác cùng triển khai chiêu thức kiểm tra A tất cả chúng ta có được trung bình là 1000 điểm, độ lệch chuẩn là 300. Tương tự một nhóm nhân viên cấp dưới N khác khi được cho làm bài kiểm tra ở chiêu thức kiểm tra B thì được 100 điểm, trung bình của giải pháp này là 90 điểm, độ lệch chuẩn là 20. Dựa trên công thức tất cả chúng ta sẽ có ZM ( A ) = 0.67 còn ZN ( B ) = 0.5. Mặc dù vận dụng 2 giải pháp kiểm tra cho 2 nhóm nhân viên cấp dưới M và N nhưng qua thông số Z ta thấy được điểm của nhóm M cao hơn trung bình 0.67 lần độ lệch chuẩn, còn nhóm M chỉ có 0.5 vậy Kết luận nhóm M triển khai xong bài kiểm tra năng lượng tốt hơn .
Một số quy tắc phân phối, và phương pháp khảo sát hình dạng của dãy số
Quy tắc thực nghiệm (Empirical Rule/Rule of Thumb)
Nguồn hình : “ Statistics : The Art and Science of Learning from Data ” ( 4 th Global Edition 2018 ) của Pearson .
Xem thêm : Guide Jhin Mùa 9 Chuẩn Nhất, Cách Chơi Jhin Mùa 9 Chuẩn Nhất
Quy tắc Tchebychev (Tchebychev’s Rule)
Phương pháp Skewness
Phục vụ xác định độ nghiên của phân phối. Nếu giá trị Skewness > 0 (positively skewed) thì đồ thị phân phối lệch phải (tức nghiên về phía phải), Skewness 1), trung vị hay tứ phân vị thứ 2 (Q2), tứ phân vị thứ 3 (Q3), giá trị lớn nhất, và những trị số bất thường. Biểu đồ hộp râu giúp mô tả cụ thể khuynh hướng phân tán của dữ liệu, bên cạnh đó biểu đồ hộp râu cũng giúp xác định các giá trị ngoại lệ gọi là outlier. Do nếu tập dữ liệu có giá trị ngoại lệ thì chiều dài tối đa của 2 râu tính từ mỗi cạnh hộp sẽ được xác định bằng 1.5 lần độ trải giữa, khi ấy các giá trị ngoại lệ sẽ nằm ngoài giới hạn của 2 râu được thể hiện bằng dấu sao, hoặc dấm chấm
Hình ảnh minh họa biểu đồ hộp râu ( nguồn hình : towardsdatascience.com )
Đến đây là kết thúc bài viết về Tổng quan về Statistics : thống kê diễn đạt. Bài viết sắp tới, như đã nói ở trên, chúng tôi sẽ trình diễn về Data visualization ( trực quan hóa dữ liệu ) bao bồm cả giải pháp tóm tắt, trình diễn tài liệu trong thống kê diễn đạt. Mong những bạn liên tục theo dõi và ủng hộ mister-map.com .
Về chúng tôi, công ty mister-map.com với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.
Source: https://swing.com.vn
Category: Wiki