* 출처 :  

http://blog.naver.com/PostView.nhn?blogId=msluv1202&logNo=220857000528&parentCategoryNo=&categoryNo=87&viewDate=&isShowPopularPosts=false&from=postView

https://brunch.co.kr/@zhoyp/174

https://namu.wiki/w/%EC%9E%90%EC%9C%A0%EB%8F%84

https://m.blog.naver.com/PostView.nhn?blogId=95khc&logNo=220282362093&proxyReferer=https%3A%2F%2Fwww.google.de%2F

- 자유도 및 불편추정량 n-1 유툽
https://www.youtube.com/watch?v=faVIwae-wkw
- 공분산 및 분산계수
http://destrudo.tistory.com/15
- 공분산 및 분산계수는 이쪽이 더 이해가 잘 됐음
http://openuiz.blogspot.com/2016/12/blog-post.html
- Null Hyphothese, Alternativshyphothese 관련 정리
http://pubdata.tistory.com/41?category=704723

0. 이 모든 기초는 Varianz 분산의 개념을 얼마나 제대로 이해하냐에서 비롯된다 : 분산은 단순히 퍼져있는 정도를 나타내는 것을 넘어 변하는 과정을 보여준다고 봐야한다 (?) 기울기처럼 생각하라는 얘기인 건가.

1. 생물통계학은 많은 Variablen 을 다루기 때문에 서로 어떤 관계가 있는지를 알기 힘들다 -> 그 추세를 파악하는데 집중한다

2. 변량이 많고 추세는 파악해야 되서 선형대수학을 주로 사용한다 : 선형의 의미는 선 linear 로 자연, 사회의 현상을 표현하고 이해하고자 함이라고.

3. 그리고 글쓴이에 따르면 우리가 관측하는 모든 현상은 선형성을 따르고 있다고 한다. 즉, 1차 함수를 말한다. exponentiell 등 비선형적 경향의 경우 R 등의 프로그램을 통해 선형으로 만들어 줄 수도 있다고 한다. 

http://www.hbrkorea.com/magazine/article/view/1_1/article_no/987


4. 산술평균, 편차, 분산, 표준편차, 자유도  

 1) 대부분의 통계모델 상 전제 

  a. Temeratur, Feuchtigkeit 등 Variable 에 영향을 주는 ramdom effect 는 독립적 이고 산술적 증가한다 = 정규분포

  b. 생물통계학에선 random effect 가 시너지(상호작용의 결과)를 내서 기하급수적 multiplicativ 증가를 보이는 경우가 많음 

  c. 이 때문에 왼쪽으로 치우친 로그함수적 분포 linksgipflig logarithmisch 한 경우가 흔함

  d. 이게 분산의 독립성 variance dependent on mean 을 침해하지 않도록 그래서 데이터를 로그로 변환해줘야 한다고...

 2) 산술평균  arthmetic mean Mittel Wert :  내가 아는 그 평균

 3) 편차 deviation Abweichung : Variable - 평균

 4) 분산 s² Varianz , 표준편차 s Standardabweichung : 내가 아는 그 분산과 표준편차. 분산에 wurzeln 해준 이유는 제곱을 자유도로 나눈 상태라 이것만 딱 봤을 땐 실제 간격보다 더 넓어보이니까! 그리고 단순히 흩어진 상태를 나타내는 것 이상으로 자료가 변하는 상태를 나타내준다고도 생각하고 있어야 한다. 

 5) 자유도 Freiheitsgrad degree of freedom : 일단은 독립변수의 개수가 사전적 정의. Population 모집단의 분산을 위해서는 variable 의 개수 n 으로 나누지만 Sample 표본의 경우는 n-1, 즉 자유도로 나눠줘야 한다. 왜?

  a. 수학 및 공학 : 어떤 물체의 운동을 설명하기 위한 변수의 개수라는데 x,y,z Achse 마다 1 씩, 각 Achse 마다 회전까지 각자 1 해서 3차원의 물체는 6의 Freiheitsgrad 를 가진다고...

  b. 통계학 : 일단 목표는 beschreibende Statistik 과는 조금 다르다. 즉, Population 모집단이 있고 거기서 샘플을 취해서 모집단을 추정하고자 함이 목적인데, 이 자유도 어쩌고 하는 부분은 샘플 Probe 에 대한 계산 시 사용된다. 

   - 샘플 분산 S² 를 구하기 위해 나오는 n-1 은 어디서 나왔을까? n-1 은 자유도이긴 한데 편차의 자유도이다. 예를 들면, x1-M, x2-M ... xn-M 이 샘플의 편차라 하면 x(n-1)-M 까지는 각 값들이 자유롭게 뛰놀 수 있지만 마지막 xn-M 은 그럴 수 없다. 이 편차의 목표값이 모집단의 편차로 정해져있기 때문에 x(n-1)-M 까지의 값이 주어지고 나면 마지막 xn-M 은 함부레 다른 값을 가져선 안되게 때문이다. 즉, 자유가 없다. (종속적으로 하나의 값을 갖게 된다고도 하더라) 그리하여 샘플 편차의 자유도는 n-1 이 된다. 

   - 그럼 이 자유도로 왜 분산을 나눠주는가? 정확히는 자유도로 나눠주는게 아니라 표본분산이 불편추정치와 같지 않아서, 즉 모분산의 분산과 같지 않아서 n 대신 n-1 로 나눠주니 훨씬 가까워졌고 이게 보니까 자유도와 같아서 우리가 이렇게 알고 있었던 거라고.

   - n-1 로 나눠야 표본분산이 보정되는 이유는 x² 의 성질때문이라고 한다. 일단 지금 한계. 근데 표본이 커질수록 모분산과 차이도 줄어들어 표본크기가 30개가 넘어가면 이 보정도 필요없다칸다. 즉, n 으로 그냥 나눠란다. 왜??


위키피디아의 예시는 다음과 같다.

어떤 실험에서 4개 집단에 피험자들이 각 30명씩 무선배치되었을 때, {\displaystyle df_{total},df_{within},df_{between}}는?

전체 자유도 {\displaystyle df_{total}=4\times 30-1=119}

집단내 자유도 {\displaystyle df_{within}=4\times (30-1)=116}

집단간 자유도 {\displaystyle df_{between}=4-1=3}


5. 공분산 kovarianz, 상관계수 Korrelationskoeffizient

 1) 공분산은 두 변량의 편차의 곱에 시그마를 취해준 뒤 자유도 n-1 로 나눠준 난해한 녀석이다. 즉, 분산과 달리 두 variable 을 pair 로 묶어 계산이 진행되며 이를 통해 알 수 있는 것은 두 Variable 이 서로 어떻게 변하는 가에 대한 관계이다. 

 2) 공분산을 통해 알 수 있는 것은 한 Variable 이 변할 때 다른 Variable 이 영향을 받는가이며 단지 선형적 관계에 놓여있을 때만 우린 유의한 답을 얻을 수 있다.

  a. 공분산이 양수 : 하나가 증가할 때 다른 하나도 증가

  b. 공분산이 0 : 선형적 관련 없음

  c. 공분산이 음수 : 하나가 증가하면 하나가 감소

 3) 상관계수는 공분산의 단위에서 오는 착각 / effect 를 상쇄시키기 위해 공분산을 표준화시킨 수치이다.

 4) 즉, 상관계수 = 각 Variable 이 함께 변하는 정도 / Variable 이 각각 변하는 정도. 

 5) 구하는 방법은 각자의 표준편차로 나눠주면 되며 그 값은 -1 ~1 을 갖는다. 

  a. r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,

  b. r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,

  c. r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,

  d. r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,

  e. r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,

  f. r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,

  g. r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

 6) 이 Korrelationskoeffizient 를 제곱한 r² 가 바로 결정계수. 회귀분석할 때 상관관계의 유의함을 나타내는 지표로 쓰이는 그녀석이다.


 - central tendency : 중앙을 축으로 대칭인 형태의 분포














+ Recent posts