* 출처 :
http://blog.naver.com/PostView.nhn?blogId=msluv1202&logNo=220857000528&parentCategoryNo=&categoryNo=87&viewDate=&isShowPopularPosts=false&from=postView
https://brunch.co.kr/@zhoyp/174
https://namu.wiki/w/%EC%9E%90%EC%9C%A0%EB%8F%84
https://m.blog.naver.com/PostView.nhn?blogId=95khc&logNo=220282362093&proxyReferer=https%3A%2F%2Fwww.google.de%2F
0. 이 모든 기초는 Varianz 분산의 개념을 얼마나 제대로 이해하냐에서 비롯된다 : 분산은 단순히 퍼져있는 정도를 나타내는 것을 넘어 변하는 과정을 보여준다고 봐야한다 (?) 기울기처럼 생각하라는 얘기인 건가.
1. 생물통계학은 많은 Variablen 을 다루기 때문에 서로 어떤 관계가 있는지를 알기 힘들다 -> 그 추세를 파악하는데 집중한다
2. 변량이 많고 추세는 파악해야 되서 선형대수학을 주로 사용한다 : 선형의 의미는 선 linear 로 자연, 사회의 현상을 표현하고 이해하고자 함이라고.
3. 그리고 글쓴이에 따르면 우리가 관측하는 모든 현상은 선형성을 따르고 있다고 한다. 즉, 1차 함수를 말한다. exponentiell 등 비선형적 경향의 경우 R 등의 프로그램을 통해 선형으로 만들어 줄 수도 있다고 한다.
http://www.hbrkorea.com/magazine/article/view/1_1/article_no/987
4. 산술평균, 편차, 분산, 표준편차, 자유도
1) 대부분의 통계모델 상 전제
a. Temeratur, Feuchtigkeit 등 Variable 에 영향을 주는 ramdom effect 는 독립적 이고 산술적 증가한다 = 정규분포
b. 생물통계학에선 random effect 가 시너지(상호작용의 결과)를 내서 기하급수적 multiplicativ 증가를 보이는 경우가 많음
c. 이 때문에 왼쪽으로 치우친 로그함수적 분포 linksgipflig logarithmisch 한 경우가 흔함
d. 이게 분산의 독립성 variance dependent on mean 을 침해하지 않도록 그래서 데이터를 로그로 변환해줘야 한다고...
2) 산술평균 arthmetic mean Mittel Wert : 내가 아는 그 평균
3) 편차 deviation Abweichung : Variable - 평균
4) 분산 s² Varianz , 표준편차 s Standardabweichung : 내가 아는 그 분산과 표준편차. 분산에 wurzeln 해준 이유는 제곱을 자유도로 나눈 상태라 이것만 딱 봤을 땐 실제 간격보다 더 넓어보이니까! 그리고 단순히 흩어진 상태를 나타내는 것 이상으로 자료가 변하는 상태를 나타내준다고도 생각하고 있어야 한다.
5) 자유도 Freiheitsgrad degree of freedom : 일단은 독립변수의 개수가 사전적 정의. Population 모집단의 분산을 위해서는 variable 의 개수 n 으로 나누지만 Sample 표본의 경우는 n-1, 즉 자유도로 나눠줘야 한다. 왜?
a. 수학 및 공학 : 어떤 물체의 운동을 설명하기 위한 변수의 개수라는데 x,y,z Achse 마다 1 씩, 각 Achse 마다 회전까지 각자 1 해서 3차원의 물체는 6의 Freiheitsgrad 를 가진다고...
b. 통계학 : 일단 목표는 beschreibende Statistik 과는 조금 다르다. 즉, Population 모집단이 있고 거기서 샘플을 취해서 모집단을 추정하고자 함이 목적인데, 이 자유도 어쩌고 하는 부분은 샘플 Probe 에 대한 계산 시 사용된다.
- 샘플 분산 S² 를 구하기 위해 나오는 n-1 은 어디서 나왔을까? n-1 은 자유도이긴 한데 편차의 자유도이다. 예를 들면, x1-M, x2-M ... xn-M 이 샘플의 편차라 하면 x(n-1)-M 까지는 각 값들이 자유롭게 뛰놀 수 있지만 마지막 xn-M 은 그럴 수 없다. 이 편차의 목표값이 모집단의 편차로 정해져있기 때문에 x(n-1)-M 까지의 값이 주어지고 나면 마지막 xn-M 은 함부레 다른 값을 가져선 안되게 때문이다. 즉, 자유가 없다. (종속적으로 하나의 값을 갖게 된다고도 하더라) 그리하여 샘플 편차의 자유도는 n-1 이 된다.
- 그럼 이 자유도로 왜 분산을 나눠주는가? 정확히는 자유도로 나눠주는게 아니라 표본분산이 불편추정치와 같지 않아서, 즉 모분산의 분산과 같지 않아서 n 대신 n-1 로 나눠주니 훨씬 가까워졌고 이게 보니까 자유도와 같아서 우리가 이렇게 알고 있었던 거라고.
- n-1 로 나눠야 표본분산이 보정되는 이유는 x² 의 성질때문이라고 한다. 일단 지금 한계. 근데 표본이 커질수록 모분산과 차이도 줄어들어 표본크기가 30개가 넘어가면 이 보정도 필요없다칸다. 즉, n 으로 그냥 나눠란다. 왜??
위키피디아의 예시는 다음과 같다.
어떤 실험에서 4개 집단에 피험자들이 각 30명씩 무선배치되었을 때, {\displaystyle df_{total},df_{within},df_{between}}는?
전체 자유도 {\displaystyle df_{total}=4\times 30-1=119}
집단내 자유도 {\displaystyle df_{within}=4\times (30-1)=116}
집단간 자유도 {\displaystyle df_{between}=4-1=3}
5. 공분산 kovarianz, 상관계수 Korrelationskoeffizient
1) 공분산은 두 변량의 편차의 곱에 시그마를 취해준 뒤 자유도 n-1 로 나눠준 난해한 녀석이다. 즉, 분산과 달리 두 variable 을 pair 로 묶어 계산이 진행되며 이를 통해 알 수 있는 것은 두 Variable 이 서로 어떻게 변하는 가에 대한 관계이다.
2) 공분산을 통해 알 수 있는 것은 한 Variable 이 변할 때 다른 Variable 이 영향을 받는가이며 단지 선형적 관계에 놓여있을 때만 우린 유의한 답을 얻을 수 있다.
a. 공분산이 양수 : 하나가 증가할 때 다른 하나도 증가
b. 공분산이 0 : 선형적 관련 없음
c. 공분산이 음수 : 하나가 증가하면 하나가 감소
3) 상관계수는 공분산의 단위에서 오는 착각 / effect 를 상쇄시키기 위해 공분산을 표준화시킨 수치이다.
4) 즉, 상관계수 = 각 Variable 이 함께 변하는 정도 / Variable 이 각각 변하는 정도.
5) 구하는 방법은 각자의 표준편차로 나눠주면 되며 그 값은 -1 ~1 을 갖는다.
a. r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
b. r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
c. r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
d. r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
e. r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
f. r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
g. r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
6) 이 Korrelationskoeffizient 를 제곱한 r² 가 바로 결정계수. 회귀분석할 때 상관관계의 유의함을 나타내는 지표로 쓰이는 그녀석이다.
- central tendency : 중앙을 축으로 대칭인 형태의 분포
'독일 석사' 카테고리의 다른 글
[Molekulare Ernäh.Phy - I] STP, FTM, PMS (0) | 2018.10.22 |
---|---|
[Phytopathogene Pilze] 13강 - 14강 - 15강 - 16강 - (0) | 2018.06.19 |
[Grundlage] QTL 분석 쉽게 설명하기 - 유럽농업저널 (0) | 2018.06.08 |
[QG&PG] 4, 5. Übung (0) | 2018.06.08 |
[QZ&RZ] 5강 - 6강. Resistenz (0) | 2018.06.04 |