주요 구성 요소의 개념. 간단한 예를 사용하여 주성분 분석(PCA)이 작동하는 방식 주성분에 따른 분산 계산

02.12.2022

주성분법은 많은 수의 상호 연관된(종속, 상관) 변수를 더 적은 수의 독립 변수로 변환하는 방법입니다. 변수의 수가 많으면 정보 분석 및 해석이 복잡해지는 경우가 많기 때문입니다. 엄밀히 말하면 이 방법은 요인분석과 공통점이 많지만, 요인분석과는 관련이 없습니다. 구체적인 것은 첫째, 계산 절차 중에 모든 주요 구성 요소가 동시에 얻어지고 그 수가 처음에는 원래 변수의 수와 동일하다는 것입니다. 둘째, 모든 원래 변수의 분산이 완전히 분해될 가능성이 가정됩니다. 잠재요인(일반화된 특성)을 통해 완전한 설명이 가능합니다.

예를 들어 Wechsler 테스트, Eysenck 테스트, Raven 테스트를 사용하여 학생들의 지능과 사회, 인지 및 일반 심리학 분야의 학업 성취도를 측정하는 연구를 수행했다고 가정해 보겠습니다. 다양한 지능 테스트의 성능은 결국 주제의 한 가지 특성, 즉 그의 지적 능력을 다른 방식으로 측정하기 때문에 서로 상관 관계가 있을 가능성이 높습니다. 연구에 변수가 너무 많은 경우( 엑스 1 , 엑스 2 , …, 엑스 ) , 그리고 그 중 일부가 상호 연관되어 있는 경우, 연구자는 때때로 변수의 수를 줄여 데이터의 복잡성을 줄이고자 하는 욕구를 갖습니다. 이것이 여러 가지 새로운 변수를 생성하는 주성분 방법이 하는 일입니다. 와이 1 , 와이 2 , …, 와이 , 각각은 원래 변수의 선형 조합입니다. 엑스 1 , 엑스 2 , …, 엑스 :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 =a 21 x 1 +a 22 x 2 +…+a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

변수 와이 1 , 와이 2 , …, 와이 주성분 또는 요인이라고 합니다. 따라서 요인은 상관 행렬의 특별한 변환 결과로 발생하는 인공 통계 지표입니다. . 인수를 추출하는 절차를 행렬 인수분해라고 합니다. 인수분해의 결과로 상관 행렬에서 원래 변수의 수와 동일한 수까지 다양한 수의 요인을 추출할 수 있습니다. 그러나 인수분해의 결과로 결정된 요소는 일반적으로 중요성이 동일하지 않습니다.

승산 ij새 변수를 정의하는 는 새 변수(주성분, 요인)가 데이터 변동성의 최대량을 설명하고 서로 상관되지 않는 방식으로 선택됩니다. 계수를 제시하는 것이 유용한 경우가 많습니다. ij 원래 변수와 새 변수(요인) 사이의 상관 계수를 나타냅니다. 이는 곱셈을 통해 달성됩니다. ij요인의 표준편차로 계산됩니다. 이는 대부분의 통계 패키지(STATISTICA 프로그램에서도 마찬가지)에서 수행됩니다. 승산 ij 일반적으로 테이블 형식으로 표시되며, 요인은 열로, 변수는 행으로 정렬됩니다.

이러한 테이블을 인자 로딩 테이블(행렬)이라고 합니다. 거기에 주어진 숫자는 계수입니다 ij.숫자 0.86은 첫 번째 요소와 Wechsler 테스트 값 간의 상관 관계가 0.86임을 의미합니다. 절대값으로 요인 로딩이 높을수록 변수와 요인 간의 관계가 더 강해집니다.

주성분법또는 성분 분석(주성분 분석, PCA)는 동물학자나 생태학자의 무기고에서 가장 중요한 방법 중 하나입니다. 불행하게도 구성 요소 분석을 사용하는 것이 적절한 경우에는 클러스터 분석이 자주 사용됩니다.

구성 요소 분석이 유용한 일반적인 작업은 다음과 같습니다. 특정 개체 집합이 있고 각 개체는 특정(충분히 많은) 수의 특성을 특징으로 합니다. 연구자는 이러한 물체의 다양성에 반영된 패턴에 관심이 있습니다. 개체가 계층적으로 하위 그룹에 분산되어 있다고 가정할 이유가 있는 경우 군집 분석을 사용할 수 있습니다. 분류(그룹별 분포). 다양한 객체가 어떤 종류의 계층 구조를 반영한다고 기대할 이유가 없다면 다음을 사용하는 것이 논리적입니다. 안수(순서대로 배열). 각 개체가 충분히 많은 수의 특성(적어도 하나의 그래프에 적절하게 반영될 수 없는 많은 특성)으로 특성화되는 경우 주성분 분석으로 데이터 연구를 시작하는 것이 가장 좋습니다. 사실 이 방법은 동시에 데이터의 차원성(차원 수)을 줄이는 방법이기도 합니다.

고려 중인 개체 그룹이 하나의 특성 값으로 특성화되는 경우 히스토그램(연속 특성의 경우) 또는 막대 차트(이산형 특성의 빈도 특성화용)를 사용하여 다양성을 특성화할 수 있습니다. 객체의 특징이 두 가지인 경우에는 2차원 산점도를 사용할 수 있고, 세 가지인 경우에는 3차원 산점도를 사용할 수 있습니다. 표지판이 많으면 어떻게 되나요? 다차원 공간에서 객체의 상대적인 위치를 2차원 그래프에 반영해 볼 수 있습니다. 일반적으로 이러한 차원 감소는 정보 손실과 관련이 있습니다. 이러한 표시의 다양한 방법 중에서 정보 손실이 최소화되는 방법을 선택하는 것이 필요합니다.

가장 간단한 예를 사용하여 말한 내용을 설명하겠습니다. 2차원 공간에서 1차원 공간으로의 전환입니다. 2차원 공간(평면)을 정의하는 점의 최소 개수는 3개이다. 9.1.1은 평면 위의 세 점의 위치를 ​​보여줍니다. 이 점의 좌표는 도면 자체에서 쉽게 읽을 수 있습니다. 점의 상대적 위치에 대한 최대 정보를 전달하는 직선을 선택하는 방법은 무엇입니까?

쌀. 9.1.1. 두 개의 특징으로 정의된 평면 위의 세 점. 이 점들의 최대 분산은 어느 선에 투영됩니까?

선 A(파란색으로 표시)에 점을 투영하는 것을 생각해 보세요. 이 점들을 선 A에 투영한 좌표는 2, 8, 10입니다. 평균값은 6 2 / 3입니다. 분산 (2-6 2 / 3)+ (8-6 2 / 3)+ (10-6 2 / 3)=34 2 / 3.

이제 라인 B(녹색으로 표시)를 살펴보겠습니다. 점 좌표 - 2, 3, 7; 평균값은 4이고 분산은 14입니다. 따라서 라인 A보다 라인 B에 더 작은 비율의 분산이 반영됩니다.

이 몫은 무엇입니까? 선 A와 B는 직교(수직)하므로 A와 B에 투영된 전체 분산의 비율은 교차하지 않습니다. 이는 관심 지점 위치의 전체 분산이 34 2 / 3 +14 = 48 2 / 3이라는 두 항의 합으로 계산될 수 있음을 의미합니다. 이 경우 전체 분산의 71.2%가 라인 A에 투영되고 28.8%가 라인 B에 투영됩니다.

어느 선이 최대 분산 점유율을 갖는지 어떻게 결정할 수 있습니까? 이 직선은 C(빨간색)로 지정된 관심 지점의 회귀선에 해당합니다. 이 선은 전체 분산의 77.2%를 반영하며 이는 특정 점 위치에서 가능한 최대값입니다. 전체 분산의 최대 몫이 투영되는 직선을 다음과 같이 부릅니다. 첫 번째 주성분.

그리고 전체 분산의 나머지 22.8%는 어느 선에 반영되어야 합니까? 첫 번째 주성분에 수직인 선 위. 이 직선은 또한 주성분이 될 것입니다. 왜냐하면 분산의 가능한 최대 비율이 여기에 반영되기 때문입니다(당연히 첫 번째 주성분에 반영된 것을 고려하지 않고). 그래서 이것은 - 두 번째 주성분.

Statistica를 사용하여 이러한 주요 구성 요소를 계산하면(대화 내용은 잠시 후에 설명하겠습니다) 그림 3과 같은 그림을 얻습니다. 9.1.2. 주성분의 점 좌표는 표준편차로 표시됩니다.


쌀. 9.1.2. 그림에 표시된 세 지점의 위치는 다음과 같습니다. 9.1.1, 두 가지 주요 구성 요소의 평면. 왜 이 점들은 그림에서와 다르게 서로 상대적으로 위치하는가? 9.1.1?

그림에서. 9.1.2 점의 상대적 위치가 변경된 것으로 보입니다. 앞으로 이러한 그림을 올바르게 해석하려면 그림 1에서 점의 위치가 다른 이유를 고려해야 합니다. 자세한 내용은 9.1.1 및 9.1.2를 참조하세요. 두 경우 모두 점 1은 점 2보다 오른쪽에 위치합니다(첫 번째 특징과 첫 번째 주성분에 따라 더 큰 좌표를 가짐). 그러나 어떤 이유로 원래 위치의 점 3은 다른 두 점보다 낮습니다( 특징 2)의 값이 가장 낮고 주 구성 요소 평면의 다른 두 지점이 더 높습니다(두 번째 구성 요소를 따라 더 큰 좌표를 가짐). 이는 주성분 방법이 선택한 축에 투영된 원본 데이터의 분산을 정확하게 최적화한다는 사실 때문입니다. 주성분이 일부 원래 축과 상관관계가 있는 경우 성분과 축은 같은 방향(양의 상관관계 있음) 또는 반대 방향(음의 상관관계 있음)으로 향할 수 있습니다. 이 두 옵션은 모두 동일합니다. 주성분 방법 알고리즘은 평면을 "뒤집을" 수도 있고 그렇지 않을 수도 있습니다. 이것으로부터 어떤 결론도 도출되어서는 안 됩니다.

그러나 그림의 요점은 다음과 같습니다. 9.1.2는 그림 1의 상대 위치에 비해 단순히 "거꾸로" 표시되지 않습니다. 9.1.1; 그들의 상대적 위치도 특정한 방식으로 바뀌었습니다. 두 번째 주성분의 점 간의 차이가 강화된 것으로 보입니다. 두 번째 구성 요소가 설명하는 전체 분산의 22.76%는 첫 번째 주 구성 요소가 설명하는 분산의 77.24%와 동일한 거리에 점을 "확산"합니다.

주요 구성 요소 평면의 점 위치가 실제 위치와 일치하려면 이 평면이 왜곡되어야 합니다. 그림에서. 9.1.3. 두 개의 동심원이 표시됩니다. 그 반지름은 첫 번째와 두 번째 주성분에 의해 반영된 분산의 비율로 관련됩니다. 그림에 해당하는 그림. 9.1.2는 첫 번째 주성분의 표준편차가 더 큰 원에 해당하고 두 번째 주성분의 표준편차가 더 작은 원에 해당하도록 왜곡됩니다.


쌀. 9.1.3. 우리는 첫 번째 주성분이 b를 설명한다는 것을 고려했습니다. 영형두 번째보다 분산의 더 큰 부분을 차지합니다. 이를 위해 우리는 그림을 왜곡했습니다. 9.1.2, 이를 두 개의 동심원에 맞추며, 그 반경은 주성분에 기인하는 분산의 비율과 관련됩니다. 그러나 점의 위치는 여전히 그림 1에 표시된 원래 위치와 일치하지 않습니다. 9.1.1!

그림에서 점의 상대적인 위치는 무엇입니까? 9.1.3은 그림 9.1.3의 내용과 일치하지 않습니다. 9.1.1? 원래 그림에서는 Fig. 9.1에서 점은 각 축에 따른 분산 비율에 따르지 않고 좌표에 따라 위치합니다. 그림의 첫 번째 기호(x축을 따라)에 따른 1단위의 거리입니다. 9.1.1 두 번째 특성(세로 좌표를 따라)에 따라 1 단위 거리보다 이 축을 따라 점의 분산 비율이 더 작습니다. 그리고 그림 9.1.1에서 점 사이의 거리는 해당 점을 설명하는 특성이 측정되는 단위에 의해 정확하게 결정됩니다.

작업을 조금 복잡하게 만들어 보겠습니다. 테이블에 그림 9.1.1은 10차원 공간에서 10개 점의 좌표를 보여준다. 처음 세 점과 처음 두 차원은 방금 본 예입니다.

표 9.1.1. 추가 분석을 위한 점의 좌표

좌표

교육 목적으로 먼저 테이블의 데이터 중 일부만 고려하겠습니다. 9.1.1. 그림에서. 9.1.4 처음 두 표지판의 평면에서 10개 점의 위치를 ​​볼 수 있습니다. 첫 번째 주성분(라인 C)은 이전 사례와 약간 다르게 진행되었습니다. 당연히 그 위치는 고려되는 모든 사항의 영향을 받습니다.


쌀. 9.1.4. 포인트 수를 늘렸습니다. 첫 번째 주성분은 추가된 점의 영향을 받았기 때문에 약간 다르게 진행됩니다.

그림에서. 그림 9.1.5는 처음 두 구성 요소의 평면에서 고려한 10개 점의 위치를 ​​보여줍니다. 각 주성분이 설명하는 분산 비율뿐만 아니라 처음 세 점의 위치까지 모든 것이 변경되었습니다.


쌀. 9.1.5. 표에 설명된 10개 지점의 첫 번째 주요 구성 요소 평면에서의 안수. 9.1.1. 표의 마지막 8개 열인 처음 두 특성의 값만 고려되었습니다. 9.1.1은 사용되지 않았습니다

일반적으로 이는 자연스러운 현상입니다. 주요 구성 요소의 위치가 다르기 때문에 점의 상대적 위치도 변경되었습니다.

주성분 평면과 해당 특징값의 원래 평면에서 점의 위치를 ​​비교하는 데 어려움이 있으면 혼란이 발생할 수 있습니다. 왜 그렇게 해석하기 어려운 방법을 사용합니까? 대답은 간단합니다. 비교 대상이 두 가지 특성으로만 설명되는 경우 이러한 초기 특성에 따라 안수를 사용하는 것이 가능합니다. 주성분법의 모든 장점은 다차원 데이터의 경우에 나타납니다. 이 경우 주성분법은 데이터의 차원을 줄이는 효과적인 방법임이 밝혀졌습니다.

9.2. 더 많은 차원이 포함된 초기 데이터로 이동

좀 더 복잡한 경우를 생각해 봅시다. 표에 제시된 데이터를 분석해 보겠습니다. 10가지 특성 모두에 대한 9.1.1. 그림에서. 그림 9.2.1은 우리가 관심 있는 메서드의 창이 어떻게 호출되는지 보여줍니다.


쌀. 9.2.1. 주성분 방법 실행

Statistica 대화 상자에서는 훨씬 더 많은 미세 조정이 가능하지만 우리는 분석을 위한 특징 선택에만 관심이 있습니다(그림 9.2.2).


쌀. 9.2.2. 분석을 위한 변수 선택

분석을 수행한 후 여러 탭이 포함된 결과 창이 나타납니다(그림 9.2.3). 모든 기본 창은 첫 번째 탭에서 액세스할 수 있습니다.


쌀. 9.2.3. 주성분 분석 결과 대화상자의 첫 번째 탭

분석을 통해 9개의 주요 구성 요소가 식별되었으며 이를 사용하여 10개의 초기 기능에 반영된 분산을 100% 설명하는 것을 볼 수 있습니다. 이는 하나의 기호가 불필요하고 중복되었음을 의미합니다.

"Plot Case Factor Voordinates, 2D" 버튼을 사용하여 결과 보기를 시작하겠습니다. 두 개의 주성분에 의해 정의된 평면의 점 위치가 표시됩니다. 이 버튼을 클릭하면 사용할 구성 요소를 지정해야 하는 대화 상자로 이동합니다. 첫 번째와 두 번째 구성 요소로 분석을 시작하는 것은 당연합니다. 결과는 그림 1에 나와 있습니다. 9.2.4.


쌀. 9.2.4. 처음 두 개의 주요 구성요소 평면에서 고려 중인 객체의 배치

포인트의 위치가 변경되었으며 이는 자연스러운 현상입니다. 분석에 새로운 기능이 포함됩니다. 그림에서. 9.2.4는 서로에 대한 포인트 위치의 총 다양성의 65% 이상을 반영하며 이는 이미 사소한 결과입니다. 예를 들어, 테이블로 돌아가는 것입니다. 9.1.1에서는 점 4와 7, 점 8과 10이 실제로 서로 매우 가깝다는 것을 확인할 수 있습니다. 그러나 이들 간의 차이점은 그림에 표시되지 않은 다른 주요 구성 요소와 관련될 수 있습니다. 결국 이 구성 요소는 나머지 변동성의 1/3을 차지합니다.

그런데, 주요 구성 요소의 평면에서 점의 배치를 분석할 때, 주요 구성 요소 사이의 거리를 분석해야 할 수도 있습니다. 점 사이의 거리 행렬을 얻는 가장 쉬운 방법은 군집 분석용 모듈을 사용하는 것입니다.

식별된 주요 구성요소는 원래 특성과 어떤 관련이 있습니까? 이는 버튼(그림 9.2.3)을 클릭하여 확인할 수 있습니다. Plot var. 요인 좌표, 2D. 결과는 그림 1에 나와 있습니다. 9.2.5.


쌀. 9.2.5. 처음 두 가지 주요 구성 요소의 평면에 원래 기능을 투영합니다.

우리는 "위에서" 두 가지 주요 구성 요소의 평면을 봅니다. 주요 구성 요소와 전혀 관련이 없는 초기 특징은 해당 구성 요소에 수직(또는 거의 수직)이며 좌표 원점 근처에서 끝나는 짧은 세그먼트에 반영됩니다. 따라서 특성 번호 6은 처음 두 가지 주요 구성요소와 가장 관련이 적습니다(비록 첫 번째 구성요소와 특정 양의 상관관계를 보여주긴 하지만). 주요 구성요소의 평면에 완전히 반사된 특징에 해당하는 세그먼트는 그림의 중심을 둘러싸는 단위 반경의 원에서 끝납니다.

예를 들어 첫 번째 주성분은 특성 10(양의 상관 관계)과 특성 7과 8(음의 상관 관계)에 의해 가장 큰 영향을 받았다는 것을 알 수 있습니다. 이러한 상관 관계의 구조를 더 자세히 고려하려면 변수의 요소 좌표 버튼을 클릭하고 그림 2에 표시된 테이블을 얻을 수 있습니다. 9.2.6.


쌀. 9.2.6. 초기 특성과 확인된 주요 구성 요소(요인) 간의 상관 관계

고유값 버튼은 다음과 같은 값을 표시합니다. 주요 구성요소의 고유값. 그림에 표시된 창 상단에 있습니다. 9.2.3에서는 처음 몇 가지 구성 요소에 대해 다음 값이 표시됩니다. Scree Plot 버튼은 이를 읽기 쉬운 형식으로 표시합니다(그림 9.2.7).


쌀. 9.2.7. 선택된 주성분의 고유값과 이에 의해 반영된 전체 분산의 비율

먼저 고유값이 정확히 무엇을 나타내는지 이해해야 합니다. 이는 초기 데이터의 각 특성이 설명하는 분산의 양으로 측정된 주성분에 반영된 분산을 측정한 것입니다. 첫 번째 주성분의 고유값이 3.4인 경우 이는 초기 세트의 세 가지 특성보다 더 많은 분산을 설명한다는 의미입니다. 고유값은 주성분에 따른 분산 점유율과 선형적으로 관련되어 있습니다. 유일한 것은 고유값의 합이 원래 특징의 수와 같고 분산 점유율의 합이 100%라는 것입니다. .

10가지 특성에 대한 변동성 정보가 9가지 주성분에 반영되었다는 것은 무엇을 의미합니까? 초기 기능 중 하나가 중복되었다는 점은 새로운 정보를 추가하지 않았습니다. 그랬습니다. 그림에서. 9.2.8은 테이블에 반영된 점 집합이 어떻게 생성되었는지 보여줍니다. 9.1.1.

생산 및 경제 프로세스를 모델링할 때 고려 중인 생산 하위 시스템의 수준(구조적 반분할, 연구 중인 프로세스)이 낮을수록 입력 매개변수의 특징은 이를 결정하는 요인의 상대적 독립성입니다. 기업의 주요 질적 지표(노동 생산성, 제품 비용, 이익 및 기타 지표)를 분석할 때 상호 연결된 입력 매개변수(요인) 시스템을 사용하여 모델링 프로세스를 처리해야 합니다. 동시에, 시스템의 통계적 모델링 프로세스는 강한 상관관계를 특징으로 하며 어떤 경우에는 결정 요인(프로세스의 입력 매개변수)이 거의 선형적으로 의존한다는 특징이 있습니다. 이는 다중공선성의 경우입니다. 입력 매개변수의 중요한 상호의존성(상관관계)이 있으므로 여기서의 회귀 모델은 연구 중인 실제 프로세스를 적절하게 반영하지 않습니다. 여러 요인을 추가하거나 삭제하고 초기 정보의 양(관찰 수)을 늘리거나 줄이면 연구 중인 프로세스 모델이 크게 변경됩니다. 이 접근 방식을 사용하면 연구 중인 요인의 영향을 특징짓는 회귀 계수 값과 그 영향의 방향까지 극적으로 변경할 수 있습니다(한 모델에서 다른 모델로 이동할 때 회귀 계수의 부호가 반대 방향으로 변경될 수 있음). 또 다른).

과학적 연구 경험을 통해 대부분의 경제적 프로세스는 매개변수(연구 중인 요소)의 높은 수준의 상호 영향(상호 상관)을 특징으로 하는 것으로 알려져 있습니다. 이러한 요인에 대한 모델링된 지표의 회귀를 계산할 때 모델의 계수 값을 해석하는 데 어려움이 발생합니다. 모델 매개변수의 이러한 다중 공선성은 본질적으로 지역적인 경우가 많습니다. 즉, 연구 중인 모든 요인이 서로 유의미한 관련이 있는 것은 아니지만 입력 매개변수의 개별 그룹이 있습니다. 다중공선형 시스템의 가장 일반적인 경우는 연구된 요인 세트가 특징입니다. 그 중 일부는 고도로 상호 연결된 내부 구조를 가진 별도의 그룹을 형성하고 실질적으로 서로 관련이 없으며 일부는 블록으로 형성되지 않고 중요하지 않은 개별 요인입니다. 서로 강한 상관관계가 있는 그룹에 포함된 나머지 요소 모두에 적용됩니다.



이러한 유형의 프로세스를 모델링하려면 크게 상호 연관된 요인 세트를 하나의 중요한 속성을 갖는 다른 비상관 매개변수 세트로 대체하는 방법에 대한 문제를 해결해야 합니다. 새로운 독립 매개변수 세트에는 다음에 대한 모든 필수 정보가 포함되어야 합니다. 연구 중인 프로세스의 원래 요소 집합의 변형 또는 분산입니다. 이 문제를 해결하는 효과적인 방법은 주성분 방법을 사용하는 것입니다. 이 방법을 사용할 때, 주성분 세트에 포함된 초기 요소 조합의 경제적 해석 문제가 발생합니다. 이 방법을 사용하면 모델의 입력 매개변수 수를 줄일 수 있으므로 결과 회귀 방정식의 사용이 단순화됩니다.

주성분 계산의 핵심은 초기 인자 X j 에 대한 상관(공분산) 행렬을 결정하고 행렬의 특성수(고유값)와 해당 벡터를 찾는 것입니다. 특성 숫자는 새로 변환된 변수의 분산이며 각 특성 숫자에 대해 해당 벡터는 이전 변수가 새 변수에 입력되는 가중치를 제공합니다. 주성분은 원래 통계량의 선형 조합입니다. 초기(관찰된) 요인에서 주성분의 벡터로의 전환은 좌표축을 회전하여 수행됩니다.

회귀 분석의 경우 일반적으로 처음 몇 개의 주성분만 사용되며, 이는 전체 초기 요인 변동의 80~90%를 설명하고 나머지는 삭제됩니다. 모든 구성요소가 회귀분석에 포함되면 원래 변수를 통해 표현된 결과는 다중회귀식과 동일하게 됩니다.

주성분 계산 알고리즘

있다고 해보자 차원이 있는 벡터(초기 요인) N(차원 수)는 X 행렬을 구성합니다.

일반적으로 모델링된 프로세스의 주요 요소는 측정 단위가 다르기 때문에(일부는 kg으로, 일부는 km로, 일부는 화폐 단위 등으로 표시됨) 이를 비교하고 영향 정도, 작동을 비교합니다. 스케일링과 센터링이 사용됩니다. 변환된 입력 요소를 다음과 같이 나타냅니다. y ij. 표준(평균 제곱) 편차 값은 가장 자주 척도로 선택됩니다.

여기서 σj는 Xj의 표준편차입니다. σ j 2 - 분산; - 주어진 j번째 관측치 계열의 초기 요인의 평균값

(중심 무작위 변수는 수학적 기대치에서 무작위 변수의 편차입니다. 값 x를 정규화한다는 것은 평균 값이 0이고 분산이 1인 새로운 값 y로 이동하는 것을 의미합니다.)

쌍 상관 계수의 행렬을 정의합시다

여기서 y ij는 i번째 측정에 대한 xj번째 확률 변수의 정규화되고 중심화된 값입니다. y ik – k번째 확률 변수의 값입니다.

r jk 값은 회귀선을 기준으로 점의 산란 정도를 나타냅니다.

주성분 F의 필수 행렬은 다음 관계식으로 결정됩니다(여기서는 수량 y ij의 전치된 "90 0 회전" 행렬을 사용합니다).

또는 벡터 형식을 사용하여:

,

여기서 F는 세트를 포함한 주성분의 행렬입니다. N에 대해 얻은 값 주요 구성 요소; 행렬 A의 요소는 원래 요소에서 각 주성분의 비율을 결정하는 가중치 계수입니다.

행렬 A의 요소는 다음 식에서 찾을 수 있습니다.

여기서 uj는 상관 계수 행렬 R의 고유 벡터입니다. λj는 해당 고유값입니다.

Ru = λu가 되는 m차원 0이 아닌 고유벡터 u를 선택할 수 있는 경우 숫자 λ는 m차 정사각 행렬 R의 고유값(또는 특성수)이라고 합니다.

행렬 R의 모든 고유값 세트는 방정식 |R - λE|에 대한 모든 해의 세트와 일치합니다. = 0. 행렬식 det |R - λE|를 확장하면 행렬 R의 특성 다항식을 얻습니다. 방정식 |R - λE| = 0을 행렬 R의 특성 방정식이라고 합니다.

고유값과 고유벡터를 결정하는 예입니다. 행렬이 주어졌습니다.

그 특성 방정식

이 방정식의 근은 λ 1 =18, λ 2 =6, λ 3 =3입니다. λ 3 에 대응하는 고유벡터(방향)를 구해봅시다. λ 3을 시스템에 대입하면 다음을 얻습니다.

8u 1 – 6u 2 +2u 3 = 0

6u 1 + 7u 2 - 4u 3 = 0

2u 1 - 4u 2 + 3u 3 = 0

이 시스템의 행렬식은 0이므로 선형 대수의 규칙에 따라 마지막 방정식을 버리고 결과 시스템을 임의의 변수(예: u 1 = c = 1)에 대해 풀 수 있습니다.

6u 2 + 2u 3 = - 8c

7u 2 - 4u 3 = 6초

여기에서 λ 3 =3에 대한 고유 방향(벡터)을 얻습니다.

1. 같은 방법으로 고유벡터를 찾을 수 있습니다.

주성분을 찾는 절차의 기본 원리는 그림 1에 나와 있습니다. 29.



쌀. 29. 주성분과 변수의 연결 방식

가중 계수는 측정된 지표 Xj 값에 대한 특정 "숨겨진" 일반화 속성(전역 개념)의 영향 정도(및 방향)를 나타냅니다.

성분 분석 결과를 해석하는 예:

주요 구성 요소 F 1의 이름은 중요한 기능 X 1, X 2, X 4, X 6의 구조에 존재하여 결정되며 모두 생산 활동 효율성의 특성을 나타냅니다. F 1 - 생산 효율성.

주요 구성 요소 F2의 이름은 중요한 기능 X3, X5, X7의 구조에 존재하는지 여부에 따라 결정됩니다. F2는 생산자원 규모.

결론

매뉴얼에는 경영 결정을 정당화하기 위해 경제적, 수학적 모델링을 숙달하기 위한 방법론적 자료가 포함되어 있습니다. 정수 프로그래밍, 비선형 프로그래밍, 동적 프로그래밍, 전송 유형 문제, 큐잉 이론 및 주성분 방법을 포함한 수학적 프로그래밍에 많은 관심이 집중됩니다. 생산 시스템을 조직하고 관리하는 실무, 비즈니스 및 재무 관리에 대한 모델링을 자세히 검토합니다. 제시된 자료에 대한 연구에는 PRIMA 소프트웨어 패키지와 Excel 스프레드시트 환경을 사용한 모델링 및 계산 기술의 광범위한 사용이 포함됩니다.

주성분법

주성분법(영어) 주성분 분석, PCA )는 데이터의 차원을 줄여 정보 손실을 최소화하는 주요 방법 중 하나입니다. K. 피어슨이 발명함 칼 피어슨 ) in. 패턴 인식, 컴퓨터 비전, 데이터 압축 등 많은 분야에서 사용됩니다. 주성분 계산은 원본 데이터의 공분산 행렬의 고유 벡터 및 고유 값 계산으로 귀결됩니다. 때때로 주성분 방법이 호출됩니다. Karhunen-Loeve 변환(영어) 카르후넨-로브) 또는 호텔링 변환(eng. 호텔링 변환). 데이터의 차원을 줄이는 다른 방법으로는 독립 구성 요소 방법, 다차원 스케일링 및 수많은 비선형 일반화(주 곡선 및 다양체 방법, 탄성 맵 방법, 최상의 투영 검색(eng. 프로젝션 추구), 신경망 "병목 현상" 방법 등

문제에 대한 공식적인 설명

주성분 분석 문제에는 최소한 네 가지 기본 버전이 있습니다.

  • 낮은 차원의 선형 다양체에 의한 대략적인 데이터;
  • 데이터의 확산(즉, 평균값으로부터의 표준편차)이 최대인 직교 투영에서 더 낮은 차원의 부분공간을 찾습니다.
  • 점 사이의 평균 제곱근 거리가 최대인 직교 투영에서 더 낮은 차원의 부분 공간을 찾습니다.
  • 주어진 다차원 확률 변수에 대해 결과적으로 개별 좌표 간의 상관 관계가 0이 되도록 좌표의 직교 변환을 구성합니다.

처음 세 가지 버전은 유한한 데이터 세트로 작동합니다. 이는 동일하며 데이터의 통계적 생성에 대한 어떠한 가설도 사용하지 않습니다. 네 번째 버전은 무작위 변수로 작동합니다. 여기서 유한 집합은 주어진 분포의 표본으로 나타나며, 처음 세 가지 문제에 대한 해법은 "진정한" Karhunen-Loeve 변환에 대한 근사치로 나타납니다. 이는 이 근사치의 정확성에 대해 추가적인, 그리고 완전히 사소하지 않은 질문을 제기합니다.

선형 다양체에 의한 데이터 근사

K. Pearson(1901)의 유명한 작품에 대한 일러스트레이션: 평면에 주어진 점, - 직선에서 직선까지의 거리. 합을 최소화하는 직통라인을 찾고있습니다

주성분 방법은 선과 면에 의한 유한한 점 집합의 최적 근사 문제에서 시작되었습니다(K. Pearson, 1901). 유한한 벡터 집합이 제공됩니다. 의 모든 차원 선형 다양체 각각에 대해 제곱 편차의 합이 최소가 되도록 구합니다.

,

는 점에서 선형 다양체까지의 유클리드 거리입니다. 임의의 차원 선형 다양체는 매개변수가 실제 선을 따라 실행되는 선형 조합 세트로 정의될 수 있으며 직교 벡터 세트입니다.

,

여기서 유클리드 노름은 유클리드 스칼라 곱이거나 좌표 형식입니다.

.

의 근사 문제에 대한 해는 중첩된 선형 다양체 세트 , 에 의해 제공됩니다. 이러한 선형 다양체는 정규직교 벡터 집합(주성분 벡터)과 벡터로 정의됩니다. 벡터는 다음과 같은 최소화 문제에 대한 해결책으로 모색됩니다.

.

주성분의 벡터는 유사한 최적화 문제에 대한 해법으로 찾을 수 있습니다.

1) 데이터를 중앙 집중화합니다(평균을 뺍니다): . 지금 ; 2) 문제에 대한 해결책으로 첫 번째 주성분을 찾습니다. . 솔루션이 고유하지 않은 경우 그 중 하나를 선택하십시오. 3) 데이터에서 첫 번째 주성분에 대한 투영을 뺍니다. 4) 문제에 대한 해결책으로 두 번째 주성분을 찾으십시오. 솔루션이 고유하지 않은 경우 그 중 하나를 선택하십시오. … 2k-1) 번째 주성분에 대한 투영을 뺍니다(이전 주성분에 대한 투영은 이미 뺐다는 점을 기억하세요): ; 2k) 문제에 대한 해결책으로 k번째 주성분을 찾습니다. 솔루션이 고유하지 않은 경우 그 중 하나를 선택하십시오. ...

각 준비 단계에서 이전 주성분에 대한 투영을 뺍니다. 발견된 벡터는 단순히 설명된 최적화 문제를 해결한 결과로 직교 정규화되지만, 계산 오류로 인해 주성분 벡터의 상호 직교성이 방해되는 것을 방지하기 위해 최적화 문제의 조건에 포함될 수 있습니다.

정의의 비고유성은 기호 선택의 사소한 자의성(동일한 문제 해결) 외에도 더 중요할 수 있으며 예를 들어 데이터 대칭 조건에서 발생할 수 있습니다. 마지막 주성분은 이전의 모든 성분과 직교하는 단위 벡터입니다.

산란이 가장 큰 직교 투영 찾기

첫 번째 주성분은 데이터 투영의 표본 분산을 최대화합니다.

중앙에 집중된 데이터 벡터 세트가 주어집니다(산술 평균은 0입니다). 임무는 다음 조건이 충족되는 새로운 좌표계에 대한 직교 변환을 찾는 것입니다.

특이값 분해 이론은 J. J. 실베스터(J. J. Sylvester)에 의해 창안되었습니다. 제임스 조셉 실베스터 ) 도시에 있으며 행렬 이론에 대한 모든 세부 매뉴얼에 제시되어 있습니다.

간단한 반복 특이값 분해 알고리즘

주요 절차는 최소 제곱법을 사용하여 형식의 행렬(여기서 -차원 벡터 및 -차원 벡터)을 사용하여 임의 행렬의 최상의 근사치를 검색하는 것입니다.

이 문제에 대한 해결책은 명시적 공식을 사용하여 연속적인 반복을 통해 제공됩니다. 고정 벡터의 경우 양식에 최소값을 제공하는 값은 등식에서 고유하고 명시적으로 결정됩니다.

마찬가지로 고정 벡터를 사용하면 값이 결정됩니다.

벡터의 초기 근사값으로 단위 길이의 임의 벡터를 가져와 벡터를 계산한 다음 이 벡터에 대해 벡터를 계산하는 등의 작업을 수행합니다. 각 단계에서 값이 감소합니다. 중지 기준은 반복 단계당 최소화된 함수 값의 상대적 감소 크기() 또는 값 자체의 크기입니다.

결과적으로 우리는 다음 형식의 행렬을 사용하여 행렬에 대한 최상의 근사치를 얻었습니다(여기서 위 첨자는 근사치 숫자를 나타냄). 다음으로, 행렬에서 결과 행렬을 빼고 결과 편차 행렬에 대해 예를 들어 노름이 충분히 작아질 때까지 동일한 유형 등의 최상의 근사치를 다시 찾습니다. 그 결과, 랭크 1의 행렬의 합, 즉 의 형태로 행렬을 분해하는 반복적인 과정을 얻었다. 벡터를 가정하고 정규화합니다. 결과적으로 특이수와 특이 벡터(오른쪽 및 왼쪽)의 근사치가 얻어집니다.

이 알고리즘의 장점은 탁월한 단순성과 공백이 있는 데이터 및 가중치 데이터를 거의 변경하지 않고 전송할 수 있는 능력을 포함합니다.

정확성과 견고성을 향상시키기 위해 기본 알고리즘에 다양한 수정 사항이 있습니다. 예를 들어, 서로 다른 주요 구성 요소의 벡터는 "구성에 따라" 직교해야 하지만, 반복 횟수가 많아지면(차원이 크고 구성 요소가 많음) 직교성에서 작은 편차가 누적되어 각각에서 특별한 수정이 필요할 수 있습니다. 단계를 거쳐 이전에 발견된 주성분과의 직교성을 보장합니다.

텐서의 특이 분해 및 주성분의 텐서 방법

종종 데이터 벡터는 직사각형 테이블(예: 평면 이미지) 또는 다차원 테이블(즉, 텐서)의 추가 구조를 갖습니다. 이 경우 특이값 분해를 이용하는 것도 효과적이다. 정의, 기본 공식 및 알고리즘은 실질적으로 변경 없이 전송됩니다. 데이터 매트릭스 대신 인덱스 값이 있습니다. 여기서 첫 번째 인덱스는 데이터 포인트(텐서)의 수입니다.

주요 절차는 최소 제곱법을 사용하여 다음 형식의 텐서(여기서 는 -차원 벡터( 는 데이터 포인트 수), 는 의 차원 벡터)로 최적의 텐서 근사치를 검색하는 것입니다.

이 문제에 대한 해결책은 명시적 공식을 사용하여 연속적인 반복을 통해 제공됩니다. 하나를 제외한 모든 요인 벡터가 주어지면 나머지 벡터는 최소값에 대한 충분 조건에서 명시적으로 결정됩니다.

벡터()의 초기 근사값으로 단위 길이의 임의 벡터를 가져와 벡터를 계산한 다음 이 벡터와 이러한 벡터에 대해 벡터 등을 계산합니다. (인덱스를 주기적으로 반복) 각 단계에서는 의 값이 감소합니다. 알고리즘은 분명히 수렴합니다. 중지 기준은 사이클당 최소화된 기능 값의 상대적 감소 크기 또는 값 자체의 크기입니다. 다음으로, 결과 근사치를 텐서에서 빼고 나머지에 대해 동일한 유형의 최상의 근사치를 다시 찾습니다. 예를 들어 다음 나머지의 노름이 충분히 작아질 때까지입니다.

이 다중 성분 특이값 분해(텐서 주성분 방법)는 이미지, 비디오 신호, 더 광범위하게는 표 또는 텐서 구조를 가진 모든 데이터를 처리하는 데 성공적으로 사용됩니다.

주성분으로의 변환 행렬

주성분에 대한 데이터 변환 행렬은 고유값의 내림차순으로 정렬된 주성분의 벡터로 구성됩니다.

(조옮김을 의미),

즉, 행렬은 직교합니다.

대부분의 데이터 변형은 첫 번째 좌표에 집중되므로 더 낮은 차원 공간으로 이동할 수 있습니다.

잔차 분산

데이터를 중앙에 놓으십시오. 데이터 벡터를 첫 번째 주성분에 대한 투영으로 대체할 때 하나의 데이터 벡터마다 평균 제곱 오류가 도입됩니다.

경험적 공분산 행렬의 고유값은 어디에 다중성을 고려하여 내림차순으로 정렬되어 있습니까?

이 수량을 잔차 분산. 크기

~라고 불리는 설명된 분산. 그 합은 표본 분산과 같습니다. 해당 제곱 상대 오차는 표본 분산에 대한 잔차 분산의 비율입니다(즉, 설명되지 않는 분산의 비율):

상대 오차는 첫 번째 구성 요소에 대한 투영을 통해 주 구성 요소 방법의 적용 가능성을 평가합니다.

논평: 대부분의 계산 알고리즘에서 해당 고유 벡터(주성분)가 있는 고유값은 가장 큰 것부터 작은 것 순으로 계산됩니다. 이를 계산하려면 첫 번째 고유값과 경험적 공분산 행렬(대각선 요소의 합, 즉 축을 따른 분산)의 추적을 계산하면 충분합니다. 그 다음에

카이저의 법칙에 따른 주성분 선택

설명된 분산의 필요한 비율을 기반으로 주성분 수를 추정하는 목표 접근 방식은 항상 공식적으로 적용 가능하지만 "신호"와 "잡음"이 분리되지 않고 미리 결정된 정확도가 의미가 있다고 암시적으로 가정합니다. 따라서 "신호"(상대적으로 작은 차원, 상대적으로 큰 진폭) 및 "잡음"(큰 차원, 상대적으로 작은 진폭)의 존재에 대한 가설을 기반으로 하는 또 다른 휴리스틱이 더 생산적인 경우가 많습니다. 이러한 관점에서 볼 때 주성분 방법은 필터처럼 작동합니다. 즉, 신호는 주로 첫 번째 주성분에 대한 투영에 포함되며 나머지 성분의 노이즈 비율은 훨씬 높습니다.

질문: 신호 대 잡음 비율을 미리 알 수 없는 경우 필요한 주성분 수를 어떻게 추정합니까?

주성분을 선택하는 가장 간단하고 오래된 방법은 다음과 같습니다. 카이저 룰(영어) 카이저의 법칙): 주요 구성요소는 다음 중 중요합니다.

즉, 평균(데이터 벡터 좌표의 평균 샘플 분산)을 초과합니다. 카이저의 규칙은 평균보다 훨씬 큰 를 갖는 여러 주성분이 있고 나머지 고유값이 이보다 작은 간단한 경우에 잘 작동합니다. 더 복잡한 경우에는 중요한 주성분이 너무 많이 생성될 수 있습니다. 데이터가 축을 따라 단위 표본 분산으로 정규화되면 Kaiser의 규칙은 특히 간단한 형식을 취합니다.

깨진 지팡이 규칙을 사용하여 주성분 수 추정

예: 차원 5에서 부러진 지팡이 규칙을 사용하여 주성분 수를 추정합니다.

필요한 주성분 수를 추정하는 가장 널리 사용되는 경험적 접근 방식 중 하나는 다음과 같습니다. 부러진 지팡이 규칙(영어) 부러진 스틱 모델) . 단위 합계(, )로 정규화된 고유값 세트는 무작위로 선택된 7번째 지점에서 끊어진 단위 길이의 지팡이의 단편 길이 분포와 비교됩니다(중단점은 독립적으로 선택되며 길이를 따라 균등하게 분포됩니다). 지팡이). ()를 결과 지팡이 조각의 길이로 두고, 길이의 내림차순으로 번호를 매깁니다. 수학적 기대값을 찾는 것은 어렵지 않습니다.

부러진 지팡이 규칙에 따라, 다음과 같은 경우 고유값의 내림차순으로 고유벡터가 주성분 목록에 저장됩니다.

그림에서. 5차원 사례에 대한 예가 제공됩니다.

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

예를 들어, 선택된

=0.5; =0.3; =0.1; =0.06; =0.04.

부러진 지팡이 규칙에 따르면 이 예에서는 두 가지 주요 구성 요소를 남겨 두어야 합니다.

사용자 평가에 따르면 부러진 지팡이 규칙은 중요한 주성분의 수를 과소평가하는 경향이 있습니다.

표준화

주성분으로 축소한 후 정규화

후에첫 번째 주성분에 대한 투영은 축을 따라 단위(샘플) 분산으로 정규화하는 것이 편리합니다. 번째 주성분에 따른 분산은 )과 같으므로 정규화하려면 해당 좌표를 로 나누어야 합니다. 이 변환은 직교하지 않으며 내적을 보존하지 않습니다. 정규화 후 데이터 투영의 공분산 행렬은 단위가 되고, 임의의 두 직교 방향에 대한 투영은 독립적인 양이 되며, 정규 직교 기저가 주성분의 기초가 됩니다(정규화는 벡터의 직교 관계를 변경한다는 점을 기억하세요). 소스 데이터 공간에서 첫 번째 주성분으로의 매핑은 정규화와 함께 다음 행렬로 지정됩니다.

.

Karhunen-Loeve 변환이라고 가장 자주 불리는 것은 바로 이 변환입니다. 여기에 열 벡터가 있으며 위 첨자는 전치를 의미합니다.

주성분 계산 전 정규화

경고: 주성분으로 변환한 후 수행되는 정규화를 정규화 및 "비차원화"와 혼동해서는 안 됩니다. 데이터 전처리, 주성분을 계산하기 전에 수행됩니다. 데이터의 최상의 근사치를 계산하거나 가장 큰 분산 방향을 찾는(동등한) 메트릭을 합리적으로 선택하려면 예비 정규화가 필요합니다. 예를 들어, 데이터가 "미터, 리터, 킬로그램"의 3차원 벡터이고 표준 유클리드 거리를 사용하는 경우 첫 번째 좌표의 1미터 차이는 두 번째 좌표의 1리터 차이와 동일하게 기여합니다. 세 번째에는 1kg입니다. 일반적으로 원본 데이터가 표시되는 단위 시스템은 축을 따른 자연 스케일에 대한 우리의 아이디어를 정확하게 반영하지 않으며 "무차원"이 수행됩니다. 각 좌표는 데이터, 목적에 의해 결정되는 특정 스케일로 나뉩니다. 처리 및 측정 및 데이터 수집 프로세스.

이러한 정규화에는 세 가지 크게 다른 표준 접근 방식이 있습니다. 단위 차이축을 따라 (축을 따라 스케일은 평균 제곱 편차와 같습니다. 이 변환 후 공분산 행렬은 상관 계수 행렬과 일치합니다) 동일한 측정 정확도(축을 따른 스케일은 주어진 값의 측정 정확도에 비례합니다) 동등한 요구문제에서 (축을 따른 스케일은 주어진 값의 예측에 필요한 정확도 또는 허용 가능한 왜곡-공차 수준에 의해 결정됩니다). 전처리의 선택은 문제의 의미 있는 공식화와 데이터 수집 조건의 영향을 받습니다. 단위 분산(이것이 문제의 의미에 해당하더라도). 이는 새로운 부분을 받은 후 모든 데이터의 재정규화를 포함하기 때문에 표준 편차를 대략적으로 추정하는 특정 척도를 선택한 다음 변경하지 않는 것이 더 합리적입니다. .

축을 따른 단위 분산에 대한 사전 정규화는 축이 주성분이 아닌 경우 좌표계 회전에 의해 파괴되며, 데이터 전처리 중 정규화가 주성분 정규화 후 정규화를 대체하지 않습니다.

가중치 데이터에 대한 기계적 유추 및 주성분 분석

각 데이터 벡터에 단위 질량을 할당하면 경험적 공분산 행렬은 이 점 질량 시스템의 관성 텐서(전체 질량으로 나눈 값)와 일치하고, 주성분의 문제는 관성 텐서를 다음으로 줄이는 문제와 일치합니다. 주요 축. 데이터 포인트의 중요성이나 해당 값의 신뢰성을 고려하여 질량 값을 추가로 자유롭게 선택할 수 있습니다(중요한 데이터 또는 더 신뢰할 수 있는 소스의 데이터에는 더 큰 질량이 할당됨). 만약에 데이터 벡터에 질량이 주어지고,그러면 경험적 공분산 행렬 대신에 우리는 다음을 얻습니다.

주성분으로의 축소를 위한 모든 추가 작업은 방법의 기본 버전과 동일한 방식으로 수행됩니다. 정규 고유기초를 찾고, 고유값의 내림차순으로 정렬하고, 데이터 근사의 가중 평균 오류를 다음과 같이 추정합니다. 첫 번째 구성요소(고유값의 합을 기반으로 함), 정규화 등.

보다 일반적인 계량 방법은 다음과 같습니다. 쌍별 거리의 가중 합을 최대화투영 사이. 두 개의 데이터 포인트마다 가중치가 입력됩니다. 그리고 . 경험적 공분산 행렬 대신에 다음을 사용합니다.

대칭 행렬이 양의 정부호인 경우, 이차 형태는 양수이므로:

다음으로 정규직교 고유기초를 찾고 고유값의 내림차순으로 정렬하고 첫 번째 구성 요소에 의한 데이터 근사의 가중 평균 오류를 추정합니다. 이는 기본 알고리즘과 정확히 동일합니다.

이 방법이 사용됩니다 수업이 있으면: 다른 클래스의 경우 동일한 클래스의 포인트보다 더 큰 가중치가 선택됩니다. 결과적으로, 가중치가 부여된 주성분에 대한 투영에서 서로 다른 클래스가 더 먼 거리만큼 "이동"합니다.

다른 용도 - 큰 편차의 영향 감소(외층, 영어) 국외자 ), 이는 제곱 평균 거리의 사용으로 인해 그림을 왜곡할 수 있습니다. 을 선택하면 큰 편차의 영향이 줄어듭니다. 따라서 설명된 주성분 방법의 수정은 기존 방법보다 더 강력합니다.

특수 용어

통계에서는 주성분법을 사용할 때 몇 가지 특수항을 사용한다.

데이터 매트릭스; 각 줄은 벡터입니다 전처리된데이터( 중심그리고 맞아 표준화된), 행 수 - (데이터 벡터 수), 열 수 - (데이터 공간의 차원);

행렬 로드(하중) ; 각 열은 주성분의 벡터이고, 행 수는 (데이터 공간의 차원)이고, 열 수는 (투영을 위해 선택한 주성분의 벡터 수)입니다.

계정 매트릭스(점수); 각 라인은 주성분에 대한 데이터 벡터의 투영입니다. 행 수 - (데이터 벡터 수), 열 수 - (투영을 위해 선택한 주성분 벡터 수)

Z-점수 행렬(Z-점수); 각 라인은 단위 표본 분산으로 정규화된 주성분에 대한 데이터 벡터의 투영입니다. 행 수 - (데이터 벡터 수), 열 수 - (투영을 위해 선택한 주성분 벡터 수)

오류 매트릭스(또는 나머지) (오차 또는 잔차) .

기본 공식:

적용 가능성의 한계 및 방법 효과의 한계

주성분 방법은 항상 적용 가능합니다. 정규 분포 데이터(또는 정규에 가까운 분포)에만 적용된다는 일반적인 주장은 잘못된 것입니다. K. Pearson의 원래 공식에서는 문제가 설정되었습니다. 근사치유한한 데이터 세트이며 분포는 말할 것도 없고 통계 생성에 대한 가설조차 없습니다.

그러나 이 방법은 정확도 제약 조건을 고려할 때 차원을 줄이는 데 항상 효과적인 것은 아닙니다. 직선과 평면이 항상 좋은 근사치를 제공하는 것은 아닙니다. 예를 들어, 데이터는 정확도가 좋은 곡선을 따라갈 수 있지만 이 곡선을 데이터 공간에서 찾기 어려울 수 있습니다. 이 경우 허용 가능한 정확도를 위한 주성분 방법에는 (하나가 아닌) 여러 구성 요소가 필요하거나 허용 가능한 정확도로 차원을 전혀 줄이지 않습니다. 이러한 "곡선형" 주성분을 처리하기 위해 주 다양체 방법과 다양한 버전의 비선형 주성분 방법이 발명되었습니다. 복잡한 토폴로지 데이터로 인해 더 많은 문제가 발생할 수 있습니다. 이를 근사화하기 위해 자체 구성 코호넨 맵, 신경 가스 또는 위상 문법과 같은 다양한 방법도 발명되었습니다. 데이터가 정규와 매우 다른 분포로 통계적으로 생성된 경우 분포를 근사화하려면 주성분에서 다음으로 이동하는 것이 유용합니다. 독립 구성 요소, 이는 원래 스칼라 곱에서 더 이상 직교하지 않습니다. 마지막으로 등방성 분포(정상 분포라도)의 경우 산란 타원체 대신 공을 얻으며 근사 방법으로 치수를 줄이는 것은 불가능합니다.

사용 예

데이터 시각화

데이터 시각화는 실험 데이터나 이론적 연구 결과를 시각적으로 표현한 것입니다.

데이터 세트를 시각화하는 첫 번째 선택은 처음 두 개의 주성분(또는 처음 세 개의 주성분의 3차원 공간)을 평면에 직교 투영하는 것입니다. 디자인 평면은 본질적으로 왜곡이 가장 적은 데이터의 "그림"을 제공하는 방식으로 배치된 평평한 2차원 "스크린"입니다. 이러한 투영은 세 가지 측면에서 최적입니다(다른 2차원 화면의 모든 직교 투영 중에서).

  1. 데이터 포인트에서 첫 번째 주요 구성 요소의 평면에 대한 투영까지의 거리 제곱의 합은 최소입니다. 즉, 화면은 포인트 클라우드에 최대한 가깝게 위치합니다.
  2. 점을 평면에 투영한 후 데이터 클라우드의 모든 점 쌍 사이의 거리 제곱의 왜곡 합계는 최소화됩니다.
  3. 모든 데이터 포인트와 해당 "무게 중심" 사이의 거리 제곱의 왜곡 합계는 최소화됩니다.

데이터 시각화는 주성분 분석 및 비선형 일반화에 가장 널리 사용되는 응용 프로그램 중 하나입니다.

이미지 및 비디오 압축

이미지와 비디오를 인코딩할 때 픽셀의 공간적 중복성을 줄이기 위해 픽셀 블록의 선형 변환이 사용됩니다. 획득된 계수의 후속 양자화 및 무손실 코딩을 통해 상당한 압축 비율을 얻을 수 있습니다. PCA 변환을 선형 변환으로 사용하는 것은 일부 데이터 유형의 경우 동일한 왜곡을 유지하면서 결과 데이터의 크기 측면에서 최적입니다. 현재 이 방법은 높은 계산 복잡성으로 인해 활발히 사용되지 않습니다. 마지막 변환 계수를 삭제하여 데이터 압축을 수행할 수도 있습니다.

이미지의 노이즈 줄이기

계량화학

주성분법은 화학계량학의 주요 방법 중 하나입니다. 계량화학 ). 소스 데이터 행렬 X를 "의미 있는" 부분과 "노이즈"의 두 부분으로 나눌 수 있습니다. 가장 대중적인 정의에 따르면, “화학계량학(Chemometrics)은 최적의 측정 방법과 실험 설계를 구성 또는 선택하고 실험 분석에서 가장 중요한 정보를 추출하기 위해 공식 논리를 기반으로 수학적, 통계적 및 기타 방법을 적용하는 화학 분야입니다. 데이터."

정신진단

  1. 데이터 분석(수치 데이터 배열 형태로 제시된 설문 조사 또는 기타 연구 결과 설명)
  2. 사회 현상에 대한 설명(수학적 모델을 포함한 현상 모델 구축)

정치학에서 주요 구성 요소 방법은 특별히 개발된 5가지 통합 지표(생활 수준, 국제 영향력, 위협)에 따라 세계 192개국의 등급을 선형 및 비선형 분석하기 위한 "현대의 정치 지도책" 프로젝트의 주요 도구였습니다. , 국가 및 민주주의). 이 분석 결과를 매핑하기 위해 지리 공간과 특징 공간을 결합한 특수 GIS(지리 정보 시스템)가 개발되었습니다. 정치 지도 자료 지도도 국가의 5차원 공간에 있는 2차원의 주요 다양체를 베이스로 하여 제작되었습니다. 데이터 지도와 지리 지도의 차이점은 지리 지도에는 지리적 좌표가 비슷한 객체가 근처에 있는 반면, 데이터 지도에는 비슷한 특성(지수)을 가진 객체(국가)가 근처에 있다는 것입니다.

구성 요소 분석은 다차원 차원 축소 방법을 나타냅니다. 여기에는 주성분 방법이라는 하나의 방법이 포함되어 있습니다. 주성분은 성분의 분산이 통계적 특성을 나타내는 직교 좌표계를 나타냅니다.

경제학 연구의 대상은 크지만 유한한 수의 특성을 특징으로 하며, 그 영향은 수많은 무작위 원인의 영향을 받는다는 점을 고려하면.

주성분 계산

연구된 특징 X1, X2, X3, X4,..., Xn 시스템의 첫 번째 주성분 Z1은 이러한 특징의 중심-정규화된 선형 조합이라고 하며, 이러한 특징의 중심-정규화된 선형 조합은 다음과 같습니다. 분산이 가장 다양합니다.

두 번째 주성분 Z2로서 우리는 다음과 같은 특징의 중심-정규화된 조합을 취할 것입니다.

첫 번째 주성분과 상관 관계가 없습니다.

첫 번째 주성분과 상관 관계가 없으면 이 조합이 가장 큰 분산을 갖습니다.

K번째 주 구성요소 Zk(k=1…m)를 중앙 집중화되고 정규화된 특징 조합으로 부르겠습니다.

k-1개의 이전 주성분과 상관관계가 없으며,

초기 기능의 가능한 모든 조합 중에서

k-1개의 이전 주성분과 상관관계가 없으므로 이 조합은 가장 큰 분산을 갖습니다.

직교 행렬 U를 도입하고 X 변수에서 Z 변수로 이동해 보겠습니다.

벡터는 분산이 최대가 되도록 선택됩니다. 얻은 후에는 상관 관계가 없는 한 분산이 최대가 되도록 so가 선택됩니다.

특성은 비교할 수 없는 양으로 측정되므로 중심 정규화된 양으로 이동하는 것이 더 편리합니다. 우리는 관계에서 특징의 초기 중심 정규화 값의 행렬을 찾습니다.

수학적 기대에 대한 편견 없고 일관되며 효과적인 추정치는 어디에 있습니까?

편견이 없고 일관되며 효율적인 분산 추정.

초기 특성의 관찰된 값 매트릭스는 부록에 나와 있습니다.

센터링 및 정규화는 "Stadia" 프로그램을 사용하여 수행되었습니다.

특징은 중심화되고 정규화되므로 다음 공식을 사용하여 상관 행렬을 추정할 수 있습니다.


구성요소 분석을 수행하기 전에 초기 특성의 독립성을 분석합니다.

Wilks 테스트를 사용하여 쌍별 상관 행렬의 유의성을 확인합니다.

우리는 다음과 같은 가설을 제시했습니다.

H0: 중요하지 않음

H1: 유의미함

125,7; (0,05;3,3) = 7,8

>이므로 가설 H0이 기각되고 행렬이 중요하므로 성분 분석을 수행하는 것이 합리적입니다.

공분산 행렬의 대각선성에 대한 가설을 확인해 보겠습니다.

우리는 다음과 같은 가설을 제시했습니다.

우리는 자유도에 따라 법에 따라 배포되는 통계를 구축합니다.

123,21, (0,05;10) =18,307

>이므로 가설 H0이 기각되고 성분 분석을 수행하는 것이 합리적입니다.

요인 적재 행렬을 구성하려면 방정식을 풀어 행렬의 고유값을 찾아야 합니다.

이 작업을 위해 우리는 행렬의 고유값을 반환하는 MathCAD 시스템의 고유값 함수를 사용합니다.

왜냐하면 원본 데이터는 일반 모집단의 표본이므로 행렬의 고유값과 고유벡터가 아닌 추정값을 얻었습니다. 우리는 통계적 관점에서 표본 특성이 일반 모집단에 대한 해당 매개변수를 얼마나 잘 설명하는지에 관심을 가질 것입니다.

i번째 고유값에 대한 신뢰 구간은 다음 공식을 사용하여 구합니다.

고유값에 대한 신뢰 구간은 궁극적으로 다음과 같은 형식을 취합니다.

여러 고유값 값의 추정치는 다른 고유값의 신뢰 구간 내에 속합니다. 고유값의 다중성에 대한 가설을 테스트할 필요가 있습니다.

다중성은 통계를 사용하여 확인됩니다.

여기서 r은 다중 근의 수입니다.

공정성을 고려하면 이 통계는 자유도 수에 따라 법에 따라 배포됩니다. 가설을 세워보자:

가설이 기각되었기 때문에, 즉 고유값은 배수가 아닙니다.

가설이 기각되었기 때문에, 즉 고유값은 배수가 아닙니다.

정보 내용 수준 0.85에서 주요 구성 요소를 식별하는 것이 필요합니다. 정보 내용의 측정은 원래 특징의 분산 중 k-첫 번째 주성분으로 구성되는 부분 또는 비율을 보여줍니다. 우리는 정보 내용의 척도를 다음 값이라고 부릅니다.

주어진 정보 내용 수준에서 세 가지 주요 구성 요소가 식별됩니다.

행렬을 쓰자 =

원래 특징에서 주성분으로의 정규화된 전이 벡터를 얻으려면 방정식 시스템을 풀어야 합니다. 여기서 는 해당 고유값입니다. 시스템에 대한 해를 얻은 후에는 결과 벡터를 정규화해야 합니다.

이 문제를 해결하기 위해 해당 고유값에 대해 정규화된 벡터를 반환하는 MathCAD 시스템의 eigenvec 함수를 사용합니다.

우리의 경우 처음 4개의 주요 구성요소는 주어진 수준의 정보 내용을 달성하는 데 충분하므로 행렬 U(원래 기저에서 고유벡터 기저로의 전이 행렬)

우리는 열이 고유 벡터인 행렬 U를 구성합니다.

가중 계수 행렬:

행렬 A의 계수는 중심 정규화된 초기 특징과 정규화되지 않은 주성분 사이의 상관 계수로, 해당 초기 특징과 해당 주성분 사이의 선형 관계의 유무, 강도 및 방향을 나타냅니다.

© rifma-k-slovu.ru, 2024
Rifmakslovu-교육 포털