설계 효과

Design effect

조사 방법론에서 설계 효과(일반적으로 D t (D e f t 2(2관심 매개변수에 대한 두 추정치의 분산 사이의 비율이다.특히, 동일한 수의 [1]: 258 원소의 단순 랜덤 표본(SRS)에서 얻은 표본을 사용하여 계산(가설적으로)되는 대체 추정기의 분산에 대한 일부 표본 설계의 표본을 기반으로 하는 추정기의 실제 분산의 비율입니다.일부 관심 추정기의 분산에 대한 설계 구조의 기대 효과(예: 관측치 군집 의 상관 관계, 표본 추출의 불균등한 확률 등)를 측정합니다.는 평가자의 변화에 일부 매개 변수에, 이 연구 Deff(=1{\displaystyle D_{eff}=1}과 SRS를 사용하지 않기 때문이다 인플레이션(Deff1{\displaystyle D_{성교하다}>1}), 또는 디플레이션(Deff<1{\displaystyle D_{성교하다}<1})을 나타낼 수 있는 디자인 효과는 긍정적인 실수. ,분산은 동일합니다).[2]: 53, 54

Deff는 연구에 클러스터 샘플링, 계층화 샘플링, 클러스터 랜덤화 대조 시험, 불균형 표본, 비적용 범위, 무응답, 데이터의 통계 조정 등과 같은 복잡한 표본 추출이 수반될 때 유용할 수 있다.표본 크기 계산에 사용할 수 있으며, 표본의 대표성을 (목표 모집단에 대한) 수량화하고 일부 추정기의 분산을 조정(종종 부풀리기)할 수 있다(SRS를 [3]가정하여 추정기의 분산을 계산할 수 있는 경우).

"[1]: 88, 258 디자인 효과"라는 용어는 1965년 레슬리 키시에 의해 처음 도입되었습니다.그 이후로 문헌에서 관심 추정기 분산의 증가/감소에 대한 알려진 표본 설계의 영향을 설명하기 위한 많은 계산(및 추정기)이 제안되었다.일반적으로 설계 효과는 총 또는 비율 평균과 같은 관심 통계 간에 다르다. 또한 설계(예: 선택 확률)가 관심 결과와 상관관계가 있는 경우에도 중요하다.그리고 마지막으로 결과 자체의 분포에 영향을 받습니다.실제로 [4]: 13 설계 효과를 추정 및 사용할 때 이 모든 사항을 고려해야 한다.

정의들

데프

설계효과(Deff, {eff일부 (「\[1][5]의 추정치에 대한2개의 이론적인 분산의 비율입니다.

  • 분자는 특정 샘플링 p p\displaystyle(\displaystyle의 일부 파라미터 ^\displaystyle p
  • 분모에는 같은 샘플 크기를 가정한 분산이 포함되어 있지만, 샘플이 추정기를 사용하여 얻어진 경우 하지 않고 단순 랜덤 샘플링( ^ r r \ style \ hat \ }{ )에 사용합니다.

그 때문에, 다음과 같이 됩니다.

달리 말하면, f {eff}}는 샘플이 추출되어 특정 샘플링 설계(예를 들어 가중치 또는 기타 측정치를 사용)에 따라 조정되었기 때문에 분산이 얼마나 더 증가(또는 일부 경우 감소)했는지를 나타냅니다. 이는 샘플이 단순한 무작위 샘플링(대체되지 않음)에서 추출된 것일 수 있습니다.There are many ways of calculation , depending on the parameter of interest (E.g.: population total, population mean, quantiles, ratio of quantities etc.), the estimator used, and the sampling design (e.g.: clustered sampling, stratified sampling, post-stratification, multi-stage sampling, etc.).

모집단 평균을 추정하기 위해 Deff(일부 표본 추출 설계 p의 경우)는 다음과 같습니다.[4]: 4 [2]: 54

여기서 n은 표본 크기, f는 모집단(n/N), (1-f)는 (표준) 유한 모집단 보정(FPC), 2 {\}=}은 분산되지 않은 표본 분산이다.

단위 [1]: 259 분산(또는 요소 분산)의 추정치는 표본 설계의 모든 복잡성을 통합하기 위해 Deff에 원소의 분산을 곱하는 것입니다.

Deff의 정의는 우리가 종종 모르는 모집단의 모수(즉, 두 개의 서로 다른 표본 추출 설계에서 추정기의 분산)에 기초한다.특정 설계에 대한 Deff 추정 프로세스는 다음 [6]: 98 섹션에서 설명합니다.

Cochran [2]: 54 1977에는 일부 설계에 대해 총(평균이 아닌) 추정의 (이론적인) 설계 효과에 대한 일반 공식이 제시되어 있습니다.

디프트

1995년 키시가 제안한 데프와 관련된 수량은 데프트([7]: 56 [4]Deft)라고 불린다.분산 비율의 제곱근에 정의되며, 분모는 치환(srswr)이 없는 대신 치환(srswr)이 있는 단순 랜덤 표본을 사용합니다.

이후 정의(1995년 대 1965년에 제안)에서는 표본 설계의 일부이므로 설계 효과의 정의에 srs "대체 없이" (분산에 대한 긍정적 효과와 함께)를 포착해야 한다는 주장이 제기되었다.또한 추론에서의 사용과 더 직접적으로 관련이 있다(자주 +Z* 사용).DE*SE, +Z* 아님DE*VAR(신뢰구간 작성 시).또한 유한 모집단 보정(FPC)도 일부 상황에서 계산하기가 더 어렵기 때문입니다.그러나 인구가 매우 많은 경우 Deft는 (거의) Deff의 제곱근( e f {입니다.

Deft의 원래 의도는 " m (\\ displaystyle \ {}^{2 {을 초과하는 샘플 설계의 효과를 표현하고 측정 단위와 샘플 크기를 불필요한 파라미터로 제거하는 것"이었다. 이는 설계를 일반화할 수 있도록 하기 위한 것이다.동일한 조사(조사 [7]: 55 간에도 해당) 내에서 스틱과 변수를 사용할 수 있습니다.그러나 후속 작업에서는 모집단 총계 또는 평균과 같은 매개변수에 대한 설계 효과의 계산은 결과 측정치의 변동성에 의존하며, 이 측정치에 대한 Kish의 원래 소망을 제한한다.그러나 이 문장은 (일부 조건에서는) 가중 [4]: 5 평균에 대해 대략적으로 참일 수 있다.

유효 표본 크기

1965년 Kish가 정의한 유효 표본 크기는 원래 표본 크기를 설계 [1]: 162, 259 [8]: 190, 192 효과로 나눈 값이다.이 수량은 표본 설계(및 관련 모수 추정기)가 단순 랜덤 [9]표본을 기반으로 하는 경우 기존 설계에서 추정기(일부 모수의 경우)의 현재 분산을 달성하는 데 필요한 표본 크기를 나타냅니다.

즉,

바꿔 말하면 표본 추출 설계의 설계 효과를 올바르게 조정하는 추정기를 사용할 때 남아 있는 반응의 수를 나타냅니다.예를 들어, 단순 평균 대신 역확률 가중치와 함께 가중 평균을 사용합니다.

또한 Deff의 역수(예: n D f f { { _ { n _ { n _ { n _ { n } = frac D { } ) )를 취함으로써 효과적인 샘플 크기 비율을 얻을 수 있습니다.

Kish의 설계 효과를 동일하지 않은 무게에 사용할 경우, 다음과 같이 "Kish의 유효 표본 크기"[10][1]: 162, 259 에 대한 간단한 공식을 사용할 수 있습니다.

잘 알려진 표본 추출 설계에 대한 설계 효과

표본 설계는 설계 효과를 계산하는 방법을 지시합니다.

표본 설계에 따라 치우침과 분산 측면에서 추정치(평균 등)에 미치는 영향이 크게 다릅니다.

예를 들어, 군집 표본 추출의 경우 단위들의 클래스상관 관계(및 추정치의 분산을 증가시키는 부정적인 효과)에 관계없이 선택 확률이 같거나 같을 수 있습니다.계층화 표본 추출의 경우 확률은 같거나(EPSEM) 동일하지 않을 수 있습니다.그러나 그럼에도 불구하고 표본 추출 단계에서 모집단의 지층 크기에 대한 이전 정보를 사용하면 추정치의 통계적 효율성을 얻을 수 있다.예를 들어, 성별이 관심의 결과와 관련이 있다는 것을 알고 있고, 일부 모집단의 남녀 비율이 50%-50%라는 것도 알고 있는 경우.그런 다음 각 성별의 정확히 절반을 표본으로 추출하면 표본에서 남성-여성 비율이 일정하지 않아 발생하는 변동성을 제거했기 때문에 추정치의 분산을 줄일 수 있습니다.마지막으로, 모집단의 비적용, 무응답 또는 일부 계층 분할에 적응하는 경우(표본 추출 단계에서 이용 불가), 통계 절차(예: 사후 계층화 및 기타)를 사용할 수 있다.이러한 절차의 결과는 실제 단위 표본 추출 확률과 비슷하거나 매우 다른 표본 추출 확률을 추정할 수 있다.이러한 추정치의 품질은 보조 정보의 품질과 이러한 정보를 생성하는 데 사용된 임의의 가정에서의 누락에 따라 달라집니다.이러한 표본 추출 확률 추정기(성향 점수)가 그러한 현상을 발생시킨 대부분의 현상을 포착하는 데 성공하더라도, 추정기에 대한 변수 선택 확률의 영향은 데이터에 따라 작거나 클 수 있다(다음 섹션의 세부 사항).

표본 설계의 다양성이 크기 때문에(불균등 선택 확률에 대한 영향 유무에 관계없이) 잠재적 설계 효과를 포착하고 추정기의 정확한 분산을 추정하기 위해 다양한 공식이 개발되었다.경우에 따라서는, 이러한 다른 설계 효과를 복합시킬 수 있습니다(선택 확률과 클러스터 샘플링의 경우, 다음 섹션에서 자세히 설명합니다).이러한 공식을 사용할지 아니면 단순히 SRS를 가정할지는 추정기 분산의 증가(및 방법론 및 기술적 [1]: 426 복잡성의 오버헤드)와 비교하여 예상되는 편향의 양에 좌우된다.

선택 확률이 동일하지 않음

동일하지 않은 선택 확률의 출처

각 단위가 정확히 동일한 선택 확률을 가질 수 있도록 단위를 표본 추출하는 방법은 다양합니다.이러한 방법을 EPSEM(Equal Probability Sampling) 방식이라고 합니다.보다 기본적인 방법으로는 단순 랜덤 표본(SRS, 교체 여부와 관계없이)과 고정된 표본 크기를 얻기 위한 체계적인 표본 추출이 있습니다.랜덤 샘플 크기의 베르누이 샘플도 있습니다.계층화 샘플링 및 클러스터 샘플링과 같은 고급 기술도 EPSEM으로 설계할 수 있습니다.예를 들어, 군집 표본 추출에서는 각 군집을 크기에 비례하는 확률로 표본 추출한 다음 군집 내의 모든 단위를 측정할 수 있습니다.보다 복잡한 클러스터 샘플링 방법은 1단계(예: 클러스터 크기에 비례함)에서 클러스터를 샘플링하고 2단계에서 고정 비율의 SRS를 사용하여 각 클러스터에서 표본을 추출하는 2단계 샘플링을 사용하는 것이다(예: 클러스터의 [11]: 3–8 절반).

Kish와 다른 사람들은 그들의 연구에서 불평등한 선택 확률을 [1]: 425 [8]: 185 [7]: 69 [12]: 50, 395 [13]: 306 초래하는 몇 가지 알려진 이유를 강조한다.

  1. 선택 프레임 또는 절차로 인한 불균형 샘플링.이는 연구자가 특정 하위 모집단 또는 군집을 초과/적게 표본 추출하도록 표본을 의도적으로 설계할 때 발생합니다.이런 일이 일어날 수 있는 경우가 많습니다.예를 들어 다음과 같습니다.
    • 계층화 표본 추출에서 일부 계층의 단위가 다른 계층보다 큰 편차를 갖는 것으로 알려진 경우.이러한 경우, 연구자의 의도는 일부 모집단 수준 모수(예: 평균)의 추정기의 전체 분산을 줄이기 위해 지층 간 분산에 대한 이러한 사전 지식을 사용하는 것일 수 있다.이것은 최적 할당으로 알려진 전략에 의해 달성될 수 있다. 즉, 계층표준편차가 크고 샘플링 비용이 낮아지는(, S h h h \ h}\ { {\ e h C 표준 편차는 h h에서 의 요소를 모집하는 비용과 관련이 있습니다.최적의 할당의 예는 Neyman의 최적 할당이다. 각 스트레이텀을 모집하는 비용이 고정될 때 샘플 크기는 h S S h h W H h \ n_{h frac }\{이다.h { n _ { } 、 h N { _ { h } = frac { _ { _ { h } 전체 모집단 N에 대한 상대적인 크기이며, {}}}} of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of 최적 설계와 관련된 개념은 최적 실험 설계입니다.
    • 두 계층(예: 두 개의 특정 사회-인구학적 그룹 또는 두 개의 지역 등)을 비교하는 데 관심이 있는 경우, 이 경우 더 작은 그룹이 과잉 표본 추출될 수 있다.이렇게 하면 두 그룹을 비교하는 추정기의 분산이 줄어듭니다.
    • 군집 표본 추출에는 크기가 서로 다른 군집이 있을 수 있지만 SRS를 사용하는 모든 군집으로부터 절차 표본이 추출되고 군집 내의 모든 요소가 측정됩니다(예: 군집 크기가 표본 추출 단계에서 사전에 알려지지 않은 경우).
    • 2단계 표본을 사용하여 첫 번째 단계에서는 클러스터가 크기에 비례하여 표본 추출되지만(예: 크기에 비례하는 PPS 확률), 두 번째 단계에서는 각 클러스터에서 특정 고정 단위 수(예: 1개 또는 2개)만 선택됩니다. 이는 편의성/예산 고려 사항으로 인해 발생할 수 있습니다.첫 번째 단계에서 PPS를 사용하여 표본을 추출하려고 하지만 각 단위의 요소 수가 정확하지 않은 경우도 마찬가지입니다(따라서 일부 소규모 클러스터가 선택될 확률이 예상보다 높을 수 있습니다).또한 샘플링할 가능성이 너무 적은 대규모 클러스터에는 visa를 사용합니다).이러한 경우, 첫 번째 단계에서 표본 추출 프레임의 오차가 클수록, 필요한 불평등한 선택 [6]: 109 확률이 커집니다.
    • 표본 추출에 사용된 프레임에 일부 항목의 중복이 포함되어 있는 경우, 일부 항목은 표본 추출될 다른 항목보다 더 큰 확률로 이어진다(예: 표본 추출 프레임이 여러 목록을 병합하여 생성된 경우).또는 여러 광고 채널에서 사용자를 모집하는 경우 - 일부 사용자는 여러 채널에서 모집할 수 있고 다른 사용자는 한 채널에서만 모집할 수 있습니다.)이러한 경우 각각 - 단위마다 표본 추출 확률이 다르므로 이 표본 추출 절차는 [11]: 3–8 [8]: 186 EPSEM이 아닙니다.
    • 여러 개의 서로 다른 샘플/프레임이 결합되었을 때.예를 들어, 응답자를 모집하기 위해 다른 광고 캠페인을 실행하는 경우.또는 서로 다른 연구자 또는 서로 다른 시기에 수행된 여러 연구 결과를 결합하는 경우(예:메타 분석).[8]: 188
    표본 추출 설계 결정으로 인해 불균형 표본 추출이 발생할 경우, 연구자는 결정을 추적하여 정확한 포함 확률을 정확하게 계산할 수 있다.이러한 선택 확률이 추적하기 어려운 경우, 보조 변수(예: 나이, 성별 등)의 정보와 결합된 일부 성향 점수 모델을 사용하여 추정할 수 있다.
  2. 비커버리지[1]: 527, 528 예를 들어, 모집단의 모든 사람을 포함하지 않는 사전 정의된 리스트에 근거해 사람들을 표본 추출한 경우(전화 번호부 또는 설문조사에 사람을 모집하기 위한 광고 사용 등) 이러한 현상이 발생합니다.일부 사람(예: 미성년자, 투표할 수 없는 사람 등)을 의도적으로 배제하는 것과 반대로, 이러한 누락된 단위는 샘플링 프레임을 만드는 데 실패하여 누락된다.표본 추출 확률에 대한 비적용범위의 영향은 강력한 가정을 하지 않는 한 다양한 조사 상황에서 측정(및 조정)하기 어려운 것으로 간주된다.
  3. 무응답.이는 측정하려는 표본 추출 장치에 대한 측정 결과를 얻지 못하는 것을 의미합니다.응답하지 않는 이유는 상황에 따라 다릅니다.예를 들어 설문조사가 수행되었을 때 전화를 받을 수 없는 경우 등 일시적으로 통화할 수 없는 경우가 있습니다.또한 다양한 이유로 인해 설문조사를 거부할 수 있다. 예를 들어, 다양한 인종/인구/사회-경제 그룹의 사람들이 일반적으로 응답하는 경향, 시간을 소비하거나 데이터를 공유할 인센티브 부족, 설문조사를 수행하는 기관의 정체성, 질병으로 인해 응답할 수 없음(예: 질병으로 인해 응답할 수 없음)., 문맹 또는 언어 장벽), 응답자를 찾을 수 없습니다(예: 응답자가 아파트를 이동했습니다). 부호화 또는 전송 중에 응답이 손실/파괴되었습니다(예: 측정 오류).설문조사의 맥락에서 이러한 이유는 전체 설문조사에 대한 답변 [1]: 532 [8]: 186 또는 특정 질문에 대한 답변과 관련이 있을 수 있습니다.
  4. 통계적 조정여기에는 일부 알려진(또는 추정된) 지층 크기에 대한 표본의 임시 조정을 수행하는 데 사용되는 계층화 후, 긁힘 또는 성향 점수(추정) 모델과 같은 방법이 포함될 수 있다.이러한 절차는 샘플링 오류, 샘플링 프레임의 적용 범위 부족에서 [14]: 45 [15]무응답에 이르는 샘플링 문제를 완화하기 위해 사용됩니다.예를 들어, 단순 랜덤 표본을 사용하는 경우 (일부 보조 정보를 사용하여) 사후 계층화는 가중되지 않은 추정치보다 균일하게 더 나은 추정치를 제공하지 않습니다.그러나 이는 보다 "강력한"[16] 추정치로 볼 수 있다.또는 이러한 방법을 사용하여 샘플이 "표준화"[8]: 187 라고도 알려진 프로세스인 일부 목표 "대조군"(즉, 관심 집단)과 더 유사하도록 만들 수 있습니다.이러한 경우, 이러한 조정은 편향되지 않은 추정치를 제공하는 데 도움이 된다(종종 다음 절에서 볼 수 있듯이 분산이 증가하는 비용과 함께).원래 샘플이 비확률 샘플링일 경우 계층화 후 조정은 임시 쿼터 [8]: 188, 189 샘플링과 유사합니다.

표본 설계가 완전히 알려진 경우(계층 h의 일부 에 대해 p