목록재밌는 한국 탐구 (32)
Archive.

한국갤럽 尹 李 安 沈 95% 상한 35% 35% 10% 3% 95% 하한 40% 41% 14% 5% 조사 표준오차 1.40% 1.50% 1.10% 0.70% 시뮬레이션 평균 37.50% 38.00% 12.00% 4.00% 시뮬레이션 표준오차 1.44% 1.73% 1.16% 0.58% 오차 범위 내이기 때문에 여론조사가 받아들일 가치가 없는 것은 아니다. 오차 범위내에서도 우열을 가릴 수 있는 마코프체인 몬테카를로(MCMC) 시뮬레이션으로 그 승률을 파악할 수 있다. 2022년 2월 22일 ~ 24일, 3일 간 진행된 갤럽 조사. 오차범위내 접전인 상황에서 상한-하한 구간 안에서 랜덤워크 샘플링으로 50만회 시뮬레이션 결과. 李 58.4%, 尹 41.6%로 李 후보가 승리할 가능성이 높았다. 현 시점(2..

즐겁게 감탄하면서 한편으로는 감동하고 응원하면서 보던 프로그램인데 벌써 파이널을 앞두고 있다. 참가자들의 실력면에서나 심사자의 성숙도면에서나 시즌 1만큼 어쩌면 그 이상 퀄리티가 좋은 것같다. 응원하던 가수에게 투표하고 난 뒤, 막상 투표 페이지가 아닌 곳(네이버 Now)에서 '댓글 투표' 현장을 발견. 표본도 1000명이 넘겠다, 문득 결과를 예측하고 싶어졌다. 예측의 전제 1. 온라인 사전투표율은 실시간 투표를 따른다. 시즌 1의 경우 온라인 사전투표율 순위는 거의 실시간 문자투표 순위를 따랐다. 이번 시즌2에서도 마찬가지일 것으로 예측된다. 두 비율 표준편차가 2.7%밖에 되지 않음에도 사전투표와 실시간투표에서 2, 3위가 뒤바뀌는 현상이 있었는데 두 가수의 득표 격차가 1.7%p밖에 되지 않았기 ..

블로그 포스트 표본을 대상으로 했고, '대통령' 연관어의 경우 지난 한달 58,531건, 일주일 14,991건, 3일 1,874건. '여론' 연관어의 경우 지난 한달 25,958건, 일주일 7,165건, 3일 691건이 표본이다. 블로그 이용자 표본 특성상 60대 이하의 이용자를 대표하지만, 70대 이상의 이용자를 대표하지 못한다. 왼쪽은 지난 1개월, 일주일, 사흘 간 '대통령' 키워드의 연관어 중 상위 30개 이내 인물 키워드별 점유율 변화추이 오른쪽은 지난 1개월, 일주일, 사흘 간 '여론' 키워드의 연관어 중 상위 30개 이내 인물 키워드별 점유율 변화추이를 의미한다. 대통령이란 단어를 떠올렸을 때 그 다음 연상되는 단어가 이재명 > 윤석열 > 문재인 순이고, 여론이란 단어를 떠올렸을 때 그 다음..

2월 12일~13일, 14일 오후 7:30까지의 데이터 블로그 포스팅 표본 6,369 건을 대상으로 분석. *네이버, 다음 등 뉴스댓글은 18대 대선과 19대 대선 때 조직적으로 조작됐던 전력과 의혹이 있기 때문에 표본으로 삼지 않음. 관심도* : 윤석열(36.7%) 이재명(35.1%) 안철수(19.0%) 심상정(9.2%) 순. 호감도** : 이재명(37.5%) 윤석열(34.6%) 안철수(21.7%) 심상정(6.2%) 순. 관심도와 호감도 폭으로 추정한 네이버 블로그 이용자 투표의도(참여도)는 아래와 같다. 이재명 37.5%~35.1% 윤석열 36.7%~34.6% 안철수 19.0%~21.7% 심상정 9.2%~6.2% 3일 전과 비교해서 관심도-호감도 밴드에서 오차범위 내 李 후보가 尹 후보를 역전한 모습..

한국갤럽 尹 李 安 沈 95% 상한 34% 33% 11% 2% 95% 하한 40% 39% 15% 5% 조사 표준오차 1.5% 1.5% 1.1% 0.7% 시뮬레이션 평균 (조사결과와 일치) 37.00% 36.00% 13.00% 3.50% 시뮬레이션 표준오차 1.73% 1.73% 1.15% 0.87% 오차 범위 내이기 때문에 여론조사가 받아들일 가치가 없는 것은 아니다. 오차 범위내에서도 우열을 가릴 수 있는 마코프체인 몬테카를로(MCMC) 시뮬레이션으로 그 승률을 파악할 수 있다. 2022년 2월 8일 ~ 11일, 3일 간 진행된 갤럽 조사. 오차범위내 접전인 상황에서 상한-하한 구간 안에서 랜덤워크 샘플링으로 10만회 시뮬레이션 결과. 尹 65.2%, 李 34.8%로 尹 후보가 승리할 가능성이 높았다. ..

승자가 누구냐? 전문가들의 뇌피셜이 넘쳐난다. 정치인들의 진영에의 아전인수격 레토릭과 선동이 넘친다. 받아쓰기식 기사가 재생산되고 유권자 전체 인식의 지형을 왜곡하려는 시도가 계속된다. 이런 인포데믹이 퍼지기 이전에 그 날의 '유권자의 목소리'를 담은 데이터를 분석할 필요가 있는 이유다. 관심도가 호감도에 보통 비례하지만, 꼭 그렇지는 않다. 토론 시간대와 그 이후로 관심도를 분석한 한 후보군에 대해서 긍정적인 관심도, 부정적인 관심도의 비중도 따질 필요가 있는데, 소셜미디어에 발행된 글들의 언어를 분석해보면 그 관심도가 얼마나 호감도를 동반하는지 알 수 있다. 대선 2차토론 시간대를 포함해 발행된 2,600여 개의 2022년 2월 11일 네이버 블로그 포스트를 표본으로 함. 관심도* : 윤석열(43%)..

승자가 누구냐? 전문가들의 뇌피셜이 넘쳐난다. 정치인들의 아전인수격 레토릭과 선동이 넘친다. 받아쓰기식 기사가 재생산되고 유권자 전체 인식의 지형을 왜곡하려는 시도가 계속된다. 이런 인포데믹이 퍼지기 이전에 그 날의 그 시간대의 '유권자의 목소리'를 담은 데이터를 분석할 필요가 있는 이유다. 기존 연구에 따르면 관심도는 투표(행동의도)와 정비례하는 경향이 있고, 호감도가 그 조절변수가 된다. 관심도와 함께 호감도(소셜 센티먼트)를 분석한 포지셔닝 맵은 다음 글에서 바로 다루기로. 실제 투표 행동으로까지 이어지기에 여론조사 공표로 인한 양자구도 밴드왜건 효과, 사표방지심리, 제3자 효과가 작용하면서 실제로는 상위 후보로 투표량이 쏠리는 경향이 있고, 하위 후보는 위축되는 경향이 그동안 관찰되어왔다. 네이버..

한국 입법권력 독과점은 얼마나 심각할까? 선출직으로서 입법권력의 집중도를 측정하는 데에, HHI로 정당 독과점 상태의 정도를 파악할 수 있다. 국가간 비교를 위해서는 '상위 N개 집중지수'(CRn) N개가 다 다르기 때문에 부적절. 로젠블루 지수나 지니 계수나 엔트로피로도 흡사한 결론이지만, HHI가 산식이 직관적이기에 적용. 정당 M&A 전후 권력집중도 분석(HHI) HHI 100이하의 상승(Delta) 시장집중도에 거의 영향을 미치지 못하며, 추가적인 분석이 불필요. 100~200의 상승(Delta) 기존의 시장집중도가 높지 않은 경우에는 추가적인 분석이 불필요. 그러나 기존의 시장집중도가 높은 경우에는 잠재적인 위험요소가 있을 수 있으므로 정밀한 조사가 필요. 200이상의 상승(Delta) 특정 기..

2022년 2월 3일 네이버 데이터랩 검색량을 대상으로 했다. 구글 데이터의 경우 지역별 관심도를 들여다 볼 수 있는 반면, 네이버 데이터의 경우 성별, 연령별 관심도를 들여다 볼 수 있다. 구글 검색 데이터와 소셜 데이터를 대상으로 했던 이전 글과 같은 흐름으로 분석한 결과. 관심도* (참여도**) 1위 윤석열 30% (39%~21%) 2위 이재명 29% (37.7%~20.3%) 3위 안철수 23% (29.9%~16.1%) 4위 심상정 18% (23.4%~12.6%) *총 키워드 검색량의 백분율을 의미 **참여도는 직접적인 투표율(행동)의 예상치가 아니라, 그 과정에서의 투표행동의도(태도)로 이어질 수 있는 비율을 의미. 신뢰구간 ±.3로 계산 전체적인 관심도를 성별을 단일한 기준으로 나눠보았을 때 통..

승자가 누구냐? 전문가들의 뇌피셜이 넘쳐난다. 정치인들의 진영에의 아전인수격 레토릭과 선동이 넘친다. 받아쓰기식 기사가 재생산되고 유권자 전체 인식의 지형을 왜곡하려는 시도가 계속된다. 이런 인포데믹이 퍼지기 이전에 그 날의 '유권자의 목소리'를 담은 데이터를 분석할 필요가 있는 이유다. 관심도가 호감도에 보통 비례하지만, 꼭 그렇지는 않다. 토론 시간대와 그 이후로 관심도를 분석한 한 후보군에 대해서 긍정적인 관심도, 부정적인 관심도의 비중도 따질 필요가 있는데, 소셜미디어에 발행된 글들의 언어를 분석해보면 그 관심도가 얼마나 호감도를 동반하는지 알 수 있다. 1차 다자토론 시간이 포함된 2월 3일 발행된 데이터만을 대상으로 했다. 이재명, 윤석열, 안철수, 심상정이 언급된 네이버 블로그 문서 1,95..