|
얼마전에 "영화 평론을 평론하는 기계 http://gerecter.egloos.com/3339625 "라는 글에서, 영화평에서 사용되는 단어들의 빈도를 헤아려서, 자신의 글이 얼마나 어떤 평론가의 글과 비슷한지를 계산하는 것에 대해 이야기 해 본 적이 있습니다.
그렇다면, 대통령 선거 후보와 나는 얼마나 비슷한가? 하는 것도 같은 방식으로 계산해 볼 수 있지 않겠습니까. 그리하여, 다음 페이지를 만들었습니다. 링크: http://gerecter.100webspace.net/candidate.htm ![]() 사용법은 다음과 같습니다. 이 페이지에, 여러분이 쓴 글, 혹은 여러분 블로그의 RSS 를 통째로 복사해서 붙여넣기 합니다. ![]() (제 블로그의 RSS를 붙인 모습) 그리고, 아래의 "작동개시" 버튼을 누르면... ![]() (별로 오래 안걸리니까 이딴게 나오면 과감하게 아니오를 눌러주시기 바랍니다.) ![]() 위와 같이 각 후보들과 자신이 비슷한 정도를 어절 사용 빈도를 헤아려서 보여줍니다. 그리고 그 다음에, 당신의 글에 나오는 어절들(전체 총 3001 어절을 헤아린 결과 입니다.): #1: 영화 (29번) #2: 같은 (23번) #3: 라는 (21번) #4: 있는 (21번) #5: 나오는 (18번) #6: 많이 (15번) #7: 것은 (15번) #8: 영화는 (15번) #9: 코메디 (13번) #10: 말이 (13번) 와 같이, 자신이 붙여넣은 글 혹은 RSS에 가장 빈번하게 사용된 어절들을 헤아린 결과도 같이 보여 줍니다. * 취급시 유의사항 * 당연히 최소한의 cross validation 도 제대로 수행하지 않은 매우 날림으로 만든 모형으로 제작되었습니다. 따라서, 단지 재미로 보셔야 합니다. 또한, 모든 자료는 페이지 내부에 들어가 있고, 계산이 Javascript 로 클라이언트 에서 이루어집니다. 그러므로, 웹브라우저의 부담을 줄이기 위해 헤아리는 어절의 한계값이 3000 어절까지로 정해져 있습니다. 어절 중에, - 영문으로 된 어절 - 2번째 글자 이후에 "당"이라는 말이 나오는 어절 (특정 당명의 언급은 계산에서 제외하기 위해) - 후보 이름이 직접 나오는 어절 (후보 이름 자체의 언급을 계산에서 제외하기 위해) - ~다 로 끝나는 어절/습니 가 들어가는 어절 (어미의 경어체/평어체 차이에 지나치게 의존하는 경우를 제외하기 위해) 등은 계산에서 제외하고 있습니다. 그렇다고는 해도 근본적인 문제는 있습니다. 단지 어절의 반복 언급만을 근거로 비슷한 정도를 헤아리기 때문에, 그 긍정/부정은 판별하지 않는다는 것입니다. 즉, 특정 후보가 "우리도 이제부터 변신합체 로봇을 실전배치해야 한다"라는 주장을 펼치는 이야기를 많이 하고, 자신은 그에 대한 반박글, 비난글을 많이 썼다면, 두 사람은 상극이 되어야 하지만, 둘 다 "변신합체" 라는 어절을 비정상적으로 많이 사용했기 때문에, 두 사람의 글은 비슷한 것으로 계산되어 버립니다. 또, 후보들의 어휘 자료간에 기본적인 직교성 문제도 있습니다. 예를 들면, 누구나 많이 쓰는 단어, 블로그에 자주 쓰일만한 단어를 주로 사용한 후보는 특별한 일치 없이도 대체로 비슷한 것으로 자주 평가되기 마련입니다. 그에 비해, 특정 논제에 집중한 후보의 경우 특정 단어를 부분적으로 많이 사용하기에 다른 단어에 비해 그 단어가 특징으로 지나치게 강조되는 문제가 있습니다. 예를 들면, 권영길 후보는 "노동자"라는 어절을 자신의 모든 말 중에서 8번째로 많이 활용하는데, 다른 후보는 사용하는 어절 100위권이내에 "노동자"라는 어절을 쓰는 사람이 아무도 없습니다. 이렇게 되면, 여러분이 "노동자"라는 말을 몇번 사용하면 권영길 후보와 매우 비슷하게 평가됩니다. 또 그 반대로 권영길 후보는 대부분의 글에 대해서는 통상적으로 매우 독특한 후보로 평가되어 왠만해서는 유사성이 낮은 점수로 나옵니다. 모든 후보들의 자료는 후보들 홈페이지의 소개글과 후보 블로그가 있는 경우 그 RSS에서 발췌하였습니다. 대부분의 후보들이 블로그를 그냥 보도자료/신문기사 쌓아두는 곳으로 활용하면서 대강 박아놓고 있을 뿐입니다. 때문에 블로그 운영 방식, 블로그에 쌓여 있는 신문기사의 어투 따위가, 실제 후보의 어투보다 더 많이 반영된다는 점도 참고하시기 바랍니다. 아마 정말로 후보들이 직접 자신의 이야기를 블로그에 정성스레 게제하고, 블로그를 제대로 운영해 나간다면, 이러한 어절 빈도 유사성 계산도 좀 더 의미를 가질 수 있게 되지 않겠나 생각해 봅니다. 모든 계산 방식과 관련 자료는 웹페이지 소스코드 내에 자바스크립트로 포함되어 있으며, 이것은 악의 없는 목적이라면, 누구나 마음대로, 수정, 개량, 재배포 하실 수 있습니다. 보다 자세한 기술적인 자료는 http://hehehe.co.kr 을 참조하시기 바랍니다.
|
이글루 파인더
게렉터블로그 목록
카테고리
최근 등록된 덧글
관광하다의 경우는 원래..
by asdf at 11/25 아 또 기억나는 에피소드.. by S at 11/23 계속 이런 우리나라 고.. by 크로우 at 11/21 너무 멋집니다...출처.. by 크로우 at 11/21 저도 쓸데없는 잔기억력.. by S at 11/21 마지막 이야기나 중간의.. by 카이두 at 11/20 기억력이 매우 민감해서.. by 마타도르 at 11/11 세번째 이야기는 다른 두.. by 게렉터 at 11/03 텔레비전 단막극으로 하.. by 게렉터 at 11/03 확실히 그런 면이 있습니.. by 게렉터 at 11/03 이 영화는 한국영상자료.. by 게렉터 at 11/03 일반 판매용 DVD는 없고.. by 게렉터 at 11/03 감사합니다. by 게렉터 at 11/03 그렇지는 않았다고 생각.. by 게렉터 at 11/03 감사합니다. 자주 들러.. by 게렉터 at 11/03 영화의 비용 대비 편익 .. by 게렉터 at 11/03 "외계인이 왜 왔는가?" ".. by 게렉터 at 11/03 감사합니다. 앞으로도 종.. by 게렉터 at 11/03 대단히 감사합니다. 곧 .. by 게렉터 at 11/03 배드 테이스트에 비하면.. by 게렉터 at 11/03 최근 등록된 트랙백
JIXmall :: 원더우먼
by JIXmall.com 디스트릭트9-키치화된 .. by 코지토의 세상분해하기 .. '디스트릭트 9' 독특하면.. by 영화리뷰전문 무비조이 세상 일은 다 그렇게 되는.. by 영상인문제작소 이닥 로맨틱스트리트의 생각 by street's me2DAY B급의 생각 by dkkang's me2DAY 이 동화에 대해 알고있는.. by MuZz eXpress Htriber .. kz의 생각 by keizie's me2DAY kz의 생각 by keizie's me2DAY 심야특선 - 기억에 남은.. by 리뷰 심야특선 - 기억에 남은.. by 리뷰 스타트렉(2009) by 잠보니스틱스 스타 트렉: 더 비기닝- 2009.. by EST's nEST 스타트렉: 더 비기닝 - .. by 페니웨이™의 In This Film ‘스타 트렉: 더 비기닝’.. by 영화리뷰전문 무비조이 kz의 생각 by keizie's me2DAY 박쥐 (Thirst, 2009) -.. by 진사야의 비주얼 다이어리 <박쥐> 속 상현의 시선 :.. by 진사야의 비주얼 다이어리 ‘박쥐’, 박찬욱 감독.. by 영화리뷰전문 무비조이 환상여행..! by 逍 遙 遊 |