투표할 후보를 정해주는 기계
얼마전에 "영화 평론을 평론하는 기계 http://gerecter.egloos.com/3339625 "라는 글에서, 영화평에서 사용되는 단어들의 빈도를 헤아려서, 자신의 글이 얼마나 어떤 평론가의 글과 비슷한지를 계산하는 것에 대해 이야기 해 본 적이 있습니다.

그렇다면, 대통령 선거 후보와 나는 얼마나 비슷한가? 하는 것도 같은 방식으로 계산해 볼 수 있지 않겠습니까. 그리하여, 다음 페이지를 만들었습니다.

링크: http://gerecter.100webspace.net/candidate.htm


사용법은 다음과 같습니다.

이 페이지에, 여러분이 쓴 글, 혹은 여러분 블로그의 RSS 를 통째로 복사해서 붙여넣기 합니다.


(제 블로그의 RSS를 붙인 모습)

그리고, 아래의 "작동개시" 버튼을 누르면...


(별로 오래 안걸리니까 이딴게 나오면 과감하게 아니오를 눌러주시기 바랍니다.)



위와 같이 각 후보들과 자신이 비슷한 정도를 어절 사용 빈도를 헤아려서 보여줍니다. 그리고 그 다음에,


당신의 글에 나오는 어절들(전체 총 3001 어절을 헤아린 결과 입니다.):
#1: 영화 (29번)
#2: 같은 (23번)
#3: 라는 (21번)
#4: 있는 (21번)
#5: 나오는 (18번)
#6: 많이 (15번)
#7: 것은 (15번)
#8: 영화는 (15번)
#9: 코메디 (13번)
#10: 말이 (13번)


와 같이, 자신이 붙여넣은 글 혹은 RSS에 가장 빈번하게 사용된 어절들을 헤아린 결과도 같이 보여 줍니다.

* 취급시 유의사항 *
당연히 최소한의 cross validation 도 제대로 수행하지 않은 매우 날림으로 만든 모형으로 제작되었습니다. 따라서, 단지 재미로 보셔야 합니다. 또한, 모든 자료는 페이지 내부에 들어가 있고, 계산이 Javascript 로 클라이언트 에서 이루어집니다. 그러므로, 웹브라우저의 부담을 줄이기 위해 헤아리는 어절의 한계값이 3000 어절까지로 정해져 있습니다.

어절 중에,

- 영문으로 된 어절
- 2번째 글자 이후에 "당"이라는 말이 나오는 어절 (특정 당명의 언급은 계산에서 제외하기 위해)
- 후보 이름이 직접 나오는 어절 (후보 이름 자체의 언급을 계산에서 제외하기 위해)
- ~다 로 끝나는 어절/습니 가 들어가는 어절 (어미의 경어체/평어체 차이에 지나치게 의존하는 경우를 제외하기 위해)

등은 계산에서 제외하고 있습니다.

그렇다고는 해도 근본적인 문제는 있습니다. 단지 어절의 반복 언급만을 근거로 비슷한 정도를 헤아리기 때문에, 그 긍정/부정은 판별하지 않는다는 것입니다. 즉, 특정 후보가 "우리도 이제부터 변신합체 로봇을 실전배치해야 한다"라는 주장을 펼치는 이야기를 많이 하고, 자신은 그에 대한 반박글, 비난글을 많이 썼다면, 두 사람은 상극이 되어야 하지만, 둘 다 "변신합체" 라는 어절을 비정상적으로 많이 사용했기 때문에, 두 사람의 글은 비슷한 것으로 계산되어 버립니다.

또, 후보들의 어휘 자료간에 기본적인 직교성 문제도 있습니다. 예를 들면, 누구나 많이 쓰는 단어, 블로그에 자주 쓰일만한 단어를 주로 사용한 후보는 특별한 일치 없이도 대체로 비슷한 것으로 자주 평가되기 마련입니다. 그에 비해, 특정 논제에 집중한 후보의 경우 특정 단어를 부분적으로 많이 사용하기에 다른 단어에 비해 그 단어가 특징으로 지나치게 강조되는 문제가 있습니다. 예를 들면, 권영길 후보는 "노동자"라는 어절을 자신의 모든 말 중에서 8번째로 많이 활용하는데, 다른 후보는 사용하는 어절 100위권이내에 "노동자"라는 어절을 쓰는 사람이 아무도 없습니다. 이렇게 되면, 여러분이 "노동자"라는 말을 몇번 사용하면 권영길 후보와 매우 비슷하게 평가됩니다. 또 그 반대로 권영길 후보는 대부분의 글에 대해서는 통상적으로 매우 독특한 후보로 평가되어 왠만해서는 유사성이 낮은 점수로 나옵니다.

모든 후보들의 자료는 후보들 홈페이지의 소개글과 후보 블로그가 있는 경우 그 RSS에서 발췌하였습니다. 대부분의 후보들이 블로그를 그냥 보도자료/신문기사 쌓아두는 곳으로 활용하면서 대강 박아놓고 있을 뿐입니다. 때문에 블로그 운영 방식, 블로그에 쌓여 있는 신문기사의 어투 따위가, 실제 후보의 어투보다 더 많이 반영된다는 점도 참고하시기 바랍니다. 아마 정말로 후보들이 직접 자신의 이야기를 블로그에 정성스레 게제하고, 블로그를 제대로 운영해 나간다면, 이러한 어절 빈도 유사성 계산도 좀 더 의미를 가질 수 있게 되지 않겠나 생각해 봅니다.

모든 계산 방식과 관련 자료는 웹페이지 소스코드 내에 자바스크립트로 포함되어 있으며, 이것은 악의 없는 목적이라면, 누구나 마음대로, 수정, 개량, 재배포 하실 수 있습니다.

보다 자세한 기술적인 자료는 http://hehehe.co.kr 을 참조하시기 바랍니다.
by 게렉터 | 2007/10/25 12:23 | 기타 | 트랙백(3) | 핑백(2) | 덧글(7)
트랙백 주소 : http://gerecter.egloos.com/tb/3453293
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from 영화 좋아하는, 전 노.. at 2007/10/25 14:44

제목 : 흠... 전 이글루의 상식적인 사람인 거군요...
투표할 후보를 정해주는 기계게렉터님 블로그에서 업어왔습니다....넣은 글은나름 정치적인 <나와 5.18>이라는 글입니다..나름 충실히 섰던것 같은데요..... 결과는당신은 문국현 후보 혹은 권영길 후보와 비슷하며, 반대로 정동영 후보와는 상극입니다.곽재식: 0 점 ( http://mirror.pe.kr/zboard/zboard.php?id=kwak ) 권영길: 28.76 점 ( http://www.ghil.net/ ) 문국현: 42......more

Tracked from 맞짱(mazzang) .. at 2007/10/30 15:50

제목 : 당신은 진보적입니까?
안녕하세요? 논쟁과 소통이 있는 메타블로그 맞짱입니다. 맞짱에 대해서 궁금하시죠? - 맞짱은 어떤 곳이죠? 맞짱은 진보적 논쟁, 토론을 지향하는 메타블로그 입니다. 갈 곳이 마땅치 않아 자기 블로그에서 멤돌고 있는 진보적 블로거들의 논쟁공간이자 안식처로 만들어 갈 예정입니다. - 맞짱에서는 뭘 하나요? 맞짱의 주된 컨텐츠는 말 그대로 '맞짱 논쟁'입니다. '블로그 vs 블로그' 라는 이름의 컨텐츠 이지요. 주제를 정해놓고 찬반 토론을 벌이는 것......more

Tracked from :: KGLC - 국산.. at 2007/12/19 11:02

제목 : 투표할 후보를 정해주는 기계
투표할 후보를 정해주는 기계 ver 1.0 에 도전했습니다.당신은 문국현 후보 혹은 정동영 후보와 비슷하며, 반대로 정희원 후보와는 상극입니다.곽재식: 66.9 점 ( http://mirror.pe.kr/zboard/zboard.php?id=kwak ) 권영길: 23.78 점 ( http://www.ghil.net/ ) 문국현: 72.75 점 (......more

Linked at 게렉터블로그 : 대선후보가 자.. at 2007/10/25 18:01

... 아래 글인 " 투표할 후보를 정해주는 기계 http://gerecter.egloos.com/3453293 "글에 언급된 기준으로 볼 때, 각 대선 후보들이 자주쓰는 어구들은 다음과 같습니다. 단, 고유명사, 의존명사가 포함된 어절은 순 ... more

Linked at 게렉터블로그 : 업그레이드! .. at 2007/12/18 16:30

... 하는 표가 될 것이라고 생각합니다. 그리하여, 드디어 공개하는 투표할 후보를 정해주는 기계! 지난번 개발한 기계인 "투표할 후보를 정해주는 기계 1.0" http://gerecter.egloos.com/3453293 은 후보들이 사용하는 어휘 빈도를 분석해서 투표할 후보를 정해주도록 되어 있었습니다. 하지만, 이러한 방식은 후보들의 진심을 ... more

Commented by daewonyoon at 2007/10/25 12:46
대략 1등인가요? 무려 허경영 총재님
====

당신은 허경영 후보 혹은 이인제 후보와 비슷하며,
반대로 권영길 후보와는 상극입니다.

곽재식: 29.85 점 ( http://mirror.pe.kr/zboard/zboard.php?id=kwak )
권영길: 0 점 ( http://www.ghil.net/ )
문국현: 33.95 점 ( http://www.m2007.org/ )
이명박: 31.72 점 ( http://www.mbplaza.net/default/main/intro.html )
이인제: 43.9 점 ( http://www.ijworld.or.kr/ )
정동영: 12.88 점 ( http://www.cdy21.net/main.asp )
정희원: 29.24 점 ( http://www.hacknara.or.kr/ )
허경영: 64.23 점 ( http://www.gongwhadang.or.kr/kyung_he/kyung_he.asp )
Commented by Asheera at 2007/10/25 14:31
저도 권영길후보는 0점인데 뭔가 이상한거 아닌가요? 어떻게 세명이 1점도 안나올수가...
Commented by 老姜君 at 2007/10/25 15:48
저는 이명박 후보 비판글을 제일 많이 썼기 때문에(...) 이명박 후보를 투표하라는 결과가 나오겠군요 =_=a
Commented by 박민성 at 2007/10/25 23:15
우와 이런걸 만드시다니 정말 대단하시네요
저는 정동영후보에 90점이 넘게 나오네요
Commented by 게렉터 at 2007/10/28 21:19
글이 짧을 때는 사용하기에 별로 안좋습니다. 반복 "어절"을 찾기 때문에, 꽤 많은 글을 입력해야 그럴듯한 분석이 나오고, 특히 권영길 후보는 반복 어절이 상당히 독특하기 때문에 왠만해서는 안걸립니다. 어지간한 글 하나둘에서는 반복어절은 많지 않으니 말입니다. RSS를 통째로 긁어 넣는 것을 권해드립니다. 하지만, 반면에 "노동자"에 대해서 뭔가 주장하는 글을 쓰신다면 무더기로 중첩이 효과를 발휘할 것입니다.
Commented by jinpress at 2007/10/30 15:50
http://www.vop.co.kr/new/news_view.html?serial=89958
이명박 후보는 국민성공시대, 정동영 후보는 가족행복시대를 말합니다. 권영길 후보는 세상을 바꾸는 대통령이라면서 코리아연방공화국을 내세웠군요.
권영길 민주노동당이 제시한 '코리아연방공화국'은 어떤 나라일까요? 모든 내용이 담겨있습니다. 꾸욱~
Commented by 게렉터 at 2007/11/01 12:42
무조건 복사해서 광고하듯 덧글에 붙이는 것을 조금 자제해 주신다면 더욱 세상이 좋아지리라 생각합니다.

:         :

:

비공개 덧글



< 이전페이지 다음페이지 >