|
얼마전에 "영화 평론을 평론하는 기계 http://gerecter.egloos.com/3339625 "라는 글에서, 영화평에서 사용되는 단어들의 빈도를 헤아려서, 자신의 글이 얼마나 어떤 평론가의 글과 비슷한지를 계산하는 것에 대해 이야기 해 본 적이 있습니다.
그렇다면, 대통령 선거 후보와 나는 얼마나 비슷한가? 하는 것도 같은 방식으로 계산해 볼 수 있지 않겠습니까. 그리하여, 다음 페이지를 만들었습니다. 링크: http://gerecter.100webspace.net/candidate.htm ![]() 사용법은 다음과 같습니다. 이 페이지에, 여러분이 쓴 글, 혹은 여러분 블로그의 RSS 를 통째로 복사해서 붙여넣기 합니다. ![]() (제 블로그의 RSS를 붙인 모습) 그리고, 아래의 "작동개시" 버튼을 누르면... ![]() (별로 오래 안걸리니까 이딴게 나오면 과감하게 아니오를 눌러주시기 바랍니다.) ![]() 위와 같이 각 후보들과 자신이 비슷한 정도를 어절 사용 빈도를 헤아려서 보여줍니다. 그리고 그 다음에, 당신의 글에 나오는 어절들(전체 총 3001 어절을 헤아린 결과 입니다.): #1: 영화 (29번) #2: 같은 (23번) #3: 라는 (21번) #4: 있는 (21번) #5: 나오는 (18번) #6: 많이 (15번) #7: 것은 (15번) #8: 영화는 (15번) #9: 코메디 (13번) #10: 말이 (13번) 와 같이, 자신이 붙여넣은 글 혹은 RSS에 가장 빈번하게 사용된 어절들을 헤아린 결과도 같이 보여 줍니다. * 취급시 유의사항 * 당연히 최소한의 cross validation 도 제대로 수행하지 않은 매우 날림으로 만든 모형으로 제작되었습니다. 따라서, 단지 재미로 보셔야 합니다. 또한, 모든 자료는 페이지 내부에 들어가 있고, 계산이 Javascript 로 클라이언트 에서 이루어집니다. 그러므로, 웹브라우저의 부담을 줄이기 위해 헤아리는 어절의 한계값이 3000 어절까지로 정해져 있습니다. 어절 중에, - 영문으로 된 어절 - 2번째 글자 이후에 "당"이라는 말이 나오는 어절 (특정 당명의 언급은 계산에서 제외하기 위해) - 후보 이름이 직접 나오는 어절 (후보 이름 자체의 언급을 계산에서 제외하기 위해) - ~다 로 끝나는 어절/습니 가 들어가는 어절 (어미의 경어체/평어체 차이에 지나치게 의존하는 경우를 제외하기 위해) 등은 계산에서 제외하고 있습니다. 그렇다고는 해도 근본적인 문제는 있습니다. 단지 어절의 반복 언급만을 근거로 비슷한 정도를 헤아리기 때문에, 그 긍정/부정은 판별하지 않는다는 것입니다. 즉, 특정 후보가 "우리도 이제부터 변신합체 로봇을 실전배치해야 한다"라는 주장을 펼치는 이야기를 많이 하고, 자신은 그에 대한 반박글, 비난글을 많이 썼다면, 두 사람은 상극이 되어야 하지만, 둘 다 "변신합체" 라는 어절을 비정상적으로 많이 사용했기 때문에, 두 사람의 글은 비슷한 것으로 계산되어 버립니다. 또, 후보들의 어휘 자료간에 기본적인 직교성 문제도 있습니다. 예를 들면, 누구나 많이 쓰는 단어, 블로그에 자주 쓰일만한 단어를 주로 사용한 후보는 특별한 일치 없이도 대체로 비슷한 것으로 자주 평가되기 마련입니다. 그에 비해, 특정 논제에 집중한 후보의 경우 특정 단어를 부분적으로 많이 사용하기에 다른 단어에 비해 그 단어가 특징으로 지나치게 강조되는 문제가 있습니다. 예를 들면, 권영길 후보는 "노동자"라는 어절을 자신의 모든 말 중에서 8번째로 많이 활용하는데, 다른 후보는 사용하는 어절 100위권이내에 "노동자"라는 어절을 쓰는 사람이 아무도 없습니다. 이렇게 되면, 여러분이 "노동자"라는 말을 몇번 사용하면 권영길 후보와 매우 비슷하게 평가됩니다. 또 그 반대로 권영길 후보는 대부분의 글에 대해서는 통상적으로 매우 독특한 후보로 평가되어 왠만해서는 유사성이 낮은 점수로 나옵니다. 모든 후보들의 자료는 후보들 홈페이지의 소개글과 후보 블로그가 있는 경우 그 RSS에서 발췌하였습니다. 대부분의 후보들이 블로그를 그냥 보도자료/신문기사 쌓아두는 곳으로 활용하면서 대강 박아놓고 있을 뿐입니다. 때문에 블로그 운영 방식, 블로그에 쌓여 있는 신문기사의 어투 따위가, 실제 후보의 어투보다 더 많이 반영된다는 점도 참고하시기 바랍니다. 아마 정말로 후보들이 직접 자신의 이야기를 블로그에 정성스레 게제하고, 블로그를 제대로 운영해 나간다면, 이러한 어절 빈도 유사성 계산도 좀 더 의미를 가질 수 있게 되지 않겠나 생각해 봅니다. 모든 계산 방식과 관련 자료는 웹페이지 소스코드 내에 자바스크립트로 포함되어 있으며, 이것은 악의 없는 목적이라면, 누구나 마음대로, 수정, 개량, 재배포 하실 수 있습니다. 보다 자세한 기술적인 자료는 http://hehehe.co.kr 을 참조하시기 바랍니다.
|
이글루 파인더
게렉터블로그 목록
카테고리
최근 등록된 덧글
음 별로 공감은 가지 않지..
by 곰돌군 at 01:11 잘 읽었습니다~ by kisnelis at 01:08 새로워진 실시간 테크노.. by 행운 at 00:40 으아 제가 읽은 것중 가장.. by 살모넬라 at 00:34 다행히도(?) 스토리는.. by 잠본이 at 07/20 조무래기 처리하는 부분.. by 타누키 at 07/20 감상문 잘 읽었습니다. .. by 예영 at 07/20 창이: 정체를 드러내보.. by 동사서독 at 07/20 기대했던 리뷰 감사합니다. by 뚱띠이 at 07/20 이걸 보고 나니 [다찌마.. by marlowe at 07/20 멋진 리뷰 항상 감사드.. by 더카니지 at 07/20 학창시절에 가장 흥미롭.. by 냐옹쟁이 at 07/19 브이에 관한 글을 살펴.. by 짱깨 at 07/18 이거 낚시할때 팁 있습니.. by 요하니 at 07/18 아롱쿠스/ 정말 박동룡 .. by 게렉터 at 07/18 너무 소심하신 것 같습니.. by ydhoney at 07/17 31-2 애피소드는 환상여.. by 냐옹쟁이 at 07/15 이런 분 한번 뵈서 이야기.. by 미고자라드 at 07/15 2. 1979년의 "뒤돌아보지.. by 이준님 at 07/15 말나온김에 한번 인터뷰.. by 미친과학자 at 07/15 최근 등록된 트랙백
좋은놈 나쁜놈 이상한놈
by 잠보니스틱스 "놈놈놈 2"를 이런 내용으.. by 과학의 신 [맞나?;...] 틀리면 .. by 허무와 모에...그리고.. shinvee의 생각 by shinvee's me2DAY 은하탐사 2100년 보더 플래닛 by The 1D-th Stories |