article
[스크랩]
<외모지상주의>, <프리드로우>, <연애혁명> 댓글 분석으로 알아보는 요즘 독자들의 마음

여러 단어의 빈도를 세어보며, 인터넷에 자주 언급되는 일부 커뮤니티의

반응이 독자 대부분의 수용과 가끔 다르다는 사실을 새삼 느꼈다.

 


이 글은 웹툰에 대한 평론이 아니다. 독자들이 남긴 11,507건의 댓글을 텍스트마이닝(Text Mining)’으로 분석한,

평을 평한 평론이다. 어쩌다 나는 이 글을 썼나? <지금, 만화> 위근우 편집장의 제안을 받았다. “요즘 데이터

글쓰기를 시작하셨죠? 이번 호에서 학교를 배경으로 한 웹툰을 다루는데 한번 써보시죠” “나야 불감청 고소원이죠.

네이버웹툰 댓글을 모아 빅데이터 분석을 해 보면 어떨까요?” 요즘 가장 인기 있는 학원물 <외모지상주의>,

<연애혁명>, <프리드로우>를 골랐다. 만화가가 만화에 대해 데이터를 분석해 글을 쓰다니 재밌겠다고 생각했다.

그런데 시작하자마자 곤란을 겪을 줄이야.

 

사이트마다 로봇 배제 표준이라는 것이 있다. 웹 문서를 사람이 직접 한 줄 한 줄 복사해다 붙이는 것 말고,

맞춤형 로봇을 코딩해 자동으로 긁어오는 일을 크롤링 또는 스크레이핑이라고 한다. 사이트 운영자 쪽은

긁긴 긁되 규정을 따라 달라는 당부 말씀을 로봇 텍스트(robots.txt)’라는 파일에 밝히는 것이 보통. 강변의

수영 금지’, ‘취사 금지같은 푯말이랄까? 어차피 코딩하는 사람이 읽는 페이지이므로 종종 우리 회사에 이력서

내라는 장난스러운 글귀를 적어두기도 한다. 하지만 네이버웹툰의 로봇 텍스트에는 농담이 없다. ‘아무도

긁지 말라, 어느 무엇도 긁지 말라는 취지의 내용. 만화를 퍼가는 일은 불법 복제니까 막는 것이 당연하다.

그런데 댓글은 왜 가져가지 말라고 했을까? 요즘 추세랑 맞지 않는다. 아니 그보다, 댓글을 모아야

글을 쓸 텐데 나는 어쩌라고.

 

1. 1단계, 선행연구 검토와 자료 수집 삽질의 시작

큰일 났다. “네이버웹툰 댓글 말고 웹툰 리뷰가 실린 몇몇 커뮤니티를 분석하면 어떠냐?”는 조언을 들었다.

솔깃했다. 그러나 막상 해당 사이트를 읽으니, 편향된 느낌이었다. 자세한 사정은 뒤에 밝히겠다. 혹시 선행연구는

없을까? 웹툰 댓글을 분석한 위대한 선각자가 어딘가에는 있을 텐데.

 

있었다. <텍스트마이닝을 이용한 금연 홍보 웹툰의 반응분석 : ‘씌가렛뎐댓글을 중심으로>라는 글. 저자는 이동균,

이서준, 최인영. 2018년에 보건정보통계학회지에 실린 논문이다. 서론이 딱 내가 쓸 이야기다. “웹툰은 1990년대

후반부터 활성화되었으며, 웹툰이 새로운 홍보 수단으로 대두되었으나 그 효과의 분석을 다룬 연구는 부족하다.

이는 전통적인 설문 방식으로 웹툰의 효과를 검증하기 어렵기 때문이다. (중략) 웹툰의 댓글은 작가와 독자 간의

의사소통을 하는 일종의 매개체 역할을 하고 있다.”

 

자료 수집부분은 어떨지 볼까? ‘분석을 원하는 대상에 대해서 R 프로그램이나 크롤링을 이용한 자동 수집을

하지만 본 연구 대상인 네이버 웹툰은 검색 로봇에 의한 문서 수집이 불가능하여 전체 댓글을 수작업으로 수집하였다,

아뿔싸. ‘본 연구에서 최초 수집한 댓글 수는 20,650건이었고 데이터 전처리 작업을 통하여 18,117건의 댓글을

대상으로 조사하였다는 문장에 나는 눈앞이 컴컴해졌다.

 

어떻게 할까? 위근우 편집장에게 문자를 보내 댓글 정책 때문에 텍스트마이닝은 품이 많이 들 것 같네요라며

운을 떼었다. “기대하고 있습니다는 취지의 답신이 왔다. 차마 그만둔다는 말을 할 수 없었다.

 

결국 직접 세 만화의 베댓(베스트 댓글)’을 긁기로 했다. <외모지상주의>(1~220)의 베댓이 3,300,

<연애혁명>(1~248)3,720, <프리드로우>(1~270)의 베댓은 4,037. 세 만화 베댓 11,507건을 손으로

복붙했다. 마우스를 쥔 손에 쥐가 나는 줄 알았다. 11,507건이면 요즘 같은 빅데이터의 시대에 그다지 많은

양은 아니다. 하지만 이런저런 분석을 해볼 덩어리는 된다. 독자들의 클릭추천을 통해 한번 걸러졌으므로

편향도 심하지 않은 자료라고 할 것이다. 이렇게 하여 나는 분석의 첫 삽을 떴다.

 

2. 2단계, 빈도 분석과 그 응용

두 가지 궁금함에 대한 재미있는 답

텍스트마이닝의 시작은 글을 숫자로 바꾸는 것. 그런데 어떻게? 가장 많이 쓰는 방법은 이 단어가 몇 번

나오는지 그 빈도를 세는 것이다. 학생 때 장난삼아 선생님이 오늘은 몇 차례나 ~ 를 하셨나?’하며

바를 정()자로 집계하곤 했는데, 원리는 같다. , 막대그래프, 워드클라우드 등으로 결과를 확인한다. 단순해

보이지만 의외로 강력한 방법이다. 빈도 분석을 통해 나는 세 작품에 대한 여러 궁금증을 풀 수 있었다.

이 가운데 두 가지를 소개하겠다.

 

첫 번째로 독자들이 어떤 캐릭터에 관심이 많은가?’하는 문제다. 만화가라면 누구나 궁금할 주제. 그런데 기존에는

알아낼 적절한 방법이 없었다. 캐릭터 인기투표와 비슷하면서도 다르다. 인기투표는 독자들이 어떤 캐릭터를

좋아하는가?’에 대한 응답. ‘누구 때문에 독자가 이 만화를 보는가?’라는 질문에는 절반의 해답일 뿐이다.

독자는 잘난 인물도 좋아하지만, 얄미운 인물이 망하는 꼴을 보는 것도 좋아하니까.


7f031c1c77349a963c21d58ae2c71e82.png

<외모지상주의> 베스트 댓글에 대한 텍스트마이닝 분석 결과

 

웹툰 <외모지상주의>를 보자. 연재 200회 기념 캐릭터 인기투표의 결과는 이랬다. 1위는 비밀에 싸인 멋쟁이

홍재열, 2위는 의리남 바스코, 3위는 주인공 박형석. 그렇다면 빈도 분석 결과는 어떨까? 빈도표에서 등장인물만

추려보면 1위는 박형석(615), 2위는 바스코(309), 3위는 박지호(270), 4위 홍재열(264)이었다. 홍재열과

박형석의 차이는 인기투표와 빈도 분석의 차이 때문일 수도 있다. 인기투표는 최근 등장한 인물이 표를 많이

받지만, 빈도 분석은 누적이기 때문에 일찍부터 나온 인물이 유리한 법. 하지만 빈도 분석 3위의 박지호는

어떻게 설명할까? 인기투표에서는 20위로 밀려났던 캐릭터다. 독자들은 박지호를 욕하면서도 동시에

그가 무슨 일을 당할지 걱정하며(또는 기대하며) 만화를 읽는 것 아닐까?

  

3e1b08165e6478592fc82fcc5de351a1.png 

<연애혁명> 베스트 댓글에 대한 텍스트 마이닝 분석 결과

 

두 번째로 궁금한 문제는 일부 커뮤니티의 주장대로 이 작품에 일진 미화의 혐의가 있나?’ 하는 것.

몇몇 커뮤니티에는 ‘<외모지상주의><프리드로우>는 일진 미화 작품이라느니 ‘<연애혁명>이 아니라

일진 혁명이라느니 하는 리뷰가 가끔 실려 있다. 개인 의견이 아니라 다수의 여론인 것처럼 적어놓았다.

 

과연 그럴까? 빈도 분석으로 일진 미화라는 표현이 추천을 많이 받은 댓글에도 정말 많이 등장하는지

알아보았다. 결과는 엉뚱했다. 첫 분석에서 세 작품 모두 일진 미화라는 표현이 아예 잡히지 않았던 것.

잡히지 않았기 때문에 빈도 집계도 되지 않았다. 왜 이러지? 혹시 코드가 잘못됐나? 한 줄 한 줄 읽어보았다.

 

이유는 간단했다. 빈도 분석 과정에는 희소 단어 걸러내기라는 단계가 있다. 분석할 때 대체로 빈도가 높은

단어에 주목하기 때문에, 어쩌다 쓰이는 빈도 낮은 단어는 집계에서 빼는 것이다. 나는 처음에 그 값을 0.98

정했다. 그랬더니 일진 미화가 잡히지 않았다. ‘일진 미화라는 단어가 2% 미만의 댓글에만 쓰였기 때문에

배제되었다는 의미다. 값을 0.99로 바꾸면 어떨까? 1%만 넘게 쓰였더라도 잡아달라는 뜻이었으나, 역시 잡히지

않았다. 0.999로 값을 변경하고야 세 작품 모두에서 일진 미화라는 표현이 포착되기 시작했다. 0.1% 남짓한

베댓에만 이 표현이 등장한다는 의미다. 일부 커뮤니티의 날 선 비판은 찻잔 속의 태풍이었을까? 모르겠다.

아무튼 여론은 아닌 것 같다.


4cca4d00306e3f2f27947bff6827dd6b.png

<프리드로우> 베스트 댓글에 대한 텍스트 마이닝 분석 결과

  

 

<외모지상주의> 베댓에 일진54, ‘일진 미화17회 나온다 (형태소 분석 프로그램에 따라 다른 결과가

나올 수도 있다. 나는 R‘NLP4Kec’ 패키지를 사용했다). 같은 표현이 하나의 댓글 안에 중복되어 쓰이기도

하고 관련 댓글을 찾아 읽어보면 일진 미화 작품이 아니다라는 경우도 있으니 ‘17’이라는 숫자조차 에누리해서

봐야 할 터. <연애혁명>일진’ 25, ‘일진 미화’ 6. <프리드로우>일진 미화’ 9. ‘일진85회로

세 만화 가운데 가장 많이(?) 나온 셈인데 한때 일진 생활을 하던 주인공들이 나름의 개과천선(?)

하는 내용이다 보니 그럴 것이다.

 

일진뿐 아니라 여러 단어의 빈도를 세어보며, 인터넷에 자주 언급되는 일부 커뮤니티의 반응이 독자 대부분의

수용과 가끔 다르다는 사실을 새삼 느꼈다. ‘일부 커뮤니티가 전체 인터넷 여론으로 과잉 대표되기도 한다

지적은 웹툰의 경우에도 사실이었다. 커뮤니티 반응을 분석하지 않고 댓글을 수집하길 잘했다는 생각.

무리해서라도 말이다(그렇다, 나는 생색을 내고 있다).

 

다만 생각해볼 지적도 있었다. 하나는 ‘<외모지상주의>에서 좋은 캐릭터는 잘생겼고, 악역은 못생긴 경우가 많은데,

이 역시 외모지상주의아니냐?’는 것. 또 하나는 학교 폭력에 반대한다면서 싸움 이야기가 자주 나온다는 지적.

<외모지상주의> 베댓을 보면 외모’(91), ‘잘생기다’(80), ‘못생기다’(74), ‘얼굴’(61) 등의 단어들이 등장한다.

빈도를 다 합하면 주요 등장인물인 바스코’(309)와 비슷하게 언급된 셈이다. 한편 싸우다’(143), ‘폭력’(50),

강하다’(33), ‘vs’(19) 등으로 싸움에 관한 단어도 제법 등장한다. 앞서 두가지 지적에 독자들이 동의한다고

볼 근거는 없다. 그러나 찬성이건 반대건 이 두 가지 문제를 의식하고 있기는 하다(주제 자체가 대중의

관심 밖인 것처럼 보이는 일진 미화와는 다르다).

 

여기서부터는 데이터 분석의 영역이 아니지만, 내 생각을 조심스럽게 밝히련다. 첫째로 악한 인물을 잘생기게

좋은 인물을 못생기게 그려야 한다고 작가에게 강요할 수 없다는 생각. 외모지상주의에 반대하는 애니메이션

<슈렉>에도 못생긴 악역이 나온다. 둘째로 잘생긴 인물과 싸움 장면이 자주 나온다는 문제는 특정 작품만의

문제가 아니다. 만화니 드라마니 영화니 대중매체가 다 그렇다. 그래야 독자나 관객이 재미있어하기 때문. 머나먼

미래에는 상황이 달라질지도 모르지만, <외모지상주의><연애혁명><프리드로우>에 당장 이

문제를 해결하라 요구하는 것은 지나치다.

 

3. 3단계, 연관 분석. 그리고 다음

글을 숫자로 바꾸는 또 하나의 방법은 연관 분석이다. 단어들끼리 같은 문서에 얼마나 함께 등장하는지를

계산하는 것이다. 빈도 분석이 문서와 단어 사이의 관계를 보여준다면, 연관 분석은 단어와 단어 사이의

관계를 보여준다. ‘문서의 범위가 문제가 된다. 어디까지를 같은 문서로 볼 것인가? 하나의 댓글 안에 같이

등장하는 단어를 셀 때와 한 회 연재 분량의 댓글 안에 같이 등장하는 단어를 셀 때는 결과가 다르게 나온다.

복잡해 보이지만 어렵지 않다. 나는 연관 분석이 캐릭터를 연구할 때 적절한 방법이라고 생각한다. <외모지상주의>

문제적 인물 박지호를 보자. 댓글 각각을 문서 하나로 보았을 경우, ‘박지호와 붙어 다니는 단어들은 이렇다.

용서’(연관도 0.27), ‘독방’(0.21)감방’(0.19), ‘아버지’(0.23). 짧은 댓글 안에 박지호와 용서’, ‘박지호와 감방’,

박지호와 아버지등이 함께 쓰인다는 의미다. 인물 개인에 대한 독자들의 관심 포인트를 알 수 있다. 연재 분량

한 회를 문서 하나로 보면 결과가 새롭다. ‘만만하다’(0.45), ‘허세’(0.41), ‘허영심’(0.39), ‘용서’(0.37), ‘죄책감’(0.37),

찌질’(0.36) 등이 눈에 띈다. 무슨 뜻일까. 독자들이 허세허영’, ‘죄책감등의 단어를 써서 댓글로 반응하는

에피소드 절반 가까이에 박지호가 등장한다는 의미. 이야기와 인물을 연결해서 파악할 수 있다.

 

캐릭터 이외에도 궁금한 것을 알아볼 수 있다. <연애혁명>은 배경 음악을 아름답게 쓰기로 유명한 작품. ‘브금

또는 ‘BGM’은 베댓에 48회 등장. 독자들이 관심을 가진다는 사실은 확인했으니 더 구체적인 반응을 알아볼까?

댓글 각각을 문서 하나로 지정하여 연관 분석했더니 노래’(0.17), ‘쩐다’(0.12), ‘소름’(0.10) 등의 결과가

눈에 띈다. 긍정적인 반응이다.

 

긍정과 부정 반응을 알아보는 방법으로 요즘 뜨는 감성 분석이 있다. 나는 딥러닝도 이용해보고 싶었다.

문제는 댓글의 양이다. 최근 뉴스 댓글을 분석하며 경험한 바로는, 인공지능을 이용할 때는 수십만 건 이상이

모여야 좋은 연구 결과가 나온다. 네이버웹툰의 댓글 정책에 대해 한 번 더 투덜거리고 싶은데, 속이 좁은 사람으로

비칠까 두려우니 조용히 해야겠다. , 이미 늦었나?

 

김태권 | 만화가. <김태권의 십자군 이야기>, <히틀러의 성공시대> 등을 그렸다.

최근 아이를 보며 컴퓨터를 배워 데이터 글쓰기에 골몰하고 있다.



*<지금, 만화> 제1호~제5호는 한국콘텐츠진흥원에서 PDF파일을 다운받을 수 있습니다.