Tony's log


구글, 이미지 검색 색인 100억개 보유, 구글은 검색 대상 이미지가 100억개가 있다는 군요. 무지막지한 숫자입니다. ^^; 구글 웹 크롤러가 전세계 사이트에서 수집한 이미지 숫자겠지요. 본 포스팅의 제목이 이미지는 어디에 있는가? 입니다. 이미지 검색에서는 이미지의 수량과 소스가 상당히 중요한 역할을 합니다. 

우선 간단히 네이버, 다음, 네이트, 구글, Bing에서 "원빈", "남대문" (이 앞글에서 남대문을 설명을 위한 키워드로 사용했더니 저희 직원 중 하나가 그건 부적합한거 아니냐? 하는 항의가 있었습니다. ㅋㅋ 혹 제 글을 보다가 더 적합한 사례가 있으면 댓글로 추천 바랍니다.)이라는 키워드로 이미지 검색을 해보겠습니다. 

원빈
네이버(31,965건), 다음(26,016건), 네이트(54,747건), 구글(240,000건), Bing(24,900건)

남대문
네이버(41,890건), 다음(35,288건), 네이트(43,803건), 구글(125,000건), Bing(29,000건)

다들 고만 고만하고 구글이 수량이 제일 많습니다. 실제 검색을 해보시면 그래 수량과 이미지 검색 결과랑 무슨 관련이냐? 하고 고개를 갸우뚱 거릴 수 있지만 이미지 검색에서는 검색 대상 이미지의 수량이 많을 수록 좋습니다. 이미지 검색은 똑같은 이미지를 찾기 보다는 비슷한 이미지를 찾는 것이 목적일 경우가 많으므로 수량이 많을 수록 비슷한 이미지를 찾을 수 있는 확률이 높기 때문입니다. 이는 결과적으로 웹 크롤러의 성능이나 범위와 연관이 되는 문제이며, 당연히 웹 크롤링 성능이 뛰어난 구글이 더 많은 이미지 결과를 보여주는 것은 당연합니다. 

그럼 이미지가 어디에 있던 이미지인가를 제가 왜 주제로 잡았을 까요? 아래 남대문에 대한 네이트 검색결과와 구글의 검색결과를 비교해 보시죠.  

남대문 구글 검색결과



남대문 네이트 검색결과



검색결과에서 어떤 차이가 보이시나요? 구글의 경우 남대문의 다양한 이미지 위주로 결과가 보이고 네이트는 남대문 모습보다는 인물 그리고 주위의 풍경들 위주로 보입니다. 왜 이런 차이가 나타나는지는 이미지 아래에 보이는 소스를 보시면 이해가 빠릅니다. 즉 구글의 경우 다양한 블로그, 신문 등의 소스를 가지고 있는 반면, 네이트의 경우 상당수 이미지의 출처가 미니홈피입니다. 즉 사람들이 남대문 근처에 갔다가 사진을 찍고 제목에 "남대문"이라고 적은 다음 미니홈피에 올린 사진을 대상으로 한 결과가 대부분이란 거죠. 

두번째 주제로 이미지 소스를 잡은 이유가 네이트 이미지 검색 결과를 보고서입니다. 네이트의 경우 이미지가 가장 많은 곳이 미니홈피로 보이며 이러다 보니 특정 키워드에 대한 검색 결과가 상당히 왜곡되어 나오는 경우가 제일 빈번한 것으로 보입니다. 그리고 네이버와 다음의 경우에도 이미지 소스가 대부분 자사 서비스인 포토, 뉴스, 블로그, 카페인 경우가 많습니다. 사실 이 문제는 쉽게 해결될 수 있는 부분이 아니라서 좀 답답한 측면이 많습니다. 

이미지 소스에 대한 부분은 다음에 좀 더 추가하기로 하고 다음 글에서는 이미지 검색 인터페이스에 대한 얘기를 아는 범위내에서 해보도록 하겠습니다. 사실 이 부분은 텍스트 검색도 마찬가지이지만 어찌보면 이미지 검색 기술보다 더 중요한 부분일 수도 있습니다. Paris란 키워드를 입력한 사람이 찾고자 하는 이미지가 Paris Hilton이냐 프랑스의 Paris냐? 사실 애매하고 아직은 더 고민을 많이 해야할 부분이기 때문입니다. 

두번째 글은 쓰고보니 좀 허탈하게 끝났습니다만 세번째 주제에 대해서는 좀 더 연구해서 올려보도록 하겠습니다. 
신고
Posted by Tony.K Trackback 0 Comment 0


티스토리 툴바