Tony's log




신고
Posted by Tony.K Trackback 0 Comment 0

테스트

2011.01.07 10:08 : 분류없음

신고
Posted by Tony.K Trackback 0 Comment 0

황태희 패딩

2010.12.22 17:53 : 분류없음



신고
Posted by Tony.K Trackback 0 Comment 0





신고
Posted by Tony.K Trackback 0 Comment 0

역전의 여왕

2010.12.08 09:32 : 분류없음


신고
Posted by Tony.K Trackback 0 Comment 0

테스트

2010.11.26 14:33 : 분류없음


신고
Posted by Tony.K Trackback 0 Comment 0

구글, 이미지 검색 색인 100억개 보유, 구글은 검색 대상 이미지가 100억개가 있다는 군요. 무지막지한 숫자입니다. ^^; 구글 웹 크롤러가 전세계 사이트에서 수집한 이미지 숫자겠지요. 본 포스팅의 제목이 이미지는 어디에 있는가? 입니다. 이미지 검색에서는 이미지의 수량과 소스가 상당히 중요한 역할을 합니다. 

우선 간단히 네이버, 다음, 네이트, 구글, Bing에서 "원빈", "남대문" (이 앞글에서 남대문을 설명을 위한 키워드로 사용했더니 저희 직원 중 하나가 그건 부적합한거 아니냐? 하는 항의가 있었습니다. ㅋㅋ 혹 제 글을 보다가 더 적합한 사례가 있으면 댓글로 추천 바랍니다.)이라는 키워드로 이미지 검색을 해보겠습니다. 

원빈
네이버(31,965건), 다음(26,016건), 네이트(54,747건), 구글(240,000건), Bing(24,900건)

남대문
네이버(41,890건), 다음(35,288건), 네이트(43,803건), 구글(125,000건), Bing(29,000건)

다들 고만 고만하고 구글이 수량이 제일 많습니다. 실제 검색을 해보시면 그래 수량과 이미지 검색 결과랑 무슨 관련이냐? 하고 고개를 갸우뚱 거릴 수 있지만 이미지 검색에서는 검색 대상 이미지의 수량이 많을 수록 좋습니다. 이미지 검색은 똑같은 이미지를 찾기 보다는 비슷한 이미지를 찾는 것이 목적일 경우가 많으므로 수량이 많을 수록 비슷한 이미지를 찾을 수 있는 확률이 높기 때문입니다. 이는 결과적으로 웹 크롤러의 성능이나 범위와 연관이 되는 문제이며, 당연히 웹 크롤링 성능이 뛰어난 구글이 더 많은 이미지 결과를 보여주는 것은 당연합니다. 

그럼 이미지가 어디에 있던 이미지인가를 제가 왜 주제로 잡았을 까요? 아래 남대문에 대한 네이트 검색결과와 구글의 검색결과를 비교해 보시죠.  

남대문 구글 검색결과



남대문 네이트 검색결과



검색결과에서 어떤 차이가 보이시나요? 구글의 경우 남대문의 다양한 이미지 위주로 결과가 보이고 네이트는 남대문 모습보다는 인물 그리고 주위의 풍경들 위주로 보입니다. 왜 이런 차이가 나타나는지는 이미지 아래에 보이는 소스를 보시면 이해가 빠릅니다. 즉 구글의 경우 다양한 블로그, 신문 등의 소스를 가지고 있는 반면, 네이트의 경우 상당수 이미지의 출처가 미니홈피입니다. 즉 사람들이 남대문 근처에 갔다가 사진을 찍고 제목에 "남대문"이라고 적은 다음 미니홈피에 올린 사진을 대상으로 한 결과가 대부분이란 거죠. 

두번째 주제로 이미지 소스를 잡은 이유가 네이트 이미지 검색 결과를 보고서입니다. 네이트의 경우 이미지가 가장 많은 곳이 미니홈피로 보이며 이러다 보니 특정 키워드에 대한 검색 결과가 상당히 왜곡되어 나오는 경우가 제일 빈번한 것으로 보입니다. 그리고 네이버와 다음의 경우에도 이미지 소스가 대부분 자사 서비스인 포토, 뉴스, 블로그, 카페인 경우가 많습니다. 사실 이 문제는 쉽게 해결될 수 있는 부분이 아니라서 좀 답답한 측면이 많습니다. 

이미지 소스에 대한 부분은 다음에 좀 더 추가하기로 하고 다음 글에서는 이미지 검색 인터페이스에 대한 얘기를 아는 범위내에서 해보도록 하겠습니다. 사실 이 부분은 텍스트 검색도 마찬가지이지만 어찌보면 이미지 검색 기술보다 더 중요한 부분일 수도 있습니다. Paris란 키워드를 입력한 사람이 찾고자 하는 이미지가 Paris Hilton이냐 프랑스의 Paris냐? 사실 애매하고 아직은 더 고민을 많이 해야할 부분이기 때문입니다. 

두번째 글은 쓰고보니 좀 허탈하게 끝났습니다만 세번째 주제에 대해서는 좀 더 연구해서 올려보도록 하겠습니다. 
신고
Posted by Tony.K Trackback 0 Comment 0


오늘 우연히
NHN "日네이버 이미지검색 도입..서비스 강화"-컨콜 이라는 짧은 기사를 보다가 네이버 이미지 검색이 바뀌었나? 하는 생각에 냉큼 네이버 재팬을 가보았다. 내심 내용기반 이미지 검색기술(CBIR, Contents-based image retrieval) 적용을 기대했으나 결론부터 말하자면 아니었다.

이미지 검색 관련내용을 포스트 하나로 다 정리하긴 어려우니 우선 다음과 같은 세가지 측면에서 검토를 해보고자 한다.

1. CBIR 이냐 TBIR 이냐? (현재글)
2. 이미지는 어디에 있는가?
3. 이미지 검색 인터페이스는 어떤가?



1. CBIR 이냐 TBIR 이냐?

네이버, 다음, 네이트, 빙, 구글 에서 각기 이미지 검색을 선택하고 "남대문" 이란 키워드를 입력해서 원하는 이미지를 찾아보자.

네이버의 "남대문" 이미지 검색 결과

구글의 "남대문" 이미지 검색 결과

Bing의 "남대문" 이미지 검색 결과


 
검색 결과가 어떤지 논하기 전에 "남대문"이란 단어를 통해서 여러분이 찾고자 하는 이미지는 어떤것인가? 남대문의 정면 사진? 남대문의 불탄 모습? 최근 공사하고 있는 남대문의 모습? 남대문의 야경? 어떤이는 남대문 시장을 떠올릴 수도 있다. 사실 남대문이란 짧은 단어 하나로는 사람들이 의도하는 바가 제각기 다를 수 있다. 위의 검색 이미지만 보아도 남대문의 불타기 전 모습, 야경 그리고 옛날 사진들을 볼 수 있다.

그럼 저 검색 결과는 어떻게 보여주는 것인가? 저 검색결과는 내가 입력한 "남대문"이란 키워드가 저 사진을 포함한 글 어딘가에 있는 것이다. 제목에 있건 본문에 있건 어딘가 "남대문"이란 단어가 있어서 그 단어를 검색해서 보여주는 것이다. 이것을 우리는 TBIR(Text-based image retrieval, 텍스트 기반 이미지 검색) 이라고 한다.

자 그럼 다음엔 어쩔 것인가? 나는 "남대문"이란 단어를 치면서 "남대문의 야경" 사진을 찾고자 했다면 어쩔것인가? 페이지를 하나씩 넘기면서 야경 사진들을 하나씩 찾아볼 것인가? 여지껏은 그래왔다. 네이버는 49,082건, 구글은 124,000건, Bing은 29,700건의 이미지를 찾아줬다. 어떤 사람은 남대문의 옛날 사진, 어떤 사람은 남대문의 야경 사진을 찾고자 할 수 있다.

여기서 CBIR이란 기술이 나온다. CBIR의 C(Content)를 우리말로 의역하자면 "내용"이 된다. 여기서 내용은 이미지가 갖는 모양, 색상, 패턴 등을 의미한다. 네이버와 구글/Bing의 차이는 CBIR 기술의 적용 여부에서 차이가 난다.
구글의 "유사한 이미지 찾기"

구글 검색 결과에서 이미지 아래를 보면 네이버에는 없는 "유사한 이미지 찾기" 가 보인다.(Bing에서는 이미지 위에 마우스를 올리면 Similar Images라는 것이 보인다.) 원하는 이미지 아래에 있는 이 링크를 클릭하면 다음과 같은 결과를 볼 수 있다.


불타기 전 남대문의 모습

남대문의 야경

불타버린 남대문 모습


이미지 아래에 있는 "유사한 이미지 찾기"를 클릭하면 여러분은 비슷한 이미지들을 한번에 찾아볼 수 있다. 이때는 이미지를 모양, 색상, 패턴과 같은 사진이 갖는 고유한 속성을 이용하여 찾아준다.

CBIR 기술은 아직 많은 한계를 갖고 있다. 우선 텍스트 검색보다 훨씬 더 많은 시스템을 필요로 하며, CBIR 검색을 하기 위해서는 텍스트 검색을 먼저 수행하여야 한다. 그리고 구글이 현재로선 가장 앞선 모습을 보여주지만 중복 이미지 처리와 같은 기술은 보여주지 않고 있다. 그렇지만 한가지 분명한 것은 원하는 이미지를 찾기 어려울 때 새롭게 시도해 볼 만한 방법임에는 틀림없다. 네이버에서 다음에서 혹은 네이트에서 원하는 이미지를 찾기 어려우면 구글이나 Bing에서 "유사한 이미지 찾기"를 해보시기 바란다.

다음 글에서는 검색 대상이 되는 이미지가 어디서 오는지? 그리고 그 다음에는 이미지 검색의 UI에 대해서 짧게나마 정리해 볼까 한다.


신고
Posted by Tony.K Trackback 0 Comment 1
S.Finder 테스트


신고
Posted by Tony.K Trackback 0 Comment 0

S.Finder 테스트

2010.06.27 23:27 : 분류없음
S.Finder 테스트

신고
Posted by Tony.K Trackback 0 Comment 0


티스토리 툴바