티스토리 툴바

사용자 삽입 이미지

검색엔진을 만들다 보면 참고할 책이 별로 없어 도제식으로 선배가 만든 엔진에 대해 배우거나 루씬 같은 오픈소스 검색엔진 코드를 보면서 배우게 된다. 핵심구조가 고정된 엔진만을 보고 배웠을 때 서비스 기획의도에 적합하도록 색인구조와 같은 핵심구조를 변경하기란 매우 어려워 질의를 처리할 때 기교를 부리는 편법을 쓰곤 한다. "루씬 인 액션(에이콘)"이나 대학 교재로 많이 사용되는 "최신정보검색론(홍릉과학출판사)" 같은 책들은 루씬 색인의 활용법 또는 이론적 배경 설명에 머물러 색인구조 설계와 같은 핵심구조 설계에는 큰 도움이 되지 못 한다. 검색엔진 핵심구조 설계에 필요한 요소들을 그나마 가장 잘 설명하고 있는 "Managing Gigabytes"가 있지만, 이 책은 1994년에 초판을 거쳐 1999년에 개정판이 출간되었기 때문에 최신 기술들에 대한 소개가 부족하고, 적용이 힘든 이미지 검색에 상당히 많은 장이 할애되어 있어 비록 바이블 격이지만 아쉬운 점이 많은 책이다.

원제가 "An Introduction to Information Retrieval"인 이 책은 3명의 저자가 2002년 가을학기와 2003년 겨울학기에 스탠포드에서 "정보검색과 정보추출" 강의를 하면서 정리한 내용을 캠브리지 대학 출판사와 출판한 것으로 PDF 버전으로 공개되어 무료로 다운받을 수 있다. 2008년에 책으로 출간될 예정이지만 다운로드 페이지에는 출간 후에도 이 PDF 파일들을 유지하겠다고 되어 있어 특히나 매력적이다. 검색엔진과 맞물려 많이 사용되는 분류기술들에 대한 소개와 웹 크롤링과 인덱싱에 대한 기술도 소개하고 있어 전체를 바라보는데는 큰 도움이 되는 책이다. 반면에 대학 교재라는 한계로 구현에 이르는 상세한 내용이 부족하고 확률모델과 같은 실용적이지 않은 기술들에 일부 장이 할애된 점에서는 아쉽다.

크리스토퍼와 하인리히는 NLP 교재로 많이 사용되는 "Foundations of Statistical Natural Language Processing" 을 쓴 NLP 배경을 가진 교수들이고, 프랍하카은 "Randomized Algorithm"이란 알고리즘 책을 쓴 야후 사람이다. 백그라운드로만 보면 "정보검색"에 분야와 거리있는 사람들이 모여 쓴 책이지만 1장 ~ 7장까지 정리된 정보검색 관련 알고리즘들은 오히려 MG 검색엔진을 만들며 쓴 "Managing Gigabytes"보다 더 깔끔히 정리되어 있다.

흔하지 않은 검색 관련된 신간이고 또 무료 버전이 있어 더욱 매력적인 책이다. 현재 검색엔진을 만들고 있거나 새로 입문하려는 분들에게는 옆에 놓고 틈틈히 공부하기에 좋은 책인 것 같다.

@webJOY
10BEA3HbFfX2jwrZKQhsNR2EOoJ