jetalog.net



게시 도구


Solr는 Solr 서버로 여러 형태의 컨텐츠를 게시하기 위한 간단한 명령줄 도구를 가지고 있습니다. 바로 bin/post죠. bin/post 도구는 Unix 쉘 스크립트입니다. Cygwin을 쓰지 않고 Windows에서 사용하는 방법은 아래 Windows 지원 섹션을 참고하세요.


실행하려면, 터미널 창을 열고 다음을 입력하세요:

bin/post -c gettingstarted example/films/films.json
위와 같이 실행하면 localhost:8983에 있는 서버에 연결할 것입니다. 반드시 콜렉션/코어 이름을 지정해야 합니다. '-help' (혹은 간단히 '-h') 옵션은 사용 방법에 대한 정보를 출력합니다(예. bin/post -help).


bin/post 도구 사용하기

bin/post를 사용할 때 콜렉션/코어 이름이나 전체 갱신 url을 지정하는 것은 필수입니다bin/post의 기본 사용법은 다음과 같습니다:

$ bin/post -h
Usage: post -c <collection> [OPTIONS] <files|directories|urls|-d ["...",...]>
    or post -help

    collection name defaults to DEFAULT_SOLR_COLLECTION if not specified

OPTIONS
=======
  Solr options:
    -url <base Solr update URL> (overrides collection, host, and port)
    -host <host> (default: localhost)
    -p or -port <port> (default: 8983)
    -commit yes|no (default: yes)

  Web crawl options:
    -recursive <depth> (default: 1)
    -delay <seconds> (default: 10)

  Directory crawl options:
    -delay <seconds> (default: 0)

  stdin/args options:
    -type <content/type> (default: application/xml)

  Other options:
    -filetypes <type>[,<type>,...] (default:xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log)
    -params "<key>=<value>[&<key>=<value>...]" (values must be URL-encoded; these pass through to Solr update request)
    -out yes|no (default: no; yes outputs Solr response to console)
...


예제

bin/post를 사용할 수 있는 여러 방법이 있습니다. 이 섹션은 몇 가지 예제를 제공합니다.


XML 색인하기

파일 확장자가 .xml인 모든 파일을 이름이 gettingstarted인 콜렉션 혹은 코어로 추가합니다.

bin/post -c gettingstarted *.xml

파일 확장자가 .xml인 모든 파일을 8984 포트에서 실행 중인 Solr의 이름이 gettingstarted인 콜렉션 혹은 코어로 추가합니다.

bin/post -c gettingstarted -p 8984 *.xml

gettingstarted에서 문서를 삭제하기 위해 XML 인자를 보냅니다.

bin/post -c gettingstarted -d '<delete><id>42</id></delete>'


CSV 색인하기

모든 CSV 파일을 gettingstarted로 색인합니다:

bin/post -c gettingstarted *.csv

탭으로 분리된 파일을 gettingstarted로 색인합니다:

bin/post -c signals -params "separator=%09" -type text/csv data.tsv

컨텐츠 형식(-type) 파라미터는 파일을 적절한 형식으로 다루기 위해 필요합니다. 만약 지정하지 않으면 요청이 무시되고, .tsv 파일의 컨텐츠 형식을 알 수 없다는 WARNING 로그가 기록될겁니다. CSV Handlerparator 파라미터를 지원하고, -params 설정을 이용해서 전달할 수 있습니다.


JSON 색인하기

모든 JSON 파일을 gettingstarted로 색인합니다:

bin/post -c gettingstarted *.json


서식 있는 문서(PDF, Word, HTML, 기타) 색인하기

PDF 파일을 gettingstarted로 색인합니다:

bin/post -c gettingstarted a.pdf

폴더를 재귀적으로 탐색하면서 발견한 파일들의 컨텐츠 형식을 자동으로 인식하고 gettingstarted로 색인합니다.

bin/post -c gettingstarted afolder/

폴더를 재귀적으로 탐색하되 컨텐츠 형식을 PPT와 HTML 파일만으로 제한해서 gettingstarted로 색인합니다.

bin/post -c gettingstarted -filetypes ppt,html afolder/


Windows 지원

bin/post는 현재 Unix 쉘 스크립트만 있지만, 크로스플랫폼 작동이 가능한 Java 프로그램으로 대체할 수 있습니다. SimplePostTool은 Windows를 비롯하여 지원되는 환경에서 바로 실행할 수 있습니다.


SimplePostTool

bin/post 스크립트는 현재 SimplePostTool이라 불리는 단독 실행형 Java 프로그램으로 대체할 수 있습니다. 실행가능한 JAR로 제공되는 이 도구는 java -jar example/exampledocs/post.jar 명령을 사용해서 바로 실행할 수 있습니다. 도움말을 확인하거나, 파일을 게시하거나, Solr 서버로 직접 명령을 전달할 수 있습니다. 재귀적으로 웹사이트나 시스템 폴더를 탐색하여 게시하는 것도 가능합니다.

$ java -jar example/exampledocs/post.jar -h
SimplePostTool version 5.0.0
Usage: java [SystemProperties] -jar post.jar [-h|-] [<file|folder|url|arg>
[<file|folder|url|arg>...]]
.
.
.



< Solr 색인 소개

데이터 업로드와 Index Handler >


오탈자와 오역은 댓글을 달아주세요. (Apache Solr 5.5 가이드 번역에 관하여...)



저작자 표시 비영리 동일 조건 변경 허락
신고
댓글 로드 중…

트랙백을 확인할 수 있습니다

URL을 배껴둬서 트랙백을 보낼 수 있습니다