348장. Tika 구성 요소

Camel 버전 2.19에서 사용 가능

Tika: 구성 요소는 Apache Tika에서 문서를 감지하고 구문 분석할 수 있는 기능을 제공합니다. 이 구성 요소는 Apache Tika 를 기본 라이브러리로 사용하여 문서를 사용합니다.

Tika 구성 요소를 사용하려면 Maven 사용자가 pom.xml 에 다음 종속성을 추가해야 합니다.

pom.xml

<dependency>
    <groupId>org.apache.camel</groupId>
    <artifactId>camel-tika</artifactId>
    <version>x.x.x</version>
    <!-- use the same version as your Camel core version -->
</dependency>

TIKA 구성 요소는 생산자 끝점만 지원합니다.

348.1. 옵션

Tika 구성 요소에는 옵션이 없습니다.

Tika 엔드포인트는 URI 구문을 사용하여 구성됩니다.

tika:operation

다음 경로 및 쿼리 매개변수를 사용합니다.

348.1.1. 경로 매개 변수 (1 매개변수):

이름설명기본값유형

작업

필요한 Tika Operation. 구문 분석 또는 탐지

 

TikaOperation

348.1.2. 쿼리 매개변수 (5 매개변수):

이름설명기본값유형

tikaConfig (producer)

Tika Config

 

TikaConfig

tikaConfigUri (producer)

Tika Config Uri: tika-config.xml의 URI

 

문자열

tikaParseOutputEncoding (producer)

Tika Parse Output Encoding - 구문 분석 출력의 문자 인코딩을 지정하는 데 사용됩니다. 기본값은 Charset.defaultCharset()입니다.

 

문자열

tikaParseOutputFormat (producer)

Tika 출력 형식. 지원되는 출력 형식. xml: Returns Parsed Content as XML. html: Returns Parsed Content as HTML.text: Returns Parsed Content as Text. textMain: boilerpipe 라이브러리를 사용하여 웹 페이지에서 기본 콘텐츠를 자동으로 추출합니다.

xml

TikaParseOutputFormat

synchronous (advanced)

동기 처리를 엄격하게 사용해야 하는지 또는 Camel이 비동기 처리를 사용할 수 있는지 여부를 설정합니다(지원되는 경우).

false

boolean