第348章 Tika コンポーネント

Camel バージョン 2.19 以降で利用可能

Tika: コンポーネントは、Apache Tika を使用してドキュメントを検出および解析する機能を提供します。このコンポーネントは、ドキュメントを操作するための基礎となるライブラリーとして Apache Tika を使用します。

Tika コンポーネントを使用するには、Maven ユーザーは次の依存関係を pom.xml に追加する必要があります。

pom.xml

<dependency>
    <groupId>org.apache.camel</groupId>
    <artifactId>camel-tika</artifactId>
    <version>x.x.x</version>
    <!-- use the same version as your Camel core version -->
</dependency>

TIKA コンポーネントはプロデューサーエンドポイントのみをサポートします。

348.1. オプション

Tika コンポーネントにはオプションがありません。

Tika エンドポイントは、URI 構文を使用して設定されます。

tika:operation

パスおよびクエリーパラメーターを使用します。

348.1.1. パスパラメーター (1 個のパラメーター):

名前説明デフォルトタイプ

operation

必須 Tika 演算。解析または検出。

 

TikaOperation

348.1.2. クエリーパラメーター (5 つのパラメーター):

名前説明デフォルトタイプ

tikaConfig (producer)

Tika Config。

 

TikaConfig

tikaConfigUri (producer)

Tika Config の URI: tika-config.xml の URI。

 

String

tikaParseOutputEncoding (producer)

Tika Parse Output Encoding - 解析された出力の文字エンコーディングを指定するために使用されます。Defaults to Charset.defaultCharset() .

 

String

tikaParseOutputFormat (producer)

Tika 出力フォーマット。サポートされている出力形式。xml: 解析されたコンテンツを XML として返します。html: 解析されたコンテンツを HTML として返します。text: 解析されたコンテンツをテキストとして返します。textMain: ボイラーパイプライブラリーを使用して、Web ページからメインコンテンツを自動的に抽出します。

xml

TikaParseOutputFormat

synchronous (advanced)

同期処理を厳密に使用するか、Camel が非同期処理を使用できるかどうかを設定します (サポートされている場合)。

false

boolean