OpenTextのホームページ。
技術トピックス

ファイル解析とは?

クエスチョンマークを中心としたIT項目の図解

概要

ファイル分析は、データの場所をマッピングし、誰がどのデータ(ファイル共有、電子メールデータベース、エンタープライズファイルの同期と共有、レコード管理、エンタープライズコンテンツ管理、Microsoft SharePoint、およびデータアーカイブを含む)にアクセスできるかを特定することで、企業が増大するデータ量に対処するのを支援します。

ファイル分析ソリューションは、ファイルのメタデータとコンテンツを分析、インデックス化、検索、追跡、レポート化します。これにより、組織は詳細なメタデータとコンテキスト情報を閲覧・整理し、PIIの監視と 情報ガバナンスを 改善 し、非構造化データをより効率的に管理 することができる 。

ファイル分析ソリューションは、非構造化データも保護し、セキュアにします。組織は、コンテンツ分析についてより適切な判断を下し、データに関連するリスクを軽減し、コストを削減することができる。これらのソリューションは、データ・セキュリティ、ライフサイクル管理、データ・アクセス・ガバナンス、マッピング、分類を確実にすると同時に、ビジネスを推進し保護する重要なデータ洞察と分析を可能にします。これらの主要機能は、リスク軽減、ガバナンスとコンプライアンス、効率化と最適化、データインサイトといったデジタルトランスフォーメーションのユースケースへの対応を支援する。

ファイル分析

なぜファイル分析なのか?

組織はビジネスの変革を迫られている。クラウドへの移行、リモートワーカーへの対応、データ・プライバシーへの対応など、どのような取り組みにおいても、ファイル分析ソリューションは、データとアプリケーションを最適化し、データをインテリジェントに識別、保護、分類するのに役立ちます。ファイル分析ソリューションは、コンプライアンスを確保し、よりスマートなデータ移行を可能にするために、データ全体に対する洞察も提供できます。

ファイル分析ソリューションは、今日の最新ワークロードのニーズに合わせて拡張でき、データを最適化し、防御的に削除できる領域を特定することで、コストの削減、効率の向上、コンプライアンスの確保を実現します。ファイル分析を導入するプロジェクトでは、変化し続けるビジネス環境に対応するためのスピードが要求されます。これらのソリューションの価値を最大化するためには、スピード、スケール、そして価値実現までの時間の短縮が不可欠である。

ファイル分析ソリューションは、構造化されていないデータの最も一般的なソース(オンプレミスまたはクラウド)にアクセスして、リスクを評価し、機密性の高いデータや価値の高いデータを特定し、データのライフサイクルにわたってデータを保護、保護、管理するためのアクションを提供します。

ファイル分析はデータの効率化と最適化にどのように役立つのか?

非構造化データ全体のデータ効率と最適化は、どのようなデータがどこに保存されているかを理解することから始まる。データマッピングを通じて、ファイル分析を使ってすべてのデータがどこにあるかを特定し、見当違い、孤児、重複、時代遅れ、または些細な「ダークデータ」を特定することができる。ファイル分析を活用したプロジェクトでは、組織にとって価値のないデータを積極的に削除または最適化することで、投資回収を早めることができます。

ファイル分析はリスク軽減にどのように役立つのか?

ファイル分析ソリューションは、コンテンツ分析段階で発見されたデータを最適化、保護、保護することで、データリスクの軽減を支援します。これには以下が含まれる:

  • PII、PCI、PHI、IP の検出、管理、処理。
  • 情報の流れを管理する
  • 機密データの取り扱い。
  • ID保護、メタデータ・レポート、IDアクセス権、データ中心アクセス保護、ポリシー制御、監査証跡を提供する。

データの最適化が完了すれば、ビジネス価値のないデータはもはやデータ・ストレージ・スペースを消費しない。価値が高く、ビジネスで積極的に利用されるデータだけが残る。

アクセスと権限を理解することは不可欠だ。修復ツールを提供するファイル分析ソリューションは、データがアクティブに使用されている間、適切な管理が適用されていることを保証するのに役立ちます。ソリューションによっては、適切な使用を保証するためにエンドポイントでデータを暗号化する機能など、追加的な保護が含まれている。そして最後に、ファイル分析ソリューションを適切に導入することで、ユーザーがビジネス上の目的を理解せずにデータを移動したり削除したりすることを防ぐことができます。その場で管理」モデルを展開するファイル分析ソリューションは、ビジネスユーザーへの障害リスクを最小限に抑えます。

ファイル分析はガバナンスとコンプライアンスにどのように役立つのか?

ファイル分析ソリューションを導入することで、適切なデータを適切なユーザーが適切なタイミングで利用できるようになります。組織が規制、法律、社内ガバナンス、コンプライアンスの目標を達成するために、以下のような支援を提供します:

  • メタデータガバナンス、リーガルホールド、検疫、ディスカバリーの提供。
  • データ量の最適化。
  • 適切な許可を管理する。
  • ロールベースのアクセスを許可する。
  • 価値の高い資産を特定する。
  • データライフサイクルポリシーの適用

ファイル分析がPIIデータやデータプライバシー・コンプライアンスにどのように役立つのか?

組織は、個人データ(消費者、市民、従業員のデータを含む)を見つけ、保護し、セキュアにする競争にさらされている。GDPR(EU)、CCPA(カリフォルニア州)、KVKK(トルコ)、PIPEDA(カナダ)、POPIA(南アフリカ)などを含むこの世界的なトレンドは、ファイル分析ソリューションに新たな注目をもたらしました。コンテンツ分析機能と検出技術を活用したファイル分析ソリューションは、コンプライアンスを確保し、消費者からの要求やデータ対象者へのアクセス要求への対応を支援するのに理想的です。

データプライバシーへの備えは、ファイル分析ソリューションが輝きを放つ一例である。また、PIIファイルを簡単に識別し、インデックスを付け、検索できるプロセスの必要性も強調している。

エンド・ツー・エンドのプロセスは次のようになるはずだ:

  1. リポジトリを検索し、ファイルを特定する。
  2. ファイルからすべてのメタデータとコンテンツを抽出する。
  3. ファイルのコンテンツとメタデータを分析し、特定のエンティティを探したり、概念的なコンテンツに基づいてファイルを分類します。
  4. 分析結果に基づいてビジネスルールを適用し、適切なアクセスレベルと機密データの取り扱い(暗号化など)を保証することで、データを保護する。また、カテゴリーや分類を適用して、資産のライフサイクル管理に役立てることもできます。

ファイルの分類とは何ですか?

ファイル分析ソリューションは、メタデータ・タグ、キーワード、用語リストに基づく単純な分類方法を使用します。いくつかのソリューションでは、ファイル・コンテンツの概念分類を活用し、これらの手法を検索された文書、画像、またはデータ・エンティティと組み合わせることで、分類の精度を向上させている。他のソリューションでは、機械学習やサンプル・ドキュメントを使ったガイド付き学習により、使用する分類を定義することができ、さらに一歩進んでいる。

例えば、健康や保険情報を含む人事文書は、サンプルデータに基づいたデータ分類ポリシーを使用することができます。年齢や場所など、その他の要素については、リスクスコアと追加権限を適用して、ポリシーをさらに定義することができます。

ファイル分析はデータガバナンスとデータ保全をどのように実現するのか?

ファイル分析ソリューションは、組織がデータに対して自動的にアクションを起こすのを支援する機能だけでなく、データの管理および保存を支援する豊富なツールセットを提供します。このソリューションには通常、企業のデータガバナンスに基づき、以下のオプションが含まれる:

  • データを削除する。ファイルを保持する必要がない場合は、削除してください。古すぎますか?重複ですか?それはビジネスに価値をもたらすか?消費者は自分のデータの破棄を要求したか?ファイル分析ソリューションは、あなたが何をしたのか、なぜそれをしたのかの両方の監査証跡を維持します。
  • データを保護する。データを保持する必要があるのなら、それを保護することだ。ファイル解析ソリューションの中には、アクセス制御を変更したり、データを暗号化したりできるものもある。もうひとつの選択肢は、記録管理ツールなど安全な場所に移して長期保存することだ。
  • データを再編集する。データの一部は残す必要があるかもしれないが、PIIは必要ない。ファイル分析ソリューションの中には、PIIコンテンツを含まないオリジナルファイルのクリーンコピーを作成するために、再編集をサポートするものもあります。その後、オリジナル・ファイルは削除されるか、上記のように保護される。

マネジメント・イン・プレース」とは何か?

Manage-in-place は、データライフサイクル管理とガバナンスの重要なコンセプトである。メタデータ(場所、パーミッション、コンテンツを含む)が存在するファイル分析ソリューションによって「どのように」分析されるかを示す。実際のオブジェクトは、分析中に別の場所や保存領域に移動、コピー、保存されることはない。

エンティティの文法を理解する

データ・ディスカバリーの文法(ルール・セット)には、識別しようとするエンティティを記述するために、キュレーションされたものとユーザーが作成したものという2つの基本的なタイプがある。

文法には以下のようなものがある:

  • PII:個人を特定できる情報。地域によって異なる場合がある(誤検知の原因となるフォーマットを含む)。
  • PHI:一般的に北米の医療業界に関連する個人健康情報。
  • PCI:個人クレジットカード情報。
  • PSI: 個人セキュリティ情報、口座詳細のアクセスキー用。

ユーザが変更できない、最適化された文法を探す。これらの文法は、より正確な結果を得るために文脈とランドマークを使用し、偽陽性をフィルタリングするのに役立つ「信頼スコア」を提供する。文脈とランドマークは、フレーズ、単語、または個々の文字にすることができます。

文脈が重要だ。エンティティ候補への近接性と(自然言語処理技術に基づく)コンテキストの強度を使用するファイル分析ソリューションは、信頼度スコアに寄与する。特定の事業体、国、地域の包括的なリストを活用することで、より詳細なスコアを得ることができる。

チューニングと柔軟性。これらの文法があなたの特定のユースケースをカバーしない場合、カスタム文法を作成できるファイル解析ソリューションを使うことができる。これらの文法は通常、書式を記述するRegXや単純なリストを使って定義される。

偽陽性とは何か?

定義によれば、"偽陽性 "とは、特定の状態や属性の存在を誤って示す検査結果のことである1。ファイル分析ソリューションの場合、誤検出は、コンテンツ分析中に誤って識別されたパターン、文法、またはキーワードの一致を示します。パターンやキーワードのマッチングを使用するだけのファイル分析ソリューションは、一般的に、コンテキストを意識したコンテンツ分析機能を備えたソリューションよりも誤検出率が高くなります。

スキャンした文書と録音

ファイル分析ソリューションは、テキストベースの文書を分析してリスクを調べることができるが、PIIは他の形式のデータにも存在する可能性がある。スキャンされた文書、録音された会話、ビデオ会議の録画に対してファイル分析を行うことは、ますます一般的になってきている。ファイル分析ソリューションの中には、PII発見技術を適用する前に、これらのファイルを処理できるものもある。

画像として保存されたスキャンされた紙文書(例えばPDFファイル内)は、光学式文字認識(OCR)で処理され、テキストと、理想的には関連する構造情報を抽出すべきである。多くの組織は、従業員の運転免許証やパスポートなど、スキャンしたID文書を記録している。

音声やビデオ録画の分析をサポートするファイル分析ソリューションでは、分析のための書き起こしを作成できる音声テキスト化エンジンによる処理が必要です。

AIによる文脈重視のコンテンツ分析のメリット:

  • センシティブで価値の高いデータの精度と検出を高めます。
  • 偽陽性を減らす。
  • AIが学習した分類によって効率が向上し、データの分類に必要な手作業が削減されます。

マネジメント・イン・プレース」モデルの利点:

  • データは見つけやすく、エンドユーザーが期待する場所にある。
  • データ損失、生産性低下、エンドユーザーによる障害の脅威を低減します。
  • 分析するためにデータをネットワークやクラウドに転送する必要がないため、コスト削減とスピードが向上する。

ファイル分析におけるオンプレミスとSaaSソリューションの違い

ファイル分析SaaSソリューションとは?

ファイル分析は、SaaS(Software as a Service)を介して提供することができ、顧客はアプリケーション・セキュリティ・プロバイダーが提供するサービスを月額料金または年額料金で利用する。このアプローチでは、ハードウェアの調達や従来の永久ライセンスは必要ない。コンテンツ分析、検索、ガバナンス・アクション、アナリティクスを実施するために、アプリケーションへのアクセスを提供するSaaSベンダー(場合によってはマネージド・サービス・プロバイダー)に部分的または完全に依存している。SaaSは、コンテンツ分析を簡単に始める方法を提供し、高いスケーラビリティ、スピード、迅速なTime to Valueを提供します。SaaSのホスティング環境の場所によっては、データレジデンシーとデータ主権に関する懸念を、SaaSの商業的利益と比較検討する必要があるかもしれない。

オンプレミスのファイル分析ソリューションとは?

ファイル分析ソリューションは、オンプレミスで実行し、社内のチームで運用・保守することもできます。このアプローチでは、組織がインフラと人員を提供し、アプリケーション・セキュリティ・ソリューションを取得・管理する必要がある。オンプレミスは、アプリケーション・データが第三者と共有されず、社外に流出しないことを保証する。通常、オンプレミス・ソリューションは永久ライセンスで販売される。最近では、ソフトウェアがどのように消費され、どのように請求されるかをより柔軟にするために、サブスクリプションライセンスが使われている。

オープンテキストが提供するファイル分析ツール

Voltage File Analysis Suite by OpenText™ SaaS ファイル分析ソリューションにより、企業は迅速かつ効率的に情報リスクを低減し、データプライバシーを確保し、ビジネスを推進・保護する重要なデータへの従業員のアクセスを分析、最適化、保護することができます。当社のソリューションは、機密データ管理に伴うリスクを軽減しながら、データライフサイクル管理とデータアクセスガバナンスを保証します。File Analysis はまた、アイデンティティおよびアクセスガバナンス、完全なデータの可視性、ストレージコストの削減、効率性を向上させる実用的な分析、データ品質も提供します。さらに、高額資産(契約書、知的財産、特許など)や機密データ(PI/ PII、PCI、PHIなど)のガバナンスに対応しながら、データプライバシーコンプライアンスをサポートする。

OpenText™ File Reporterは、ネットワークファイルシステムをインベントリ化し、効率性とコンプライアンスのためにネットワークを最適化し保護するために必要な、詳細なファイルストレージインテリジェンスを提供します。企業全体に保存されているデータのファイルと関連するアクセス許可を発見、分析することで、アクセスリスクを特定することができます。File Reporter は、企業のファイルシステムレポート用に設計されており、ネットワークを構成するさまざまなネットワークストレージデバイスに散在する何百万ものファイルやフォルダのデータを収集します。柔軟なレポート作成、フィルタリング、クエリーオプションにより、コンプライアンスを実証したり、是正措置を講じたりするために必要な正確な調査結果を提示します。

OpenText™ File Dynamicsは、ネットワークデータ管理の拡大する要件に対応する広範なサービスを提供します。 アイデンティティ主導のポリシーは、従来手作業で行われていたタスクを自動化し、コスト削減と、タスクが適切に実行されていることの保証をもたらす。ターゲット・ドリブン・ポリシーは、不正アクセスからの保護、データの移行とクリーンアップを提供する。File Dynamicsはまた、価値の高いターゲットのニアライン・ストレージ・バックアップを通じてデータの破損やダウンタイムから保護し、ファイルと関連するパーミッションの迅速なリカバリーを可能にします。File Dynamicsは、データ管理規制の遵守に必要なロールベースのアクセス制限、修復、リスク軽減、およびプロアクティブな管理を提供します。

OpenText™ ControlPointは、OpenText™ Knowledge Discovery の人工知能を活用した非構造化データ分析用のファイル分析ソリューションです。機密データ(PII、PCI、PHIなど)の特定と自動分類、レガシーデータのクリーンアップ、電子メールリポジトリ、ファイル共有、SharePointサイト、クラウドリポジトリ(Office365、Googleドライブ、Dropboxなど)に管理されずに放置されているダークデータに潜むリスクの発見を可能にします。ControlPoint はまた、冗長なデータ、時代遅れのデータ、些細なデータを削減することで、ストレージ・コストの節約を可能にします。これにより、貴重な情報へのアクセスが向上し、データライフサイクル管理、規制遵守、データセキュリティを支援するポリシーの適用を通じてデータ保全が徹底されます。

ファイル分析

今日から始めましょう。

デモをリクエストする

脚注