OpenTextのホームページ。
技術トピックス

データレイクハウスとは?

クエスチョンマークを中心としたIT項目の図解

概要

データレイクハウスにより、企業は増大するデータ量を効率的に管理し、データ・セキュリティを強化し、データ・ストレージ・コストを削減し、GenAIとビジネス・インテリジェンスを活用することができる。データレイクハウスの仕組み、データレイクハウス・アーキテクチャを採用する主なメリット、そしてデータがデータレイクハウス、データウェアハウス、データレイクのどこに保存されていても、リアルタイム分析や機械学習にアクセスできる方法をご覧ください。

クラウドリパトリシフト:データから読み取れること

200人以上のITリーダーが、データレイクハウスのクラウド専用戦略を見直し、オンプレミス、プライベートクラウド、またはハイブリッド導入を選択してパフォーマンスを回復している理由をご覧ください。

ガイドをダウンロードする

データレイクハウス

データレイクハウスとは?

データレイクハウスは、データウェアハウスとデータレイクの側面を統合したデータ管理プラットフォームで、パフォーマンス、セキュリティ、柔軟性などの利点が追加されている。データレイクハウスは基本的に高性能なデータウェアハウスであり、内蔵のデータ処理ツールであらゆる種類のデータ(構造化、非構造化、半構造化)をサポートできる。その結果、AIと高度なアナリティクスのためのデータ処理を強化する、単一の強力なデータ管理基盤が誕生した。

データレイクハウス・アーキテクチャの革新は、増大する多様なデータをより効率的に管理し、データレイクとデータウェアハウス間のギャップを埋め、 信頼性の高いAIと ビジネスインテリジェンスを 提供 する必要性にも後押しされ、採用が進んだ。


データレイク、データレイクハウス、データウェアハウスはどう違うのか?

データレイクハウス、データレイク、データウェアハウスはすべてデータリポジトリであるが、それぞれに明確な違いがあり、関連するユースケースがある。3つのデータアプローチを比較してみよう。

データウェアハウスは、構造化されたデータの保存を一元化する方法を提供し、複数のソースからのデータを単一の場所に統合することができる。その結果、データウェアハウスは情報のサイロ化を解消し、ビジネスユーザーに迅速なデータアクセスと、レポートや洞察を生成するためのデータ照会機能を提供する。データウェアハウスは、データマイニング、データ分析、ビジネスインテリジェンスのユースケースをサポートし、企業がビジネスパフォーマンスを理解し、傾向を明らかにし、より多くの情報に基づいたビジネス上の意思決定を行うことを可能にします。

しかし、データウェアハウスに課題がないわけではなく、複雑なETL(抽出、変換、ロード)プロセスは管理要件を高め、コストを押し上げる。さらに、オフクラウドのデータウェアハウスは、企業のデータ増加や新たなユースケースをサポートするための拡張に苦労する可能性があり、TCOにさらに影響を与える。

データレイクは、大量の構造化 データ および 非構造化データを 保存し、増大するデータ量に対応するために容易に拡張することができる。様々な種類の多様なデータとフォーマットをサポートする能力により、データレイクは機械学習やデータサイエンスなどのビッグデータのユースケースに適用でき、データウェアハウスと比較してよりコスト効率の高いオプションを提供します。

しかし、データレイクは複雑で規模が大きいため、データが扱いにくくなって管理が困難になるのを防ぐために適切な管理が必要であり、データを効果的に活用するためには通常、データサイエンティストやデータエンジニアが必要となる。

歴史的に、データウェアハウスとデータレイクは個別のサイロ化されたアーキテクチャとして導入され、2つのシステム間でデータを共有する必要があった。データレイクハウスは、データレイクやデータウェアハウスと併用することで、あらゆる種類のデータやフォーマットに対応した柔軟かつ低コストのストレージオプションを提供し、異なるシステム間でデータを複数コピーする必要性を排除することができる。

ACIDトランザクションのサポートにより、ユーザーは構造化データおよび非構造化データに対してSQLコマンドでクエリーを実行し、さまざまなユースケースで高性能なAIとアナリティクスを使用することができる。その結果、企業はアナリティクスの能力を高めて、よりインテリジェントなオペレーションを可能にし、顧客体験のパーソナライズ、意思決定の改善、製品開発のスピードアップ、ワークフローの最適化、収益成長の加速にインサイトを適用することができる。


なぜ企業はデータレイクハウス・アーキテクチャに移行しているのか?

高いコストや限られた拡張性など、従来のデータアーキテクチャの限界が、データレイクハウスの導入に組織を駆り立てている。最近の調査では、200人以上のITリーダーのうち87人(% )が2年以内にワークロードの再移転を計画していることがわかった。

より近代的なデータ・アーキテクチャ・アプローチへの移行を望む背景には、以下のようないくつかの要因がある:

  • 増え続ける非構造化データ:組織は、電子メール、ソーシャルメディアへの投稿、製品画像、ビデオ、コールセンターのトランスクリプト、チャットメッセージなどを保存、管理、活用する、より効率的な方法を必要としている。
  • 顧客サービスに集中データレイクハウス・アーキテクチャ内の高度なアナリティクスと機械学習は、顧客の行動パターンを特定し、サービス・インタラクションから洞察を得て、よりターゲットを絞ったデータ主導のエクスペリエンスを生み出すのに役立ちます。
  • コスト削減:データレイクハウスを活用することで、ストレージと処理のコストを削減し、多様なワークロードのデータ管理を改善することができる。
  • ハイブリッドデータ戦略の採用データレイクハウス・アーキテクチャにより、企業は希望する展開、セキュリティ、コンプライアンス要件に基づいて、クラウドとオフクラウドの両方のデータストレージを柔軟に活用できる。

データレイクハウスの仕組み

データレイクハウスは通常5つのレイヤーで構成されている:

  • 摂取層
  • ストレージ層
  • メタデータ層
  • APIレイヤー
  • 消費層

それぞれの役割を探ってみよう:

最初の層である取り込み層は、トランザクション・データベース、NoSQLデータベース、APIなど、さまざまなソースからデータを収集する。そこから、データはデータレイクハウスが保存・分析できるようにアクセス可能な形式に変換される。

ストレージ層は、すべてのデータ(非構造化、構造化、半構造化)がレイクハウスに取り込まれ、保存される場所である。アナリティクスのパフォーマンスを最適化するため、データはオープンなファイル形式で保存される。

第3のレイヤーはメタデータレイヤーで、取り込まれ保存されたデータに関連するメタデータを分類する。

第4のレイヤーは、より高度な分析を行うためにAPIを使用し、分析ツールやサードパーティアプリケーションがデータレイクハウスアーキテクチャ内のデータを照会できるようにする。このレイヤーはリアルタイムのデータ処理をサポートし、データが更新・更新されても、チームはリアルタイムの分析を利用することができる。

消費レイヤーは、アプリケーションやツールがレイクハウスに保存されているすべてのメタデータとデータにアクセスできるようにする。これにより、ビジネス・ユーザーに必要なデータ・アクセスを提供し、ダッシュボードの作成、データの視覚化、SQLクエリ、機械学習タスクなどの分析タスクを実行できるようになる。


データレイクハウス・アーキテクチャのビジネス上の利点とは?

データレイクハウスは、データ管理の改善、コスト削減、同じソースからのAIや機械学習の強化など、組織やユーザーに多くのメリットをもたらす。データレイクハウスがもたらす主なメリットをいくつか紹介しよう:

  • 真実の単一ソース:データ管理を一元化し、複数のソースやフォーマットからデータを統合してデータの一貫性を確保します。
  • 望ましいスケーラビリティ:ストレージとコンピュートリソースを分離することで、多様なワークロードをサポートし、拡張することができます。
  • GenAIの新たな機会:データレイクハウスの機能と構造により、組織はGenAIアプリケーションのためにデータリソースを活用し、コンテンツ作成、洞察、パーソナライズされた迅速な対応に利用することができる。
  • 分析パフォーマンス:データクエリのパフォーマンスを向上させ、結果の速度と精度を高めます。
  • 信頼できるデータガバナンス:堅牢なデータガバナンスのフレームワークと、データ品質とセキュリティを強化するためのコントロール。
  • 展開の柔軟性:オフクラウド、ハイブリッド、マルチクラウドの展開オプションにより、コストとパフォーマンスを最適化します。

OpenText はデータレイクハウスの利点をどのように生かすことができますか?

リアルタイム分析と機械学習を内蔵したOpenTextは、データレイクハウス内のデータをシームレスに分析し、リソースの利用を最適化して総所有コストを削減します。

OpenText™ Analytics Database (Vertica)は、データウェアハウスとデータレイクの両方において、高性能でスケーラブルなアナリティクスを実現します。

OpenTextの統合エンジンは、高性能SQL、高度な分析、オープンデータ形式をサポートし、ウェアハウスのスピードとレイクのスケールとオープン性を実現します。オンプレミス、クラウド、ハイブリッド環境のいずれにおいても、OpenTextは、企業がデータランドスケープを統一し、データの所在場所を問わず、妥協することなく分析を実行できるよう支援します。

これらの機能を拡張するために、OpenTextのコンポーザブル・アナリティクスとAIプラットフォームは、企業がより深い洞察を引き出し、データをより効果的に管理し、企業全体で価値を提供することを可能にします。

ナレッジ・ディスカバリーは、高度なAIと機械学習によって、従来のレイクハウスでは見過ごされがちな文書、電子メール、ビデオ、オーディオなどの非構造化データを処理・分析する。OpenText™ Intelligent Classificationは、自然言語処理によってこの機能をさらに強化し、大量のテキストからセンチメント、トピック、キーエンティティを発見します。OpenText™ Intelligenceは、インタラクティブなダッシュボードとセルフサービス分析によってビジネスユーザーを支援し、意思決定を迅速化します。

OpenTextは、アナリティクスだけでなく、データの信頼性、ガバナンス、セキュリティに関する企業の重要なニーズにも対応しています。OpenText™ Data Discovery は、サイロ間のデータを自動的にスキャン、分類、マッピングします。これにより、企業は機密情報や規制対象情報を可視化し、データがアナリティクス環境に入る前にリスクを低減することができます。データプライバシーと保護は、形式を保持した暗号化、トークン化、ポリシーベースのプライバシー制御により、エンタープライズグレードのデータ中心のセキュリティを追加します。

これらの機能を組み合わせることで、OpenTextが提供するデータレイクハウスは、スピード、インテリジェンス、セキュリティ、信頼のために構築された、総合的でエンタープライズ対応のエコシステムとなります。

高速でスケーラブルなアナリティクス・プラットフォームがどのようにお客様のビジネスをサポートし、データがどこに保存されていても分析できるかをご覧ください。

オープンテキストのデータレイクハウスとアナリティクスの詳細はこちら

OpenText Analytics Databaseの無料トライアルを開始する


無料トライアル版を開始する

脚注