Gartner Cloud DBMS Report Names MarkLogic a Visionary

Hadoop後の再グループ化

データレイクとは、「ビッグデータ」とHadoopハイプサイクルから登場した用語です。データレイクの当初の概念は、多様かつ大量なエンタープライズデータを、データウェアハウスでもデータマートでも不可能だった方法で扱うというものでした。この新しい言葉は生まれて以来、業界のいたるところで使われるようになりました。その結果、市場全体に浸透し、すべての企業や組織がある種のデータレイクを持つ必要があるという前提が生まれることになりました。

一方、RDBMSの導入増の結果として生じたデータの種類の多さや、データサイロを扱うデータレイクのような存在のニーズが存在することからも、こうした論拠が正しいと考えることは可能です。

(同僚であるDamon Feldomanは、コンテンツを統一する3種類のアプローチを、データレイク、仮想データベース、データハブによって検証しています。SPOILER:ムーブメント、ハーモナイゼーション、インデックス化が主要な差別化要因です)

一方で、データレイクはHadoopエコシステムの同義語になりつつあります。その後多くの人々の憶測の結果、Hadoopだけあれば十分だと考えられるようになりました。かつてはMapReduceが主流でしたが、その後、Apache Sparkに地位を奪われ、このApache Sparkも現在ではConcordフレームワークに道を譲りつつあります (本ブログが投稿される時点では、ひょっとすると何か別のテクノロジーが「大流行」している可能性さえあります)。こうした激動に加えて、オープンソースの「Fit for Purpose(目的に適った)」テクノロジーの統合コストも存在します。

そして、不幸にも、これらすべてを行った結果、データレイクにHadoopを統合した多くの組織に仲間入りすることになりますが、この時点で、セキュリティとガバナンス、さらにソリューション自体の不足に気づくでしょう。


Hadoopはサイロを根絶していない

データレイクは、データサイロを最小化する手段と見なされた一方で、現実には、以下に示すような多くの理由から、そうした約束は果たされませんでした。

  • 物事の分析面(ビジネスの監視)のみに集中し、物事の運用面(ビジネスの運用)を考慮することはない
  • 複雑で変化するHadoopエコシステムへの依存性が、予想以上の統合コストをもたらす
  • セキュリティや運用管理などのエンタープライズ機能への「表面的な部分にばかり注目した」アプローチ

さらに、維持管理が面倒な技術的サイロが追加されたことで、問題がさらに増えてしまいました。言うまでもなく、データ出自を維持することは困難です。

Hadoopエコシステムは確かにソリューションではありますが、「Hadoop最優先」のメンタリティは見当違いであり、少なくとも不十分です。

Hadoopには優れた分析機能がありますが(それによって、ビジネスを監視が可能になる)、実際にビジネスを運営するとしたらどうでしょうか?MarkLogicのエンタープライズCTOであるケン・クルーパは、まさしくこの状況が多くの大手銀行で起こっていると言います。。「投資銀行の取引後処理に対する新しい規制が施行された場合、複数のソースシステムを持つ取引が影響を受けるでしょう」「その規制が取引のあらゆる業務ワークフローに関係している場合、このワークフローに適合させるためにそれぞれの下流システム(数十に及ぶ)を変更することはできません。業務運用能力がないエンタープライズ統合の場合、そうするほかありませんが、ほとんどの銀行はそれを歓迎しないでしょう」 エンタープライズ統合の時点で運用能力がない場合、それが唯一の選択肢となってしまいますが、ほとんどの銀行はそれを歓迎しないでしょう」

アーキテクチャとして、データレイクは今日のデータ統合上の課題の一部のみ解決しますが、それ自身、サイロのデータを統合するには不十分です。データ統合の分析上の課題に加えて、運用上の課題を完全に解決するには、Hadoop以上の存在が必要です。

その「存在」が、「ビッグデータ」の3つのV能力を提供しつつ、データベースの成熟した運用能力も備えたオペレーショナルデータハブ(ODH)です。

データ戦略の一部としてMarkLogicの ODHを採り入れることで、セキュリティ、データガバナンス、運用面の成熟度はカバーされ、最新データ戦略に求められる俊敏性が損なわれることもありません。このアプローチの場合、これまで投資したHadoopをその能力以上に利用する必要もありません。

すでにHadoopへの投資がある場合、すべてが無駄になるわけではありません。ODHは、成熟したデータ戦略に必要なセキュリティや管理性など、すべてのコアエンタープライズ機能に加えて運用能力を提供することで、Hadoopエコシステムの価値を高めます。

Chief Content Strategist

Responsible for overall content strategy and developing integrated content delivery systems for MarkLogic. She is a former online executive with Gannett with astute business sense, a metaphorical communication style and no fear of technology. Diane has delivered speeches to global audiences on using technologies to transform business. She believes that regardless of industry or audience, "unless the content is highly relevant -- and perceived to be valuable by the individual or organization -- it is worthless." 

Start a discussion

Connect with the community

STACK OVERFLOW

EVENTS

GITHUB COMMUNITY

Most Recent

View All

Digital Acceleration Series: Powering MDM with MarkLogic

Our next event series covers key aspects of MDM including data integration, third-party data, data governance, and data security -- and how MarkLogic brings all of these elements together in one future-facing, agile MDM data hub.
Read Article

Of Data Warehouses, Data Marts, Data Lakes … and Data Hubs

New technology solutions arise in response to new business needs. Learn why a data hub platform makes the most sense for complex data.
Read Article

5 Key Findings from MarkLogic-Sponsored Financial Data Leaders Study

Financial institutions differ in their levels of maturity in managing and utilizing their enterprise data. To understand trends and winning strategies in getting the greatest value from this data, we recently co-sponsored a survey with the Financial Information Management WBR Insights research division.
Read Article
This website uses cookies.

By continuing to use this website you are giving consent to cookies being used in accordance with the MarkLogic Privacy Statement.