Progress Acquires MarkLogic! Learn More
BLOG ARTICLE

Hadoop後の再グループ化

Back to blog
06.14.2016
0 minute read
Back to blog
06.14.2016
0 minute read
Image of hubs and spokes

データレイクとは、「ビッグデータ」とHadoopハイプサイクルから登場した用語です。データレイクの当初の概念は、多様かつ大量なエンタープライズデータを、データウェアハウスでもデータマートでも不可能だった方法で扱うというものでした。この新しい言葉は生まれて以来、業界のいたるところで使われるようになりました。その結果、市場全体に浸透し、すべての企業や組織がある種のデータレイクを持つ必要があるという前提が生まれることになりました。

一方、RDBMSの導入増の結果として生じたデータの種類の多さや、データサイロを扱うデータレイクのような存在のニーズが存在することからも、こうした論拠が正しいと考えることは可能です。

(同僚であるDamon Feldomanは、コンテンツを統一する3種類のアプローチを、データレイク、仮想データベース、データハブによって検証しています。SPOILER:ムーブメント、ハーモナイゼーション、インデックス化が主要な差別化要因です)

一方で、データレイクはHadoopエコシステムの同義語になりつつあります。その後多くの人々の憶測の結果、Hadoopだけあれば十分だと考えられるようになりました。かつてはMapReduceが主流でしたが、その後、Apache Sparkに地位を奪われ、このApache Sparkも現在ではConcordフレームワークに道を譲りつつあります (本ブログが投稿される時点では、ひょっとすると何か別のテクノロジーが「大流行」している可能性さえあります)。こうした激動に加えて、オープンソースの「Fit for Purpose(目的に適った)」テクノロジーの統合コストも存在します。

そして、不幸にも、これらすべてを行った結果、データレイクにHadoopを統合した多くの組織に仲間入りすることになりますが、この時点で、セキュリティとガバナンス、さらにソリューション自体の不足に気づくでしょう。


Hadoopはサイロを根絶していない

データレイクは、データサイロを最小化する手段と見なされた一方で、現実には、以下に示すような多くの理由から、そうした約束は果たされませんでした。

  • 物事の分析面(ビジネスの監視)のみに集中し、物事の運用面(ビジネスの運用)を考慮することはない
  • 複雑で変化するHadoopエコシステムへの依存性が、予想以上の統合コストをもたらす
  • セキュリティや運用管理などのエンタープライズ機能への「表面的な部分にばかり注目した」アプローチ

さらに、維持管理が面倒な技術的サイロが追加されたことで、問題がさらに増えてしまいました。言うまでもなく、データ出自を維持することは困難です。

Hadoopエコシステムは確かにソリューションではありますが、「Hadoop最優先」のメンタリティは見当違いであり、少なくとも不十分です。

Hadoopには優れた分析機能がありますが(それによって、ビジネスを監視が可能になる)、実際にビジネスを運営するとしたらどうでしょうか?MarkLogicのエンタープライズCTOであるケン・クルーパは、まさしくこの状況が多くの大手銀行で起こっていると言います。。「投資銀行の取引後処理に対する新しい規制が施行された場合、複数のソースシステムを持つ取引が影響を受けるでしょう」「その規制が取引のあらゆる業務ワークフローに関係している場合、このワークフローに適合させるためにそれぞれの下流システム(数十に及ぶ)を変更することはできません。業務運用能力がないエンタープライズ統合の場合、そうするほかありませんが、ほとんどの銀行はそれを歓迎しないでしょう」 エンタープライズ統合の時点で運用能力がない場合、それが唯一の選択肢となってしまいますが、ほとんどの銀行はそれを歓迎しないでしょう」

アーキテクチャとして、データレイクは今日のデータ統合上の課題の一部のみ解決しますが、それ自身、サイロのデータを統合するには不十分です。データ統合の分析上の課題に加えて、運用上の課題を完全に解決するには、Hadoop以上の存在が必要です。

その「存在」が、「ビッグデータ」の3つのV能力を提供しつつ、データベースの成熟した運用能力も備えたオペレーショナルデータハブ(ODH)です。

データ戦略の一部としてMarkLogicの ODHを採り入れることで、セキュリティ、データガバナンス、運用面の成熟度はカバーされ、最新データ戦略に求められる俊敏性が損なわれることもありません。このアプローチの場合、これまで投資したHadoopをその能力以上に利用する必要もありません。

すでにHadoopへの投資がある場合、すべてが無駄になるわけではありません。ODHは、成熟したデータ戦略に必要なセキュリティや管理性など、すべてのコアエンタープライズ機能に加えて運用能力を提供することで、Hadoopエコシステムの価値を高めます。

Diane Burley

Responsible for overall content strategy and developing integrated content delivery systems for MarkLogic. She is a former online executive with Gannett with astute business sense, a metaphorical communication style and no fear of technology. Diane has delivered speeches to global audiences on using technologies to transform business. She believes that regardless of industry or audience, "unless the content is highly relevant -- and perceived to be valuable by the individual or organization -- it is worthless." 

Read more by this author

Share this article

Read More

Related Posts

Like what you just read, here are a few more articles for you to check out or you can visit our blog overview page to see more.

Architect Insights

What Is a Data Platform – and Why Do You Need One?

A data platform lets you collect, process, analyze, and share data across systems of record, systems of engagement, and systems of insight.

All Blog Articles
Architect Insights

Unifying Data, Metadata, and Meaning

We’re all drowning in data. Keeping up with our data – and our understanding of it – requires using tools in new ways to unify data, metadata, and meaning.

All Blog Articles
Architect Insights

When a Knowledge Graph Isn’t Enough

A knowledge graph – a metadata structure sitting on a machine somewhere – has very interesting potential, but can’t do very much by itself. How do we put it to work?

All Blog Articles

Sign up for a Demo

Don’t waste time stitching together components. MarkLogic combines the power of a multi-model database, search, and semantic AI technology in a single platform with mastering, metadata management, government-grade security and more.

Request a Demo