Gartner Cloud DBMS Report Names MarkLogic a Visionary

データハブ5.0およびMarkLogic 10のリリース – 機械学習機能を新たに搭載

当社はMarkLogic Worldにおいて、両製品の最新リリースであるデータハブ5.0およびMarkLogic 10の概要を発表しました。この2製品のリリースは、エンタープライズ全体にわたる複雑なデータ統合をシンプルにするという当社のビジョンにおいて記念すべきマイルストーンとなります。

当社のフラッグシップ製品であるMarkLogicデータハブプラットフォームは、MarkLogic®マルチモデルデータベース上で稼働するMarkLogicデータハブを含んだフルスタックサービスです。データの読み込みとキュレーション、およびセキュリティとガバナンスの適用などの目的に利用できるほか、分析および業務関連のユースケースに必要なすべてのデータにすばやくアクセスできる統合プラットフォームです。新機能を活用することで、これらの主要な分野すべてを劇的に改善し、さらにスマートかつシンプルで安全なデータハブを実現することが可能になります。

1:MarkLogicデータハブプラットフォームの機能分野ごとの製品に関する主な発表内容

新リリースには多数の新機能が盛り込まれているため、MarkLogic World 19で行われた製品の基調講演での発表と同じく、新リリースの主なポイントを以下にまとめました。

MarkLogic機械学習

分析、BI、機械学習機能のいずれを使用する場合でも、ベストな結果を引き出すには、すべてのデータにアクセスでき、それらが高品質な状態に保たれていなければなりません。機械学習からベストな結果を引き出せるようにすることは、データ統合とキュレーションの分野でMarkLogicを業界最高のソリューションに育て上げるという当社のモチベーションにおいて、大きな比重を占めています。以下で説明するように、当社はこの分野への投資を継続的に行っていますが、目指すゴールはそこにはなく、さらにその先の遙か遠くを見据えています。

当社が目指しているのは、機械学習をシステム内部で利用して、主要機能をさらにスマート化して、機能の自動化を推し進めることです。これが達成されれば、ディープラーニングやニューラルネットワークのエキスパートでなくても機械学習のさまざまな恩恵を受けることが可能になるはずです。

そしてもちろん、エキスパートにとっても大いにメリットが生まれるでしょう。今回新たに導入される組み込み機械学習機能により、必要な作業(モデルのトレーニングと実行の両方)をデータベース環境の中心で行えるようになりました。

当社は今後、組み込み機械学習機能を活用して以下のような自動化を推し進めることで、データ管理およびデータ統合のエクスペリエンスをさまざまな面からより強化していくことを計画しています。

  • データベースの動作 – MarkLogic内部で組み込み機械学習機能を利用してクエリの実行効率を高め、ワークロードのパターンに基づいて弾力的な拡張の調整を自動化することを計画しています。弾力的な拡張の調整が自動化されれば、例えば、インフラストラクチャのワークロードパターンのモデルを使用して、データとインデックスのリバランスを制御するルールの調整も自動化することが可能となります。
  • データキュレーションの方法 – 組み込み機械学習機能を使用すると、データキュレーションにおけるさまざまなステップの複雑さが軽減され、より高度な自動化が可能になります。例えば、MarkLogicのSmart Mastering機能においては、ルールベースのマスタリングプロセスを機械学習が補うことでレコードマスタリングの正確性が向上し、処理対象データが増加するにつれてモデルが継続的に改善されます。しかも、これらすべての処理において人間による作業は少なくなります。また、組み込み機械学習機能によって推奨されたマッピング、マスタリング、セキュリティ戦略をデータに適用することもできます。PIIの識別やテキストからのエンティティの抽出を機械学習で支援することによりモデルはさらに改善され、セキュリティもさらに高まります。

データサイエンティストのスピードアップとセキュリティの強化

データサイエンティストにとって大きなメリットの1つは、データベースの内部で機械学習を直接実行できることです。そのため、データキュレーションプロセスに直接関与してトレーニングデータセットを作成し、モデルの評価やチューニングを行い、それらのモデルを適用して結果を入手することができます。また、枝分かれしたデータのコピーを使用するのではなく、データベースの内側で機械学習が直接実行されるため、組織全体の作業効率とセキュリティが向上します。

MarkLogicの組み込み機械学習機能はMarkLogic 10に標準で搭載されています。データベースカーネル内で安全かつ効率的にディープラーニングを実行するために必要なAPIもすべてあらかじめ用意されています。

NoSQLデータベースのさらなるセキュリティ強化

MarkLogicは、市場で最も安全なNoSQLデータベースです。MarkLogicはコモンクライテリアセキュリティ認証を取得している唯一の次世代データベースであり、業界最高レベルのきめ細かなセキュリティ制御が可能です。

MarkLogicの最新リリースでは、出自トラッキングが自動化され、SAML 2.0が新たにサポートされ、ロールベースのアクセス制御(RBAC)機能も継続的に強化されているため、企業が求めるセキュリティを確保することができます。他の製品ではセキュリティに対する責任がスタックで引き継がれていくのに対し、MarkLogicはデータが存在する場所、つまりデータのすぐ側でデータセキュリティを確保します。

より粒度が細かくなったロール

各ユーザーがシステム内で表示できるコンテンツや実行できる操作はロールに基づいて制御されるため、それらのロールを簡単に作成して管理できることがきわめて重要になります。そのため、データハブ5.0では、基盤となるデータベースに以前から組み込まれていた制御設定を大幅に拡張した、粒度の細かいさまざまな制御設定を利用できます。新しい制御設定では、データハブ専用のロールと責任範囲が事前に設定されているため、ユーザーの権限やパーミッションを適正に管理することができます。これらの制御設定を使用し、データハブで開発を行えば、管理が容易になるだけでなく、セキュリティも向上します。また、当然のことながら、これらの制御設定はMarkLogicデータハブサービスでも利用されるため、クラウドのセキュリティもさらに強化されます。

自動化された出自トラッキング

データの妥当性に関する規制当局からの質問に答えるには、それぞれのデータがどこから来たものであり(出自)、どのような道筋を辿って処理されたのか(リニアージュ)を把握しておく必要があります。以降、説明を簡略化するため、このような情報をすべて出自メタデータと呼びます。従来のツールが抱えていた問題は、このようなメタデータが複雑なETLコードの中に紛れ込んでいて、それらがまったくトラッキングされていなかったり、高度な技術的知識を持つユーザーにしかアクセスできなかったりするために、出自メタデータが失われてしまっていたことでした。

柔軟なマルチモデル方式を採用しているMarkLogicはすでに、出自メタデータを管理するためのプラットフォームとして各方面から高い評価を受けています。多くの銀行で取引データの追跡にMarkLogicが利用され、政府機関で諜報の管理にMarkLogicが利用されているのは、そのためです。

データハブ5.0は、出自トラッキングを自動化することで、さらに重要な一歩を踏み出しました。データハブでは、読み込み、マッピング、マスタリング処理に関連する出自情報が自動的にトラッキングされます。そのため、追加の処理を行わなくても、データの品質が改善されます。また、詳しい技術的知識を持たないユーザーでもこれらの情報に簡単にアクセスできるようになるため、開発者の手を借りなくても、ガバナンス情報を確認してビジネス上の問題に自ら答えを出せるようになります。

データハブでトラッキングされる出自メタデータの例を以下にご紹介します。

  • そのデータはいつ作成されたのか?:キュレーションの対象となったすべてのデータのトランザクションIDとタイムスタンプがトラッキングされます。
  • そのデータはどこで生成されたのか?:ハーモナイズされたエンティティがオーケストレーションフローのどこで作成されたのかがトラッキングされます。
  • ソースデータはどのように変更されたか?:プロセス全体で、ソースデータがどのように変更されたかがトラッキングされます。
  • どのユーザーがそのデータを変更したか?:ユーザーのロールとパーミッションに基づいて、どのユーザーがそのデータを変更したのかがトラッキングされます。

SAML 2.0のサポート

MarkLogic 10より、Security Assertion Markup Language 2.0(SAML 2.0)が新たにサポートされたことで、シングルサインオン(SSO)が可能になりましたこの機能強化は、ユーザー名とパスワードの取り扱いに関してさまざまなメリットをもたらします。たとえば、認証情報を入力したり、パスワードを覚えたり、パスワードを更新したり、脆弱なパスワードに対処したりする必要がなくなります。ほとんどの組織ではActive Directoryドメインやイントラネットを通じてユーザーの身元がすでに確認されているため、そのログイン情報を再利用することで、安全に他のアプリケーションを使用できるというアイディアがこの機能強化のベースとなりました。MarkLogicはPing IdentityやOne Loginなどのアイデンティティプロバイダとやり取りする際にSAML 2.0を使用します。

また、SAML 2.0をサポートするために、MarkLogicでは、REST、Java API、Node.js APIを介してアクセスできるブラウザベースの認証済みトークンが使用されます。

Thales HSM向けの暗号化サポート

多くの大企業はすでに鍵管理技術への投資を行っていて、それらの資産をMarkLogicと組み合わせて利用したいと考えています。MarkLogic 9でさまざまな鍵管理システムとやり取りするための機能が導入されたのに加え、MarkLogic 10では、ThalesのnCipher nShield Connect HSM(ハードウェア方式のセキュリティアプライアンス)も新たにサポートされ、Windows、Linux両方のプラットフォームで、保存データの暗号化にこのアプライアンスが利用されます。

この新機能により、当社がお客様に提供する鍵管理の選択肢はさらに広がりました。もちろん、MarkLogicの内部キーストアを使用することも可能です。

Thales nCipher nShield Connectがサポートされるようになったことは、クラウドへの移行を進めている政府機関にとって特に興味深い朗報です。このような機関の多くは、Thales HSMでサポートされているPKCS #11を使用する必要があるからです。PKCS #11は世界中で最も幅広く採用されている暗号規格の1つです。この規格の仕様では、認証情報を保存および制御する暗号トークンの処理に、プラットフォームに依存しないAPIを使用することが規定されています。もちろん、その他の業界でもPKCS #11とMarkLogicを組み合わせることにより、きわめて強固なセキュリティを実現することができます。

データフローオーケストレーションによるキュレーションの簡易化

データフローオーケストレーションとは、その名が示すように、読み込みから使用に至るまで、システム内でデータフローのオーケストレーションを行い、情報がスムーズに流れるようにすることを意味します。データハブ5.0では、カスタマイズ可能なローコード/ノーコード(LCNC)のデータオーケストレーションフローが追加され、エンドユーザーがデータソースを簡単にマッピングできるようになっているほか、マッチングの実行やデータフロープロセスのマージも簡単に行えます。

この新機能により、データアーキテクトやビジネスアナリストは、コードを1行も書かずに、事前構成済みの設定に基づいてデータハブをより簡単に利用することができます。

MarkLogic Data Hub 5 - data flow orchestration

2:データハブ5.0でのデータフローオーケストレーションのスナップショット

仕組みについて

データフローは、データハブのユーザーインターフェイスから、一連のステップとして設定することができます。ステップには次の4種類があります。

  • 読み込み:追加のメタデータを使用してデータをラップできます。MarkLogicは重要なガバナンスデータを自動的に取得しますが、ビジネス上の説明、意味的な関連性、データのクオリティ、ソースシステムなどの情報に関連する追加のメタデータも追加しておくことをお勧めします。これらの作業は、このステップで行います。
  • マッピング:ソースデータのフィールドをハーモナイズされたエンティティモデルのフィールドに関連付けることができます。例えば、ソースデータで「fname」というフィールドが使用されているものの、エンティティモデルでは「first name」が使用されている場合は、2つをマッピングすることでハーモナイズフローを実行できます。
  • マスタリング:このステップを実行すると、すべてのレコードの中で一致する可能性があるものがないかがチェックされ、設定した条件に基づいてそれらがマージされます。データハブ5.0以降では、ユーザーインターフェイスにSmart Masteringが完全に統合され、UIからの設定が可能なため、カスタムコードを記述する必要はありません。
  • カスタム:データフローを完全に制御したいと考えている上級ユーザーは、きめ細かい設定が可能なカスタムコードモジュールをいつでも実行できます。

フローを設定して実行すると、実行時刻やデータベースにコミットされたレコードの数など、各ジョブのステータスが表示されます。

Smart Mastering – MDMへの最新鋭のアプローチ

データハブのSmart Mastering機能は非常に強力なステップであり、これを使用することでMDMをデータハブから直接実行できます。

MarkLogic Smart Mastering as step in data flow orchestration

3:データフローオーケストレーションプロセスにおける別ステップとしてのSmart Mastering

マスタリングフローを作成する際の最初のステップは、マッチングオプションとしきい値の設定です。

マッチングオプションとは、2つ以上のレコードが一致しているかどうかを判断するためのルールです。マッチングしきい値では、一致する可能性があるレコードが見つかった場合にどう処理するかを指定します。例えば、しきい値を超えた場合に自動マージをトリガーしたり、通知を送信したりすることができます。

MarkLogic Smart Mastering UI - match options and thresholds

4:マッチングオプションとしきい値の追加や管理はUIで簡単に実行可能

マッチングオプションを設定した後は、一致する複数のレコードをどのようにマージするかを決定するマージオプションを設定します。

データハブでは、マージが発生すると新しいレコードが作成されます。ただし、(他のMDMシステムと違って)このプロセスによってデータが破壊されることはありません。データハブでは、古いレコードのみがアーカイブされるため、新しい情報が出現した場合はレコードのマージを簡単に解除できます。これはMarkLogicにしかない独特の機能です。

Smart Masteringについて詳しくは、当社が未来に向けて最初の一歩を踏み出した際の発表資料をご覧ください。

データサービスによるアクセスの改善

MarkLogicのデータサービスは、MarkLogicを既存のエンタープライズ環境に統合するための、新しい便利な方法です。データサービスは、MarkLogicで管理されているデータに対する、パフォーマンスとセキュリティに優れた固定のインターフェースであるため、アプリケーションを利用するように使用できます。

データサービスの最大のメリットは、開発のスピードアップです。これを実現するため、データサービスでは、データの保存に関する詳細情報がカプセル化されており、ビジネスの言葉でアクセスできるようになっています。つまり、データサービスを利用すれば、ビジネスバリューと実装に関する懸念を切り離すことができます。

データサービスはプロセスの改善に役立つだけでなく、通信トラフィックを最小限に抑えられるため、RESTやODBCなどの従来型インターフェイスに比べて、パフォーマンスを劇的に改善することができます。また、データサービスのモニタリングと管理には新しいRequest Monitoring機能を利用でき、パフォーマンスや安定性をきめ細かく制御できます。

Request Monitoring機能

新しいRequest Monitoring機能を使用すると、リクエストの実行中にどの指標を収集するかなど、リクエストに関連する情報のロギングを設定できます。開発者は、サーバー、エンドポイント、またはデータサービスのレベルでモニタリングを有効にして、どのようなイベントや指標をログに記録するかをきめ細かく制御できます。このようにきめ細かい調整が可能なため、ロギングを過剰に使用している場合に発生しやすい「シグナルオーバーロード」の危険を冒さずに、アプリケーションの稼働状況を従来より詳しく把握することができます。また、開発者の場合は、指標のモニタリングと取得に加え、ユーザーエクスペリエンスやSLAに影響を及ぼす可能性があるリクエストをキャンセルすることもできます。

新しいコネクタ – MuleSoftおよびPower BI

当然のことながら、データハブを構築する際には、データハブと外部システムの間でデータをやり取り必要があります。MarkLogicは先日、ここまでに説明した機能に加え、MuleSoft向けMarkLogicコネクタ(データ読み込み用)およびPower BI向けMarkLogicコネクタ(データアクセスおよび分析用)の追加を発表しました。

その名前が示唆するように、「データハブ」は通常、特定用途に特化したツールを含む大規模なエンタープライズアーキテクチャの「ハブ」となります。そのためMarkLogicでは、業界標準を採用し、主要な業界ツール向けのコネクタを作成することで、大規模なアーキテクチャとシームレスに統合できるようにデータハブの構築を進めています。

Hadoop向けMarkLogicコネクタ

MarkLogicは先日、MuleSoftとの技術提携を発表しました。この提携の第1段階は、MuleSoft公認のMuleSoft向けMarkLogicコネクタのリリースです。

MuleSoftのAnypoint Platformは、オンプレミスとクラウドの両方にわたるアプリケーション、データ、およびデバイスで構成されるアプリケーションネットワークを作成するAPI-led Connectivityの分野において業界をリードするソリューションです。MuleSoft向けのMarkLogicコネクタを利用すれば、Anypointコネクタの豊かなエコシステムを活用してさまざまなソースからMarkLogicデータハブにデータを読み込むことができます。

MuleSoft向けMarkLogicコネクタはGitHubで公開されているオープンソースであり、ご興味をお持ちの場合は今すぐ試すことができます。

Power BI向けMarkLogicコネクタ

Power BIは業界をリードするMicrosoftのビジネスインテリジェンスツールであり、ガートナーのマジッククアドラントの「分析およびビジネスインテリジェンス」部門で12年連続「リーダー」の評価を獲得しています。

MarkLogicはこのたび、Power BI向けMarkLogicコネクタのリリースを発表いたします。このコネクタはPower BIのDirectQuery機能を利用して、データベースにSQLクエリを直接プッシュすることにより、MarkLogicデータハブで管理されているデータへのアクセス、分析、さらには更新も可能なライブ接続を確立します。マルチモデルデータベースおよびドキュメントデータベースでDirectQueryを使用する製品は、MarkLogicが業界で初となります。

Power BI向けMarkLogicコネクタは、当社とMicrosoftのパートナーシップを物語るだけでなく、SQLとPower BIをこよなく愛するエンタープライズ開発者やビジネスアナリストのコミュニティを積極的にサポートしてきた成果でもあり、データにまつわる複雑な課題の解決に向けたイノベーションに取り組む姿勢を示すものでもあります。

次のステップ

これまでご紹介したように、MarkLogicデータハブプラットフォームでは、すべての分野にわたって多数の新機能が追加されました。

  • 組み込み機械学習機能
  • セキュリティの強化:
    • より粒度が細かくなったロール
    • 自動化された出自トラッキング
    • SAML 2.0
    • サードパーティKMS向けの新しいオプション
  • 従来よりシンプルになったキュレーション
  • 新しいコネクタ:
    • MuleSoft向けコネクタ
    • Power BI向けコネクタ

しかし、上記は今回追加された新機能の一部にすぎません。

最近リニューアルされた開発者用サイトより、当社のニュースレター(米国)に登録してこれらすべての機能のリリース時期に関する最新情報を入手していただくことができます。技術的な詳細につきましては、データハブのリリースノートをご覧ください。

 

Joe Pasqua - Executive Vice President, Products | MarkLogic

Joe Pasqua brings over three decades of experience as both an engineer and a leader. He has personally contributed to several game changing initiatives including the first personal computer at Xerox, the rise of RDBMS in the early days of Oracle, and the desktop publishing revolution at Adobe. In addition to his individual contributions, Joe has been a leader at companies ranging from small startups to the Fortune 500.

Most recently, Joe established Neustar Labs which is responsible for creating strategies, technologies, and services that enable entirely new markets. Prior to that, Joe held a number of leadership roles at Symantec and Veritas Software including VP of Strategy, VP of Global Research, and CTO of the $2B Data Center Management business.

Joe’s technical interests include system software, knowledge representation, and rights management. He has over 10 issued patents with others pending. Joe earned simultaneous Bachelor of Science Degrees in Computer Science and Mathematics from California Polytechnic State University San Luis Obispo where he is a member of the Computer Science Advisory Board.

Start a discussion

Connect with the community

STACK OVERFLOW

EVENTS

GITHUB COMMUNITY

Most Recent

View All

Multi-Model: The Next Step In Database Technology?

Does your database just store multiple data types, or can it also serve them back to the business with agility and flexibility? Get some tips on things to consider when evaluating multi-model database technologies.
Read Article

What Makes Complex Data Different

How do you know when you have complex data, and why is it important? Industry veteran Chuck Hollis explains.
Read Article

Standardizing Internal Data Models on FHIR

Learn about MarkLogic's work on a FHIR-based standardized data model to support persisted payer data for our Medicaid Accelerators.
Read Article
This website uses cookies.

By continuing to use this website you are giving consent to cookies being used in accordance with the MarkLogic Privacy Statement.