当社はMarkLogic Worldにおいて、両製品の最新リリースであるデータハブ5.0およびMarkLogic 10の概要を発表しました。この2製品のリリースは、エンタープライズ全体にわたる複雑なデータ統合をシンプルにするという当社のビジョンにおいて記念すべきマイルストーンとなります。
当社のフラッグシップ製品であるMarkLogicデータハブプラットフォームは、MarkLogic®マルチモデルデータベース上で稼働するMarkLogicデータハブを含んだフルスタックサービスです。データの読み込みとキュレーション、およびセキュリティとガバナンスの適用などの目的に利用できるほか、分析および業務関連のユースケースに必要なすべてのデータにすばやくアクセスできる統合プラットフォームです。新機能を活用することで、これらの主要な分野すべてを劇的に改善し、さらにスマートかつシンプルで安全なデータハブを実現することが可能になります。
図1:MarkLogicデータハブプラットフォームの機能分野ごとの製品に関する主な発表内容
新リリースには多数の新機能が盛り込まれているため、MarkLogic World 19で行われた製品の基調講演での発表と同じく、新リリースの主なポイントを以下にまとめました。
分析、BI、機械学習機能のいずれを使用する場合でも、ベストな結果を引き出すには、すべてのデータにアクセスでき、それらが高品質な状態に保たれていなければなりません。機械学習からベストな結果を引き出せるようにすることは、データ統合とキュレーションの分野でMarkLogicを業界最高のソリューションに育て上げるという当社のモチベーションにおいて、大きな比重を占めています。以下で説明するように、当社はこの分野への投資を継続的に行っていますが、目指すゴールはそこにはなく、さらにその先の遙か遠くを見据えています。
当社が目指しているのは、機械学習をシステム内部で利用して、主要機能をさらにスマート化して、機能の自動化を推し進めることです。これが達成されれば、ディープラーニングやニューラルネットワークのエキスパートでなくても機械学習のさまざまな恩恵を受けることが可能になるはずです。
そしてもちろん、エキスパートにとっても大いにメリットが生まれるでしょう。今回新たに導入される組み込み機械学習機能により、必要な作業(モデルのトレーニングと実行の両方)をデータベース環境の中心で行えるようになりました。
当社は今後、組み込み機械学習機能を活用して以下のような自動化を推し進めることで、データ管理およびデータ統合のエクスペリエンスをさまざまな面からより強化していくことを計画しています。
データサイエンティストにとって大きなメリットの1つは、データベースの内部で機械学習を直接実行できることです。そのため、データキュレーションプロセスに直接関与してトレーニングデータセットを作成し、モデルの評価やチューニングを行い、それらのモデルを適用して結果を入手することができます。また、枝分かれしたデータのコピーを使用するのではなく、データベースの内側で機械学習が直接実行されるため、組織全体の作業効率とセキュリティが向上します。
MarkLogicの組み込み機械学習機能はMarkLogic 10に標準で搭載されています。データベースカーネル内で安全かつ効率的にディープラーニングを実行するために必要なAPIもすべてあらかじめ用意されています。
MarkLogicは、市場で最も安全なNoSQLデータベースです。MarkLogicはコモンクライテリアセキュリティ認証を取得している唯一の次世代データベースであり、業界最高レベルのきめ細かなセキュリティ制御が可能です。
MarkLogicの最新リリースでは、出自トラッキングが自動化され、SAML 2.0が新たにサポートされ、ロールベースのアクセス制御(RBAC)機能も継続的に強化されているため、企業が求めるセキュリティを確保することができます。他の製品ではセキュリティに対する責任がスタックで引き継がれていくのに対し、MarkLogicはデータが存在する場所、つまりデータのすぐ側でデータセキュリティを確保します。
各ユーザーがシステム内で表示できるコンテンツや実行できる操作はロールに基づいて制御されるため、それらのロールを簡単に作成して管理できることがきわめて重要になります。そのため、データハブ5.0では、基盤となるデータベースに以前から組み込まれていた制御設定を大幅に拡張した、粒度の細かいさまざまな制御設定を利用できます。新しい制御設定では、データハブ専用のロールと責任範囲が事前に設定されているため、ユーザーの権限やパーミッションを適正に管理することができます。これらの制御設定を使用し、データハブで開発を行えば、管理が容易になるだけでなく、セキュリティも向上します。また、当然のことながら、これらの制御設定はMarkLogicデータハブサービスでも利用されるため、クラウドのセキュリティもさらに強化されます。
データの妥当性に関する規制当局からの質問に答えるには、それぞれのデータがどこから来たものであり(出自)、どのような道筋を辿って処理されたのか(リニアージュ)を把握しておく必要があります。以降、説明を簡略化するため、このような情報をすべて出自メタデータと呼びます。従来のツールが抱えていた問題は、このようなメタデータが複雑なETLコードの中に紛れ込んでいて、それらがまったくトラッキングされていなかったり、高度な技術的知識を持つユーザーにしかアクセスできなかったりするために、出自メタデータが失われてしまっていたことでした。
柔軟なマルチモデル方式を採用しているMarkLogicはすでに、出自メタデータを管理するためのプラットフォームとして各方面から高い評価を受けています。多くの銀行で取引データの追跡にMarkLogicが利用され、政府機関で諜報の管理にMarkLogicが利用されているのは、そのためです。
データハブ5.0は、出自トラッキングを自動化することで、さらに重要な一歩を踏み出しました。データハブでは、読み込み、マッピング、マスタリング処理に関連する出自情報が自動的にトラッキングされます。そのため、追加の処理を行わなくても、データの品質が改善されます。また、詳しい技術的知識を持たないユーザーでもこれらの情報に簡単にアクセスできるようになるため、開発者の手を借りなくても、ガバナンス情報を確認してビジネス上の問題に自ら答えを出せるようになります。
データハブでトラッキングされる出自メタデータの例を以下にご紹介します。
MarkLogic 10より、Security Assertion Markup Language 2.0(SAML 2.0)が新たにサポートされたことで、シングルサインオン(SSO)が可能になりましたこの機能強化は、ユーザー名とパスワードの取り扱いに関してさまざまなメリットをもたらします。たとえば、認証情報を入力したり、パスワードを覚えたり、パスワードを更新したり、脆弱なパスワードに対処したりする必要がなくなります。ほとんどの組織ではActive Directoryドメインやイントラネットを通じてユーザーの身元がすでに確認されているため、そのログイン情報を再利用することで、安全に他のアプリケーションを使用できるというアイディアがこの機能強化のベースとなりました。MarkLogicはPing IdentityやOne Loginなどのアイデンティティプロバイダとやり取りする際にSAML 2.0を使用します。
また、SAML 2.0をサポートするために、MarkLogicでは、REST、Java API、Node.js APIを介してアクセスできるブラウザベースの認証済みトークンが使用されます。
多くの大企業はすでに鍵管理技術への投資を行っていて、それらの資産をMarkLogicと組み合わせて利用したいと考えています。MarkLogic 9でさまざまな鍵管理システムとやり取りするための機能が導入されたのに加え、MarkLogic 10では、ThalesのnCipher nShield Connect HSM(ハードウェア方式のセキュリティアプライアンス)も新たにサポートされ、Windows、Linux両方のプラットフォームで、保存データの暗号化にこのアプライアンスが利用されます。
この新機能により、当社がお客様に提供する鍵管理の選択肢はさらに広がりました。もちろん、MarkLogicの内部キーストアを使用することも可能です。
Thales nCipher nShield Connectがサポートされるようになったことは、クラウドへの移行を進めている政府機関にとって特に興味深い朗報です。このような機関の多くは、Thales HSMでサポートされているPKCS #11を使用する必要があるからです。PKCS #11は世界中で最も幅広く採用されている暗号規格の1つです。この規格の仕様では、認証情報を保存および制御する暗号トークンの処理に、プラットフォームに依存しないAPIを使用することが規定されています。もちろん、その他の業界でもPKCS #11とMarkLogicを組み合わせることにより、きわめて強固なセキュリティを実現することができます。
データフローオーケストレーションとは、その名が示すように、読み込みから使用に至るまで、システム内でデータフローのオーケストレーションを行い、情報がスムーズに流れるようにすることを意味します。データハブ5.0では、カスタマイズ可能なローコード/ノーコード(LCNC)のデータオーケストレーションフローが追加され、エンドユーザーがデータソースを簡単にマッピングできるようになっているほか、マッチングの実行やデータフロープロセスのマージも簡単に行えます。
この新機能により、データアーキテクトやビジネスアナリストは、コードを1行も書かずに、事前構成済みの設定に基づいてデータハブをより簡単に利用することができます。
図2:データハブ5.0でのデータフローオーケストレーションのスナップショット
仕組みについて
データフローは、データハブのユーザーインターフェイスから、一連のステップとして設定することができます。ステップには次の4種類があります。
フローを設定して実行すると、実行時刻やデータベースにコミットされたレコードの数など、各ジョブのステータスが表示されます。
データハブのSmart Mastering機能は非常に強力なステップであり、これを使用することでMDMをデータハブから直接実行できます。
図3:データフローオーケストレーションプロセスにおける別ステップとしてのSmart Mastering
マスタリングフローを作成する際の最初のステップは、マッチングオプションとしきい値の設定です。
マッチングオプションとは、2つ以上のレコードが一致しているかどうかを判断するためのルールです。マッチングしきい値では、一致する可能性があるレコードが見つかった場合にどう処理するかを指定します。例えば、しきい値を超えた場合に自動マージをトリガーしたり、通知を送信したりすることができます。
図4:マッチングオプションとしきい値の追加や管理はUIで簡単に実行可能
マッチングオプションを設定した後は、一致する複数のレコードをどのようにマージするかを決定するマージオプションを設定します。
データハブでは、マージが発生すると新しいレコードが作成されます。ただし、(他のMDMシステムと違って)このプロセスによってデータが破壊されることはありません。データハブでは、古いレコードのみがアーカイブされるため、新しい情報が出現した場合はレコードのマージを簡単に解除できます。これはMarkLogicにしかない独特の機能です。
Smart Masteringについて詳しくは、当社が未来に向けて最初の一歩を踏み出した際の発表資料をご覧ください。
MarkLogicのデータサービスは、MarkLogicを既存のエンタープライズ環境に統合するための、新しい便利な方法です。データサービスは、MarkLogicで管理されているデータに対する、パフォーマンスとセキュリティに優れた固定のインターフェースであるため、アプリケーションを利用するように使用できます。
データサービスの最大のメリットは、開発のスピードアップです。これを実現するため、データサービスでは、データの保存に関する詳細情報がカプセル化されており、ビジネスの言葉でアクセスできるようになっています。つまり、データサービスを利用すれば、ビジネスバリューと実装に関する懸念を切り離すことができます。
データサービスはプロセスの改善に役立つだけでなく、通信トラフィックを最小限に抑えられるため、RESTやODBCなどの従来型インターフェイスに比べて、パフォーマンスを劇的に改善することができます。また、データサービスのモニタリングと管理には新しいRequest Monitoring機能を利用でき、パフォーマンスや安定性をきめ細かく制御できます。
新しいRequest Monitoring機能を使用すると、リクエストの実行中にどの指標を収集するかなど、リクエストに関連する情報のロギングを設定できます。開発者は、サーバー、エンドポイント、またはデータサービスのレベルでモニタリングを有効にして、どのようなイベントや指標をログに記録するかをきめ細かく制御できます。このようにきめ細かい調整が可能なため、ロギングを過剰に使用している場合に発生しやすい「シグナルオーバーロード」の危険を冒さずに、アプリケーションの稼働状況を従来より詳しく把握することができます。また、開発者の場合は、指標のモニタリングと取得に加え、ユーザーエクスペリエンスやSLAに影響を及ぼす可能性があるリクエストをキャンセルすることもできます。
当然のことながら、データハブを構築する際には、データハブと外部システムの間でデータをやり取り必要があります。MarkLogicは先日、ここまでに説明した機能に加え、MuleSoft向けMarkLogicコネクタ(データ読み込み用)およびPower BI向けMarkLogicコネクタ(データアクセスおよび分析用)の追加を発表しました。
その名前が示唆するように、「データハブ」は通常、特定用途に特化したツールを含む大規模なエンタープライズアーキテクチャの「ハブ」となります。そのためMarkLogicでは、業界標準を採用し、主要な業界ツール向けのコネクタを作成することで、大規模なアーキテクチャとシームレスに統合できるようにデータハブの構築を進めています。
MarkLogicは先日、MuleSoftとの技術提携を発表しました。この提携の第1段階は、MuleSoft公認のMuleSoft向けMarkLogicコネクタのリリースです。
MuleSoftのAnypoint Platformは、オンプレミスとクラウドの両方にわたるアプリケーション、データ、およびデバイスで構成されるアプリケーションネットワークを作成するAPI-led Connectivityの分野において業界をリードするソリューションです。MuleSoft向けのMarkLogicコネクタを利用すれば、Anypointコネクタの豊かなエコシステムを活用してさまざまなソースからMarkLogicデータハブにデータを読み込むことができます。
MuleSoft向けMarkLogicコネクタはGitHubで公開されているオープンソースであり、ご興味をお持ちの場合は今すぐ試すことができます。
Power BIは業界をリードするMicrosoftのビジネスインテリジェンスツールであり、ガートナーのマジッククアドラントの「分析およびビジネスインテリジェンス」部門で12年連続「リーダー」の評価を獲得しています。
MarkLogicはこのたび、Power BI向けMarkLogicコネクタのリリースを発表いたします。このコネクタはPower BIのDirectQuery機能を利用して、データベースにSQLクエリを直接プッシュすることにより、MarkLogicデータハブで管理されているデータへのアクセス、分析、さらには更新も可能なライブ接続を確立します。マルチモデルデータベースおよびドキュメントデータベースでDirectQueryを使用する製品は、MarkLogicが業界で初となります。
Power BI向けMarkLogicコネクタは、当社とMicrosoftのパートナーシップを物語るだけでなく、SQLとPower BIをこよなく愛するエンタープライズ開発者やビジネスアナリストのコミュニティを積極的にサポートしてきた成果でもあり、データにまつわる複雑な課題の解決に向けたイノベーションに取り組む姿勢を示すものでもあります。
これまでご紹介したように、MarkLogicデータハブプラットフォームでは、すべての分野にわたって多数の新機能が追加されました。
しかし、上記は今回追加された新機能の一部にすぎません。
最近リニューアルされた開発者用サイトより、当社のニュースレター(米国)に登録してこれらすべての機能のリリース時期に関する最新情報を入手していただくことができます。技術的な詳細につきましては、データハブのリリースノートをご覧ください。
Like what you just read, here are a few more articles for you to check out or you can visit our blog overview page to see more.
Get info on recent and upcoming product updates from John Snelson, head of the MarkLogic product architecture team.
The MarkLogic Kafka Connector makes it easy to move data between the two systems, without the need for custom code.
MarkLogic 11 introduces support for GraphQL queries that run against views in your MarkLogic database. Customers interested in or already using GraphQL can now securely query MarkLogic via this increasingly popular query language.
Don’t waste time stitching together components. MarkLogic combines the power of a multi-model database, search, and semantic AI technology in a single platform with mastering, metadata management, government-grade security and more.
Request a Demo