Gartner Cloud DBMS Report Names MarkLogic a Visionary
| July 1, 2021

多構造化データは、ライフサイエンスにおける重要なビジネス課題の解決に役立つ新しい知見をもたらすため、大きな期待が寄せられています。しかしこの期待を現実のものとするには、データ戦略としてペタバイト級の臨床/規制/リアルワールドデータを結びつけることで、臨床の問題を解決する必要があります。ここでメタデータが必要となります。

メタデータとは何か

メタデータとは単なる「データに関するデータ」です。これは情報リソースについて記述し、説明し、場所を示すことで、その発見を楽にするようなデータです。これには、構造に関するもの(「どこに含まれているのか」)、説明的なもの(「このドキュメントの著者はだれか」)、管理に関するもの(「ファイルのタイプは何か」)があります。メタデータは、データをハーモナイズし、リンクし、コンテキストを提供する接着剤のようなものです。昔ながらの図書館カード目録(デューイ十進分類法に基づく)を使って本を探したことがある人は、実はメタデータを使っていたことになります(デジタルではないメタデータですが)。


メタデータの利点

ライフサイエンス企業では、データ戦略においてメタデータ管理を優先した場合、3つの大きなアドバンテージが得られます。

  1. メタデータにより、既存のコンテンツやリソースを再利用できます。ライフサイエンス企業では、大量のコンテンツを管理しています。定期的な安全性報告書や科学研究、また臨床検査プロトコルや規制コンプライアンス書類など、さまざまな種類のコンテンツがあります。メタデータは、主要アセットの属性プロファイリングを促進します。これにより、例えば過去に臨床検査で使ったインフォームドコンセントの文言を再利用できます。特にリアルワールドエビデンスのレポジトリを拡大しているライフサイエンス企業では、リアルワールドデータを簡単にプロファイリングし、製品ライフサイクルにおいて最もインパクトが大きいタイミングで再利用できます。
  2. メタデータにより、さまざまな業務部門からのデータ抽出がシンプルになります。メタデータにより主要属性(著者/日付/ファイルタイプなど)をカタログ化することで、現在のタスクに関係する属性に基づいてアセットを検索・抽出できます。例えば、ライフサイエンス企業における主要な規制課題の1つとして、医薬品の特定があります(IDMP)。ここで、正確な報告書を作成するためには国際標準化機構(ISO)の4つのドメインに対して、製品IDをハーモナイズ(対応付け)する必要があります。メタデータを使うことで、複数のソースシステムに散在する関連データを抽出してISOドメインに準拠させる作業が楽になります。
  3. メタデータを使って、異なるタイプの大量のコンテンツのトラッキングを強化できます。あるコンテンツの主要属性(提出日など)を知っていれば、コンテンツ自体がなくてもその動きをトラッキングできます。ライフサイエンス企業は、リアルタイムのステータスアップデートが必要な複雑な処理を定期的に実行しています(規制承認提出書類のチェック/複数部門による報告のドラフト作成/臨床検査手続きのモニタリングなど)。トラッキングをリアルタイムアラートと組み合わせることでワークフローを合理化でき、長期にわたる不必要なリソースの浪費を削減できます。

検索やセマンティックがないとメタデータの活用は困難

メタデータの価値を最大化するデータ戦略とは、専門的な言葉を使わないで説明すると、「探しているものを簡単に見つけられるようにする」ということにつきます。一方、専門的な言葉で説明すると、最初にデータをシャーディングしなくても、強力な検索インデックスを使って複雑なクエリを実行できるということです。これらのインデックスにより、格納されたデータとメタデータの両方を対象とする検索エンジン機能がデータ戦略にもたらされます。

例えば、ある特定の薬に関して「患者アドヒアランス」(ちゃんと服薬しているかどうか)を研究する際に、リアルワールドエビデンスを抽出する必要があるとします。さまざまなソースシステムにあるデータやメタデータを検索することで、服薬しない主な原因を抽出できます。また、「特定の患者グループにおいて、他よりも強い副作用が見られるのかどうか」「治療プロトコルを、『1日1錠から2錠へ』あるいは『注射から服薬』へ変えることは可能なのか」「特定のヘルスプランにおいて、この医薬品の費用分担は大き過ぎるのか」といった問いを扱うことができます。

さらに、自分の探していたものを発見できるだけでなく、点と点を楽に結びつけられるといいでしょう。これは専門用語では、「セマンティック」と呼ばれます。セマンティックデータ(「トリプル」)とは、関連するエンティティ(人/場所/モノ)をリンクして関係性を表現したものです。データ戦略を確実なものにするには、トリプルをネイティブに格納して、データおよびメタデータに関する価値あるコンテキストを提供できる必要があります。セマンティックトリプルを活用することで、創薬をはじめとする主要な業務プロセスにおいて、探索/分類/分析などを促進できます。

まとめると、ライフサイエンス企業は、「データ戦略の立案時にメタデータ管理を優先すべき」だということです。結局のところ、大量のナレッジが含まれている古くからの図書館カード目録も、デューイ十進分類法がなければ活用は困難なのですから。

This website uses cookies.

By continuing to use this website you are giving consent to cookies being used in accordance with the MarkLogic Privacy Statement.