膨大なデータがストレージとデータベースの境界線を意図的に曖昧にする

見方によっては、データベースは高度なストレージシステムの一種であることも、ストレージはデータベースを縮小したものであることも考えられます。データベースとストレージが分離されている現実の世界では、確かにこの 2 つの間には継続的な連携が存在します。リレーショナルデータベースが、ファイルサービングとオブジェクトサービングのワークロードと同様に、ストレージシステムの作成をあらゆる面で推進し、まったく異なる方向に推進したことは疑いの余地がありません。

もしそのような選択をする必要がなかったらどうでしょうか？あなたのストレージが本物の、誠実な、誠実なデータベースだったらどうなるでしょうか? ネットワークファイルシステムをより適切に処理し、より複雑な (そしてあまり役に立たない) NoSQL やオブジェクトストアよりもはるかに大規模なオールフラッシュストレージクラスターの新興メーカーである Vast Data が、設立された瞬間からこれについて考えていたとしたらどうなるでしょうか。新しい種類の組み込みデータベースを駆動するために新しい種類のストレージを作成することは、常に計画されていたのでしょうか? AI が常に計画されており、HPC シミュレーションとモデリングがそれに伴って実現できるとしたらどうなるでしょうか?

さて、Vast Data Platform (現在このストレージとデータベースのハイブリッドと呼ばれています) は、常に計画されていました。そしてその計画は常に、2016 年初めに共同創設者である同社最高経営責任者 Renen Hallak、研究開発担当副社長の Shachar Fienblit、製品および製品担当副社長の Jeff Denworth によって考案されたユニバーサルストレージを超えたものでした。これはそれ自体が次のプラットフォームであるため、コンピューティングに関しても賢いことを行う必要があることを意味します。では、最終的には単に「Vast Platform」と呼ばれることになるのでしょうか? しかし、先走ってはいけません。

それではまた、なぜそうではないのでしょうか？ Vast Data の共同創設者は、はるか昔にそうしました。

「2015 年当時、私のピッチデッキには、おそらく 15 枚のスライドがあったデッキ全体に、ストレージに関するスライドが 1 枚ありました」と Hallak 氏は The Next Platform に語ります。「そのうちの 1 台にはストレージがあり、残りには、この AI 革命が実際に起こるべき方法で実現するために構築する必要のある他の部品がありました。 8年前、AIはYouTube動画の中の猫を猫として認識していました。現在の状況に近いものではありませんでした。しかし、今後 20 年間に IT 分野で何か大きなことが起こるとすれば、それは AI であることは明らかであり、私たちはその一員になりたいと考えていました。私たちはそれを先導したかったのです。私たちは、少数の非常に大きな組織に限定されそうなこの革命に、他の人も参加できるようにしたいと考えていました。そして私たちはそれが気に入らなかったのです。私たちはこのテクノロジーを民主化したいと考えています。」

そしてそれは、単にフラッシュをベースとした、非常にスケーラブルな次世代の NFS ファイルシステムとオブジェクトストレージシステムを作成するだけではありません。これは、スタック内のこれまで以上に高いレベルで思考し、AI アプリケーションをますます支えている自然界からの大規模なデータセットに対してデータストレージとデータベースの概念を統合することを意味します。

入力されるデータは、データベース内の行または列の限られた量のテキストと数値に制限されなくなりました。通常のリレーショナルデータベースを破壊するような、ビデオ、サウンド、ゲノミクスなどの高解像度データが含まれます。 AI ワークロードには、モデルを構築するための膨大な量のデータ、モデルのトレーニングを推進するための大量のパフォーマンス、そして場合によっては、モデルに入力される新しいデータに対して推論を実行するための膨大な量のコンピューティングが必要です。これらすべてが、ストレージシステムに情報を配信するという多大なプレッシャーを与えます。Vast Data の Universal Storage は、その下に非常にきめの細かい準オブジェクトストアを持つ、NFS の分散された共有すべての実装であり、処理できます。

「データはコンピューティングよりもはるかに重要です」とハラック氏は付け加えます。「大きくなって動き回るのが大変になりました。したがって、私たちがその AI 空間で遊ぶためには、データ部分だけに限定することはできません。私たちはデータがどのように編成されているかについて何かを知り、意見を持つ必要があります。それはトレードオフの解消に関するものであり、単なるストレージの問題ではありません。その単語ストレージを取り出して単語データベースに置いた場合も、同じ種類の課題が当てはまります。コスト、パフォーマンス、スケール、復元力、使いやすさ – これらはストレージに関する用語ではありません。これらは非常に一般的なコンピューターサイエンス用語です。」