Skip to main content

Snowflake Data Cloud Summit 2024 Summary

snow_summit

2024 念6月の3~6日 San Francisco でSnowflake Data Cloud Summit 2024が行おいました。主なトピックは AI と Polaris Catalog で、スターゲストが NVidia の CEO Jensen Huangでした。
この記事がその Data Cloud Summit をサマライズします。

AI

Snowflake Arctic

  • Arctic AI は Snowflake が自分で開発した AI モデルです
  • Open Source です
  • Snowflake によると Meta の Llama3 8B AI モデルよりもっと良いです

リンク

Universal Searchを使用すると、アカウント内のデータベース オブジェクト、Snowflake Marketplace で利用可能なデータ製品、関連する Snowflake ドキュメントのトピック、関連する Snowflake コミュニティ ナレッジ ベースの記事をすばやく簡単に見つけることが出来ます。

Universal Search は、クエリとデータベース オブジェクトに関する情報を理解し、検索語とは異なる名前のオブジェクトを見つけることができる。スペルを間違えたり、検索語の一部だけを入力したりした場合でも、役立つ結果が表示されます。

テーブルの列名によっても、Universal Search は結果を検索出来ます。列名、テーブルの行に書いたおりデータじゃないです。

Document AI

PDF, 絵、ビデオ、audio ファイルからデータを抽出出来る AI を Snowflake で使うようになりました。
リンク

Snowflake Copilot

  • SQl コードを書くに助けるAI アシスタントです
  • 普通の言葉を SQL コードに変わります: text-to-SQL

ML Functions

  • Snowflake でデータを予測する、異常検出、Classification (グルーップング)等を出来るML関数(モデル)が発表しました
  • この ML 関数を直接に使えない、この ML 関数を使って、自分の AI モデルを開発し、そして、開発した AI モデルを使えます。
    リンク

NVIDIA AI

  • AI を開発する為に使う NVIDIA NeMo Retriever と NVIDIA Triton Inference Server を Snowflake で使うようになりました
  • NeMo Retriever はチャットボット アプリケーションのパフォーマンスとスケーラビリティを向上します

Polaris Catalog

Snowflake で Apache Iceberg を使えるようになりました

  • Polaris Catalogは Apache Iceberg を利用出来るサービスです
  • Polaris Catalog は Open Source です
    データは Apache Iceberg に保存され、Polaris Catalog で Apache Iceberg に保存されているデータをクエリー、データを入力する等の事をします。
  • Apache Iceberg は Open Sourceので、Apache Iceberg に保存されているデータを Snowflake じゃなくて、他のサービスでも使えます
  • Apache Iceberg はテーブルのフォーマット(データが保存される方法とフォーマット)。
    テーブル・フォーマットの機能は、テーブルを構成するすべてのファイルをどのように管理、整理、追跡するかを決定することであります。
  • 元に Apache Hive に代わりに、Netflix が Iceberg を開発し、今は Apache Foundation が運用しています。
  • メリットは早くて、 効率的で信頼できます
  • 凄く大きなテーブルをサポート出来ます
  • SQL 言語を使えます
  • テーブルを(列を消す、列を追加する等)修正出来ます
  • データのバージョン管理: Apache Iceberg はデータのバージョン管理をサポートしており、ユーザーは時間経過に伴うデータの変更を追跡できる。これによりタイムトラベル機能が有効になり、ユーザーはデータの履歴バージョンにアクセスしてクエリを実行し、更新と削除の間のデータの変更を分析できます。
  • 似ているフォーマットのDelta Lake よりも Apachi Hudi よりも早いです
  • 今月(末)に Snowflake で Preview 出来ます
  • Microsoft Fabricも同じデータをアクセス出来、データをコピーする必要がないです

その他のアップデート

Snowflake Notebooks

  • Snowflake が Notebooks をサポートするようになりました
  • 同じページに SQL、Python と Markdown を書けます
  • Notebook で Streamlit も使えます

Snowflake Data Clean Rooms

  • データを権限管理を利用しながら、安全的に共有出来ます
  • Snowflake Data Clean Rooms に中で PII を消されり、データが匿名化されたデータになます
  • (Raw)詳細なデータを見なず、他の会社/相手のデータを分析出来る: Join, Group By, Count, Min, Max 等のクエリー

Coda で Snowflake のデータを使えるようになりました

Coda は Notion ようなウェブアプリケーションで、Coda でドクメントを作成することが出来、他の Gmail, Slack ようなアプリを導入し、Coda から使える事が出来ます。

CREATE OR ALTER TABLE and CREATE OR ALTER TASK

CREATE OR REPLACEような、CREATE OR ALTERコマンドがサポートされています (プレビュー)
もし、テーブルがあったら修正される、なかったら作成されます

Comments

Popular posts from this blog

脱初心者! Git ワークフローを理解して開発効率アップ

Git – チーム開発に必須のバージョン管理システムですが、その真価を発揮するにはワークフローの理解が欠かせません。 色々な人は Git の使い方を良く知っていますが、Git を仕事やワークフローに統合する方法を余り良く知らない人もいます。本記事では、Git をワークフローに組み込むことで、開発プロセスがどのように効率化され、チーム全体のパフォーマンスが向上するのかを解説します。Centralized Workflow から Forking Workflow まで、代表的な 9 つのワークフローの特徴を分かりやすく紹介します。それぞれのメリット・デメリット、そして最適なユースケースを理解することで、あなたのプロジェクトに最適なワークフローを選択し、開発をスムーズに進めましょう! Centralized Workflow Feature branching/GitHub Flow Trunk Based Flow Git Feature Flow Git Flow Enhanced Git Flow One Flow GitLab Flow Forking Workflow 分かりやすくするために、同じコンセプトを説明するに一つ以上の図を使った場合があります。 Centralized Workflow 説明: 集中化ワークフローではプロジェクトにおけるすべての変更の単一の入力箇所として中央リポジトリを使用します。デフォルトの開発用ブランチは main と呼ばれ、すべての変更がこのブランチにコミットされます。 集中化ワークフローでは main 以外のブランチは不要です。チームメンバー全員がひとつのブランチで作業し、変更を直接中央リポジトリにプッシュします。 メリット: SVN のような集中型バージョン管理システムから移行する小規模チームに最適。 デメリット: お互いのコードが邪魔になり (お互いの変更を上書きするように)、プロダクション環境にバグをい入れる可能性が高くて、複数のメンバいるチームでこのフローを使いにくい。 地図: graph TD; A[Central Repository] -->|Clone| B1[Developer A's Local Repo] A --...

From Generic to Genius: Fine-tuning LLMs for Superior Accuracy in Snowflake

TL;DR: Cortex Fine-tuning is a fully managed service that lets you fine-tune popular LLMs using your data, all within Snowflake. While large language models (LLMs) are revolutionizing various fields, their "out-of-the-box" capabilities might not always align perfectly with your specific needs. This is where the power of fine-tuning comes into play. As it will be explained in this article, this feature empowers you to take a base LLM and customize it to excel in your particular domain. Here's the brief summary of why you might want to leverage Snowflake's fine-tuning capabilities: Unlocking Domain Expertise : Pre-trained LLMs are trained on massive, general datasets. Fine-tuning allows you to build upon this foundation and train the LLM further using data specific to your field, such as legal documents, medical records, or financial data. This empowers the LLM to understand complex terminology and patterns unique to your domain, leading to more accurate a...

How Wendy’s Successfully Penetrated the Japanese Market After Long Struggles

Wendy’s had long struggled to penetrate the Japanese market. Initially the Daiei Group tried to bring Wendy’s to Japan but failed. The next owner of Wendy’s’ Japanese franchise, Zensho Holdings Co. also failed miserably. However, Japanese-American entrepreneur Ernest M. Higa seems to have managed to do the task. This article will discuss the challenges Wendy’s faced when entering the Japanese market, how Ernie Higa addressed those challenges, macro environmental factors that impacted the success of the brand in Japan, future threats the Japanese fast food market is facing , and potential solutions. The prior challenges that Wendy’s faced when they entered the Japanese market There is no one-size-fits-all formula in business, especially when Japan is involved in the conversation. According to Japanese-American entrepreneur Ernie Higa, even if a company has a good product and good pricing, penetrating the Japanese market is more difficult compared to the US’s market. Foreign e...