流沙河鎮

情報技術系のこと書きます。

Apache Iceberg 1.5 アップデートまとめ

本記事ではIceberg 1.5のアップデート内容を紹介する。 記事内容はリリースノートと、各アップデートのPR、コードを基に作成した。 https://iceberg.apache.org/releases/

Fundamentals of data engineering 輪読会「Chapter 11.The Future of Data Engineering」まとめ

datatech-jpで開催中のFundamentals of Data Engineering (English Edition)読書会に向けた、「Chapter 11.The Future of Data Engineering」のまとめ。 以下は基本的には本文の要約であり、★マークがついている部分は私のコメントや付加情報である。 全体の…

Fundamentals of data engineering 輪読会「Chapter 10.Security and Privacy」まとめ

datatech-jpで開催中のFundamentals of Data Engineering (English Edition)読書会に向けた、「Chapter 10. Security and Privacy」のまとめ。 以下は基本的には本文の要約であり、★マークがついている部分は私のコメントや付加情報である。 セキュリティと…

J.P.Morgan Asset Managementのデータ分析 / MLプラットフォーム「AM IQ」についてのメモ

J.P.Morgan Asset ManagementのAWS re:Invent 2023での登壇「One data platform for reporting, analytics, and ML」の視聴メモ エントリ内の情報や図版は特に断りがない限り、youtube上の当該発表を基にしている www.youtube.com 概要 J.P.Morgan Asset Man…

Open AIを敢えて使わない、セルフホストなAI Chat Bot(RAG)の意義と作り方 〜スケーラビリティ/コスト最適化のアイデアを添えて〜

セルフホストなRAGアプリケーションを構築する意義と基本的なアプローチを紹介します。また、設計面での最適化についていくつかのアイデアを示します。

2023を短く振り返る

やってよかった ブログの再開 諸般の事情で中止していたブログを再開した。自分の書いた記事を色んな人に読んでもらえて嬉しかったし、ブログきっかけの交流も広がって大変良かった。記事が重厚長大になりがちで、数を出せなかったのは反省。来年は記事のス…

MagicAnimateで人物の画像から動画を作る方法

Bytedanceが発表した、人物の画像を元に動画を生成するモデル「MagicAnimate」を試したので知見を記しておく。 showlab.github.io 基本的にはオフィシャルのGetting Startedに従っておけば動くのだが、進めていて一部詰まる箇所があったので、誰かしらの役に…

Apache Iceberg Catalogの選択肢

この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の2日目の記事です。 Apache Icebergにおいて、Catalogはその根幹を担うコンポーネントだ。Icebergのreader,writerはCatalogによってテーブルを発見し、整合性を…

オープンなモデルをセルフホストする選択肢

ポエム回です Chat GPTのリリースから1年が経った。多くの人にとって縁遠い存在であったAI技術は今や世間の関心の的となり、孫正義をしてまだChatGPTを使ってない人は「人生を悔い改めた方がいい」とまで言わしめるほどだ。当初はその実務的な有用性に疑問を…

【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか?

この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに…

Apache Iceberg とは何か

はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Part…

世界最大級のオンラインゲーム企業Riot Gamesを支える日次70TB規模のデータ基盤のユースケース

データプラットフォーム界隈の人々がコミケに技術本を出展しているのを見て、自分でも何か書きたくなってきた。そこで、世界最大級のオンラインゲーム企業であるRiot Gamesのデータ基盤がどのようにプレイヤー体験を支えているかについて、2022 AWS re:Inven…

データレイクの新しいカタチ:Open Table Formatの紹介

はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg…

Spark 3.3前後でnull値を含むDataFrameをcsvに書き込む時の挙動が異なる

Sparkのバージョン上げる時にハマりそうな考慮点のメモ null値を含むDataFrameをCSVファイルを書き込む際、~Spark 3.2とSpark 3.3~で書き込まれる値が変わる。~Spark 3.2ではnullの項目は[""]=空文字としてcsvに書かれるのに対して、Spark 3.3~では[]=空…

EC2にPleromaの自分用インスタンス(Fediverseへのシーカーキャンプ)を建てた

Amazon EC2にPleromaの自分用インスタンスを建てたので簡単に手順をメモしておく そもそもPleromaとは? PleromaはFediverse / ActivityPubをサポートするElixir製のソフトウェアで、シンプルかつ軽量である点が特徴だ。 FAQによれば、50ユーザ未満程度の規…