-
@ topickapp (IT技術系ニュースサイト)
2025-05-21 06:09:11https://zenn.dev/turing_motors/articles/37903518293c40 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 /巨大テキストデータをAWSで高速に処理するパイプライン 大規模な日本語画像テキストデータセットMOMIJIの構築に関する記事です。 AWS LambdaとStep Functionsを活用した高速なデータ処理パイプラインについて解説しています。 データセットの規模や構築プロセス、得られた知見などがまとめられています。