大量の料理写真を完全フリーなライセンスで公開したい
by kogu
料理が好きです。うちの家族では私が料理担当で、日々の食事やイベント、お菓子や保存食など、ほとんど毎日何かしら楽しく料理しています。

料理の記録
多分始まりは妹たちの食事。母は嘱託から大学に転身した妙な人で、教授時代は帰宅した駐車場で眠りに落ちる多忙な生活でした。5人いた兄弟のうち私と妹ふたりが母の務める大学のある土地に移りましたが、自然妹たちの食事は私が準備するように。性に合ったのか以来ずっと、ほとんど毎日なにかしら料理しています。



いわゆる男のひとり暮らしの頃でも、誕生日ケーキを焼き、お節を揃えてお重に詰めたり。あるいは、母がカトリックでクリスマスには思い出が深く、子沢山の家庭で頑張ったクリスマス料理であろう鶏の丸焼きとコーンスープは、勝手に受け継いで今に至るまで20年以上欠かさずに作りつづけています。

妻とふたりの頃は、週末に好物でもてなすようだった内容も、娘が生まれてからは離乳食に始まる味覚探し。最近は大人と子供のメニューが混在するようになってきましたが、徐々に家族の味も生まれています。外食もしますが、かける費用で材料を買ってあれこれ作ることを考えると、どうしてもそちらが楽しくなり、遠出でもしない限りほぼ全て家での食事。ほとんど365日、何かしら料理しています。









食べる家族がおいしい楽しいはもちろんですが、自分が作って楽しいが強い
不思議なもので、どんなに疲れていても料理は面倒だと感じません。物理的に無理な日はともかく、それ以外で「今日は疲れてるから食べに行こう」と考えることもありません。面倒な下拵えも何もかも楽しい。飲食店でのこういった料理の経験はありませんが、バーをクビになった事を思い出すと、多分仕事としては無理でしょう。そして恐らく、他所の台所でもこれほど楽しくなさそうです。ただただ自分と家族に向けて、自宅で料理するのが性に合っていたようです。
そうした毎日の料理は雑な日記感覚で写真に残しています。たまにSNSに流したりもしますが、大部分は振り返ることも少ない日常の記録に過ぎません。そしてこの記録用の写真が、子供が産まれて以降のものだけでも1万枚以上に膨れ上がっています。
大量の写真
子供が産まれて丸6年、作るたびに写真で記録し始めたのはその4年前ぐらいだった気がします。仕事などで365日は作っていないとして、年間350日を10年で、品数は平均すれば3品かそこら。構図変えたりで品数の1.5倍程度。最近はもう一品ずつ撮らず全体で済ませることも多いですが、それでも2枚は撮っている。最低でも1万枚はあります。写真は全てGoogle Photoで管理しており、仕分けが面倒で正確な数字が出ませんが、どうも2万枚近くありそうです。イベント時などは大量に撮る場合もあるので、そうしたものが想像以上にあるのかもしれません。
撮影はiPhoneで済ませることが多いですが、コンデジを使う場合も。元のjpegで1枚1MB~3MB程度。仮にそのまま単純に保管するなら、ストレージは40GBほど必要です。
実際には単純な重複や、版権的に公開できないもの、個人情報の映り込んだものなど、除外できるものが多いでしょう。それでも5000枚の写真を公開するとなると、コストはやや不安です。また単に公開したのでは役立たない場合もあり、メタデータや解説も付けるとなると、そのフォーマットや方法も悩ましいです。

なぜ公開したいのか
見ての通り写真自体はキラキラ素敵なものではなく、ざっかけない家庭料理です。手軽なカメラにひどい照明で、たまにお菓子はきれいに撮ろうかという程度。到底素材集などとして使えるような代物ではありません。
そんな写真をなぜ公開したいのかといえば、恩返しというか、オープンなデータセットに貢献したいという考えからです。
私は生成AIを多用していて、その成立には大量の既存の表現が不可欠です。もちろんすでに著作権が失効し、パブリックドメインとなったデータも色々あります。しかしそれでは足りません。誰かの写真やイラストや文章やその他表現は、あればあるほど良いのです。特に、追加の権利処理が確実に不要な、完全にフリーなライセンスが適用された著作物は有用です。
もちろん生成AIだけでなく、その他にも画像の用途は色々あるでしょう。生成AIやそうしたシステムなどの恩恵を受ければ受けるほど、何かデータセットの面でも貢献したいなあと考えるようになりました。そしてせっかくなら、手元にすでに大量にあるデータで。
写真の質からいって、たとえばデータセットのLAION-Aestheticsに収録されるような写真はあまりないでしょう。それでも、ネガティブな例としたり、料理そのものの概念の学習や、文化的な資料の末端程度にはなるかもしれません。
何かを作って生きる以上、何もかもフリーに公開するのは難しいです。この記事だって著作権は放棄できません。しかしできれば、自分のみの権利の範疇で、食べていくのに困ることのない表現については、フリーな状態で世に返したいものです。

ライセンス
著作権の放棄というのは難しいものです。権利の範囲は広いですし、そもそも法の側が積極的な放棄についてカバーしていることは稀です。そこでCC0を用います。「パブリックドメインに置きます」と宣言するのに比べて、より積極的な意思表示であり、確認できるライセンス文も存在しています。
CC0を適用すれば、何に使っても自由です。生成AIが学習しようが、コラージュの材料にしようが、素材集に収録して売ろうが、プロパガンダや誹謗中傷の素材にしようが、とにかく自由です。

どう公開するのか
最大の悩みは公開方法です。CC0あるいはパブリックドメインに置かれた著作物を一元管理するような機関は存在しません。どこか預かってくれる団体や個人を見つけるか、自分でホストして公開するかしかありません。
提供先候補
たとえばWikipediaの運営元であるWikimedia財団は、Wikimedia Commonsという写真などの著作物の提供を受け付けているプロジェクトも運営しています。しかし自作画像・メディアを提供するにあるように、投稿されるデータはWikimedia財団のプロジェクトに貢献できるものであるべきです。雑多な家庭料理写真は恐らく該当しないでしょう。
Stable Diffusionなどでもそのデータセットが使用されているLAIONは、個人からの直接の提出を受け付けてはいないようです。収集してもらうには別途Webに写真を公開しておく必要があります。
パブリックドメインの素材を集めているようなサイトも色々とありますが、やはり写真素材としての価値の低い日記的な料理写真ではありがた迷惑でしょう。たとえライセンスとしてCC0が選択できて、何でも受け入れてくれるサービスがあったとしても、素材として魅力に乏しいものは消される可能性が十分にありそうです。根本の目的が異なっています。
現在写真の保管に利用しているGoogle Photoは、そもそもファイルを一般公開する目的には不適当です。またFlickrのような写真共有サービスも、枚数制限が追加されたりとやはり不安定です。


自力でホスティング? GitHub?
サーバーやクラウドストレージを借りて公開するのは一番避けたい方法です。CC0にする以上、私からその著作物は切り離され、たとえ私が死んでも影響がないのが望ましいです。
GitHubに公開状態で置いておくのは良さそうですが、GitHubの目的にそぐわない気もします。データセットそのものではないですし、大きな容量が問題となるかも知れません。
メタデータの提供
今回の料理写真の場合、画像データだけではその価値はさらに下がってしまいます。ぜめてどんな素材を使ったどんな料理かだけでもメタデータが付属しなければ、自動処理も非常に難しく、大半が「日本の家庭料理」ぐらいのタグ付けしかできないかもしれません。
アノテーションのフォーマットやツールも、これを使えば間違いないというものが、どうにも見えません。一定の様式を持てばどうせ変換は可能でしょうし、Microsfotの提供するものでも良いのかもしれませんが、すっきりしません。

データセットのためのCC0著作物の集積地が欲しい
これがこの記事の本題です。生成AIをめぐる衝突のひとつに、学習対象となるデータセットの権利があります。日本の著作権法が学習目的での利用に著作権の制限を認めているとは言え、確かにそこに大きな反発が存在しています。また日本のような攻めた法改正を行わず、フェアユースの範囲で処理しようとするなどといった対応を行う他の国では、更に反発はしこりとして残り続けるかもしれません。
そうならばいっそ、パブリックドメインとCC0が適用された表現を集積し、誰もがデータセットの構築に自由に使ったり、自由なデータセットを直接提供するような場が欲しいのです。一度そこに渡してしまえば、半永久的に人類に対しフリーなデータとして提供し続けてくれる、そんな場が。
問題は当然、資金です。LAIONのような方式よりはるかに金のかかりそうなものが、寄付ベースなどで安定するのは考えにくいです。こういう目的こそ、巨大すぎる企業でもなければ手出しできないでしょう。データセットを一番活用するであろうそうした企業が、誰もが自由に使えるCC0のみで構成される集積地を提供してくれると最高なんですが…。
何かいい方法あったらXのアカウントでぜひ教えてください。
関連
料理が好きです。うちの家族では私が料理担当で、日々の食事やイ…