マルチモーダル学習を用いた かわいい空間の構築について

はじめに

みなさん, 初めまして. 記事が間に合わず最後まで執筆できませんでした. 今年中には追記しときます. 社会を呪います. (以下, 書き途中の内容までです)

私は17.03に工学院大 情報学部 を卒業して, 現在は老害の一人となった都内の大学院生です. 

専門は機械学習で, 音楽や画像などの推薦に関連した研究を行なっています.

趣味では, 過度に恋愛を欲して, 成分を補給するため恋愛(付き合うまでの過程を追う)漫画を中心に漫画をよく買って読んでいます.

俗にいう恋愛が話の主軸でない漫画の恋愛要素が好きです. 

阿久井 真 作の『青のオーケストラ』, 仲谷鳰 作の『やがて君になる』が最近のお気に入りです.


自己紹介はこれぐらいで, 今日 記事で書くのは題名にも示しましたが,

【マルチモーダル学習】を用いた【かわいい】空間の構築 について書きます.


TL;DR

猫や女の子, カバンに建築物, 無機物や有機物, 効果音から仕草, 性格まで,【かわいい】は様々なモーダル(モダリティ)によって存在してます.  

このような【かわいい】が付与されている画像や音, 言葉など別のモダリティを一つの空間に構築する手法の一つに【マルチモーダル学習】があります. 

人は一人一人 固有の【かわいい】が存在し, 固有の【かわいい】空間を持っていると考えます. この空間があるため,人は見たことない対象物に対して【かわいい】かどうかの判断を抱くことができると思います.

本記事では, マルチモーダル学習を用いて, 筆者の【かわいい】空間を構築して紹介します.

記事構成として前半は, 言葉および技術要素の概要を説明し, 後半では実際にその技術を用いて作成した"かわいい"空間の考察を行う予定です.


かわいい とは

可愛い, かわいい, kawaii と表記され, 辞書には 愛おしさ, 趣深さなど何らかの意味で「愛すべし」と感じられる場合に用いられる と記述されている.

 私たちは日常, 無意識にオブジェクトやアクションを見て聴いて感じて【かわいい】と感じる機会はないでしょうか? その全てが辞書に記述されているような, 愛おしさの一言で片付けていいのか? 疑問に思います.

愛おしさ と かわいい には互いが互いの部分集合だと解釈しています.

また【かわいい】の哲学的解釈については様々な議論がなされています.

その辺の話はまた今度. 今回は「かわいい」キャッチコピーを3つ取り上げてみます.


 「すべてが、かわいい。」「かわいさだけを、ブレンドしました。」のキャッチコピーがついたアニメ『ご注文はうさぎですか?』では【かわいい】を徹底的研究し, 素晴らしい作品を世に出してくれました. 11月には映画も上映され可愛いを観客に提供してくれました.


その『ご注文はうさぎですか?』の主演キャラの一人であるココアの声優: 佐倉綾音さんは映画のパンフレットでかわいいについて以下のように述べています.

「ごちうさ」に関わり初めてから常に提示されていた「かわいいとは何か」ということが、展開が続いて行くにつれて輪郭を帯びてきたと思います。私たちがいくら「かわいい」を追求しても、「かわいい」を受け取ってもらえる結果がなければいけないし、私たちの無意識の言動でも受け取る側の結果が「かわいい」であれば全部かわいいし.......。 だから「かわいい」って結果論だな、って。そんな感じで「かわいい」の概念に飲まれる日々が戻ってきています。

この文章で私が共感したのは, 「かわいい」って結果論だな という点です.

【かわいい】は受取手によって千差万別であり, 意図してもしなくても【かわいい】の決定は受取手が決定する. 


 「カワイイはつくれる」というキャッチフレーズを聞いたことがある人は多いと思います. 

この場合の「かわいいはつくれる」は自分にとっての【かわいい】が作れるって意味であって, その「かわいい」は他者にとって必ずしもカワイイとならない場合があります.

なので「かわいい」の評価は個人個人で異なり, かわいい度合いや基準も独立です.

また【かわいい】デザインを作ったりする際にはターゲットのカワイイ琴線を揺れさせるような【かわいい】を作らなければいけない.

前述した『ご注文はうさぎですか』は製作者一同が作った【かわいい】に対してターゲティングが指定した観客の大多数が【かわいい】を受け取れたと思っています.

言葉にできないけど可愛いの共感状態になるみたいなことだと思ってます.

そういう点で製作者にとって「かわいいはつくれる」であり, 私はニーズにあった【かわいい】はつくれる と思います. 万能な可愛いとは別問題ですが.


 「かわいいは正義」というキャッチフレーズも有名で聞いたことがある人も多いと思います. こちらは漫画 苺ましまろのキャッチコピーが元ネタです.

「かわいいは正義」であれば「かわいくないならば正義ではない」というわけではない. と思うんですけど, この辺りも考察されてますね. いくつか議論されているので是非読んで見てください. また「かわいいは正義」って言葉はよく女の子を対象に使われることが多いイメージがあります. 性格悪くてもかわいいならば🙆‍♂️という考えもこれに含まれる気がします.

つまり, 「かわいい」も「正義」も人によって解釈で意味がずれてしまいます.

ただ各個人のかわいいは

 

 有名なキャッチコピーやフレーズを例に【かわいい】について語りましたが【かわいい】とは非常に定義のし難い言葉であり, 人それぞれに特有の【かわいい】の境界線があると思っています. この【かわいい】の境界線, または【かわいい】空間を技術を使って可視化しようというのが今回の目標です. 


マルチモーダル学習 とは

ここからは今回【かわいい】空間を作るための技術手法とその用語に関する説明です.


人間は五感を用いて, 物体の概念を獲得している.  例えば, 雨という概念は, 「雨の匂い」や「濡れる現象」, 「雨音を聞く」などを知覚して雨と結びつけています.

一方, 従来の機械は「雨音」は波形データに置き換え, 数字列として扱い,「雨の風景」は画素データで構成されて, 数字列に置き換える. そのため, 数字列の関係は????となっていました.

従来は, 画像と音声においては意味的隔たりがとても大きかったです. この隔たりを狭める技術がマルチモーダル学習です.


機械がこれらのモダリティを扱うには一度そのモダリティを特徴量つまり数字に変換する必要があります. ただ数字に変換すれば良いわけではなく, そのモーダルに沿った特徴量を設計しなければいけません. そして設計した特徴量を用いて空間を構築します.

普通に特徴量を空間にマッピングしても, その空間に意味を見出すことは難しいです.

そこで, 今回は【かわいい】クラス同士のデータを近くに, 【かわいい】クラスと【かわいくない】クラスのデータを遠くにするように写像してあげるニューラルネットワークを設計します.  かわいいクラスが固まるようになると, 未知の画像に対して, その画像が【かわいい】かどうかを識別できるようになります. 


機械学習を勉強している人は, ただ「かわいい」か「かわいくないか」の分類器を作ればよくないですか? と思うはずです. この仕組みのメリットは入力画像のペアが"同じクラスか違うクラス"かという情報だけで良いことです. 

仕組みもすごく簡単です. 

まず, データから, 「かわいい」ペアと「かわいい」「かわいくない」ペアと「かわいくない」ペアを作ります.

次にネットワークにペア画像とペアのクラスが同じか異なるかという情報を入力します.

入力後, 二つのペアの特徴量とそのペアが同じか違うかの情報から損失関数:Contrastive lossを求めます. この損失関数を最小になるように学習していきます.

損失関数:Contrastive loss式のDwは二つの画像の特徴量のユークリッド距離であり, Y=[0,1]であり, ペアが同じならばY=0, 違うならばY=1となる.


この手法 実は画像以外にも使えますし, もちろん別のモーダルでも特徴量の次元数が同じであれば同じような学習を行うことができます.

その結果, 音声-文章-画像 空間 を構築することも可能です.



実験

今回は, 時間の都合上, 私にとっての[かわいい/かわいくない]の2値空間を作成してみます.

さらに, タイトルにマルチモーダルとつけておきながら, 今回はマルチモーダルではないです.. すいません...

また, 今回は手順の提示をメインにするため, データ数はかなり少ないです.

この実験を行い本格的に空間を作るには, あなたが思う【かわいい】画像, 音声, テキストと【かわいくない】画像, 音声, テキストが大量に必要になることに留意してください.


結果

はい, 間に合いませんでした!

本当は, このあと自分の可愛い空間と他人の可愛い空間を作成して, その空間上の可愛い画像の可視化と共通点のみつけかたの話とかをしたかったので年末に続きは書きます.

言いたいことは, 個人が思うかわいい空間は違うけど, その空間の積が共通のかわいいと思う空間であり, かわいいを作る創造神は無意識に多くの人の可愛い空間の重なる箇所に位置する【かわいい】を作ってくるから尊敬して止まないです.

かわいいって偉大だ


おわりに

今回は筆者の【かわいい】空間を設計しました.

展望として, 個人個人のかわいい空間を形成することができれば, 個人個人ではなくその上位である人の属性ごとのかわいい空間を構築できると考えます. 属性ごとの可愛い空間を構築できれば, 創造者や製作者は属性に転移した【かわいい】を作れるし, 人に贈り物をするときには, その人, 個人や属性のもつ【かわいい】空間にマッチした贈り物を送ることも容易になるのではないかと妄想しています.


【かわいい】の表記も代表的なのだけでも(かわいい, カワイイ, 可愛い)があると思いますがみなさんはどの【かわいい】派ですか?

私は【かわいい】派です.  

0コメント

  • 1000 / 1000

MyPlace

褪せるだけの色で飾りたくはない 積み上げた自己嫌悪