コーディングやってる場合じゃねぇ

機械学習とコーディングと備忘録

【学会】人工知能学会2020 2日目

人工知能学会2020の2日目聴講まとめ.

www.ai-gakkai.or.jp

大会論文集はこのページに
https://www.ai-gakkai.or.jp/jsai2020/proceedings

今日は世界モデルのセッションが3つあったためこちらを積極的に聴講
他は業務に関連しそうな研究を適宜セッション変更して聴講した

深層生成モデルのエネルギ―関数を用いた補助情報に基づく条件付き確率修復

[どんなもの?]

  • 補助情報から現状の認識と予測を修正できることを利用し,画像復元に対し適用する手法の提案

[先行研究と比べてどこがすごい?]

  • 課題
    ・画像に比べると補助情報(単語やラベルなど)の情報量が小さい
    ・どのように補助情報を画像復元に利用すればよいか
  • 関連研究
    ・Deep Image Prior:世界についての事前知識を学習によって獲得しているわけではない,各事例でDNNを学習するところが難点
    ・Source Separation with Deep Generative Priors:画像の劣化仮定を固定している.各事例でDNNが必要
    ・Iterative energy-based projection on a normal data manifold for anomaly localization:補助情報を使用していない
  • 提案手法:劣化データ画像とラベルを条件とした神の画像の条件付分布からサンプリングするという再解釈に基づく画像補完方法

[手法の肝は?]

  • (ステップ1)モデルをデータにより最尤学習,(ステップ2)学習したモデルから条件付分布を求めてサンプリング
  • 直接のサンプリングは困難であるためその分布に対するエネルギ―関数から画像xに対して反復的に更新
  • 局所マスキング[Dahaene+ 20]の方法を利用

[どうやって有効性を示した?]

  • MNISTデータセットを活用,画像を欠損させたもの(ブラインド)や2つの画像を合成したもの(混合画像)を使用.ラベル情報を補助情報とした
  • 比較手法は補助情報VAEによる画像の再構成と[Dahaene+ 20]による反復サンプリング手法,補助情報としてCVAEを利用したもの
  • 評価指標はPSNRとAcc.

[議論はある?]

  • ブラインドに対する修復はどの部分が欠損しているかわからないため全体的に薄くなっているとのこと(修復が完全ではない).
  • 混合画像の修復は,例えば5の一部を1の一部と判断してしまい消してしまうところがある
  • 課題
    -入力空間における反復サンプリングが必要なため,高解像度で収束が遅くなること
    -必要な反復回数が多いこと
    -画像や補助情報が複雑な場合うまく復元できない

[メモ]

  • 複数の種類の情報を用いる世界モデルがある(五感や言語情報[Shi+ 19])
  • ヒント(補助情報)を頼りに自身の認識・予測の更新が行える
  • 世界モデルが言語と画像の間に強い結びつきを持っているという仮定
  • 人は過去の経験と補助情報に基づいて無意識化で現状の認識や予測を修正している

[所感]

  • 複数のヒントを与えるといったことができるのか,可能である場合,より精度が向上するのか
  • 間違ったヒントを与えるとどうなるのか

産業用ドローンシステムへ世界モデルの応用に関する一検討

[どんなもの?]

  • 3次元シミュレータ環境を利用し,一人称視点の画像入力を用いたドローンのナビゲーションタスクにおける世界モデルの有効性を検証

[先行研究と比べてどこがすごい?]

  • 3次元における世界モデルの検証

[手法の肝は?]

  • 検証としてはセグメンテーションを行った抽象度の高いMask画像も追加することで精度の向上が見られる

[どうやって有効性を示した?]

  • Unreal Engineベースのシミュレータを活用
  • フロア一周で報酬,ラインからのずれによる負の値与える
  • 世界モデルのアーキテクチャは基本[Ha+ 2018]と同じとしているが,VAEのlossに関してKLdivergence側にパラメータβを追加
  • Mask画像なしのDepth画像のみの場合,精度が非常に悪い(train, testで無相関)
  • Mask画像ありの場合,大幅な精度向上

[議論はある?]

  • 抽象度の高い情報をモデルが扱えるように世界モデルのアーキテクチャを改変することで性能が向上する可能性を示唆とのこと.

[メモ]

  • [Ha+ 2018]の世界モデルでは環境の時空間パターンを低次元に圧縮した形式で保持する世界モデル.

[所感]

  • 実運用する際,毎回Mask情報を得るために前処理としてリアルタイムにセグメンテーションをするのか

生産工程における不良要因検知

[どんなもの?]

  • 不良品が生じた際に,生産工程のどの部品由来なのかを把握する手法

[先行研究と比べてどこがすごい?]

  • 前提として設計シミュレータを利用した非観測の生産工程データの推測とする
    (検査で得られた品質?項目から原因となる特徴量を推定する品質予測の逆問題と認識)
  • 既存手法
    Naiveな方法として近似ベイズ計算がある
  • 課題
    シミュレータは一つの製品に関するシミュレートであり,量産工程そのものをシミュレートではない(バッチで考える必要アリという認識)
    それにより近似ベイズ計算で分布間の距離が測れない(yの分布に対し,f(y|x)の分布がデルタ関数になる)
    また閾値を設定する統計量が必要

  • 提案手法:シミュレーションを事前に多数行い,そのデータにより密度比推定を用いた非観測データの推定と不良要因判断

[手法の肝は?]

  • ある一つの変数xd以外については一様分布としてシミュレータを回しデータを取得
  • 不良データの密度比推定に基づき,アクセプト数で異常要因を検知

[どうやって有効性を示した?]

  • 数値実験によるアルゴリズムの性質を調査
  • 実データによる解析,現場との検証結果の一致を確認

[議論はある?]

  • 特になし

[メモ]

  • 今回は一つずつ独立に異常が起きると仮定
  • 密度比推定で使用したサンプル数は500程度

[所感]

  • 不良要因を発見した際にそのxの範囲までは判定可能か
  • オンラインでできるだけ上流工程で事前に不良が出やすそうな部品を判定し,抜き取りチェックは可能か

Posterior Collapseの情報識別可能性による解釈と条件付き相互情報量最大化を用いた対策

[どんなもの?]

  • グラフィカルモデルによる大域表現学習の欠点の分析
  • 大域変数が十分な情報を獲得する正則化手法の提案

[先行研究と比べてどこがすごい?]

  • 既存手法
    Posterior Collapse(潜在変数が無情報になる問題)
    Disentangled Sequential Auto-encoderでは局所変数が大域情報を持つことができてしまい大域変数が無情報に
    よくある正則化:xとzの相互情報量最大化
    既存の正則化手法:β-VAE[Alemi+ 2018]
    相互情報量最大化だけでは大域情報だけが大域変数zに入ることを保証できない(zがすべての情報を持ったら最大化するため)
  • 提案手法
    I(x: z|s)の最大化による正則化を行う(sは局所変数,zは大域変数)※要件としてzが無情報になるのを防ぐことと,zが余剰な情報を獲得することを防ぐ

[手法の肝は?]

  • 直接I(x: z|s)を推定することは困難なため表現を修正
  • 敵対的学習により学習
  • 相互情報量最大化しつつ,大域変数と局所変数の条件付確率を小さくするようにしている

[どうやって有効性を示した?]

  • Disentangled Sequential Auto-encoderで音声データから話者情報ベクトルとして抽出し,
    同一話者かをcosine類似度を元に認識するタスクを設定.equal error rate(EER)で評価
  • Fashion-MNISTデータから画像ラベルの教師なし学習を行い,正解率を評価

[議論はある?]

  • 相互情報量が大きくなりすぎると精度が下がる傾向あり,
    これは大域情報zが冗長な局所情報を持ち始めると精度がさがるためとのこと

[メモ]

[所感]

  • 特になし

グラフと近傍グラフの確率的同時埋め込みを用いたマルチモーダル関連性データの可視化

[どんなもの?]

  • マルチモーダル関連性データを低次元へ可視化する手法(MR-SNE)の提案

[先行研究と比べてどこがすごい?]

  • 既存研究
    t-SNE:ドメイン内の近傍情報を保存し,効率的に可視化.
    ただし,ドメイン間の関係は扱えないためマルチモーダル関連データは可視化できない
    グラフ埋め込み(CDMCA, PMvGE):ドメイン間の関連性を保存した埋め込み表現. ただし,ドメイン内の関連性は扱うことができない

提案手法: t-SNEを拡張し,マルチモーダル関連性データを可視化する手法の提案

[手法の肝は?]

  • ドメイン内の近傍グラフとドメイン間のグラフ構造を表現し,マルチモーダルグラフを作成
  • 任意に初期化された低次元ベクトルから同時確率を定義し,要素間の確率分布のコスト関数をKL divergenceを用いて定義
    コスト関数が小さくなるように低次元ベクトルを更新

[どうやって有効性を示した?]

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • 特になし

オフラインデータを利用したモデルベース強化学習

[どんなもの?]

[先行研究と比べてどこがすごい?]

  • 課題
    データセットの分布と実環境で方策を実行した際にデータ分布が異なり,性能を失うことあり(ex:外挿エラー[Fujimoto+ 2019])
  • 既存手法
    BCQ[Fujimoto+ 2019]:推定した挙動方策から一定範囲内に方策出力を制限
    BRAC[Wu+ 2019]:推定した挙動方策からKL divergenceで行動価値にペナルティ付与
  • 問題点
    大規模なデータセットでしか性能の検証が行われていない.手法を適用する際のデータ収集コスト大
    データセットが小さいと学習が不安定,結果としてデータセットから得られる以上の性能を超えられない
  • 提案手法
    モデルベースのオフライン強化学習手法
    より小さいオフラインデータによる方策改善が可能

[手法の肝は?]

  • ダイナミクスモデルのアンサンブルを行い,モデルの不確実性に対処
  • BC(Behavior Cloning)による初期化と信頼領域の制約付き方策更新

[どうやって有効性を示した?]

  • 物理シミュレータMoJoCoを用いた実験(データセットの作成)
  • 小規模データ(既存手法の5%程度のデータ数)では既存手法(BC,BCQ, BRAC等)は不安定だったが提案手法は安定

[議論はある?]

  • 信頼領域制約付き最適化ステップで使用するステップサイズδが大きいほど少ない更新回数で高い性能だが学習が不安定になるトレードオフあり
  • モデルの不確実性の推定を方策の学習に陽に活用できるのではないかとのこと
  • 共通するダイナミクスを持つ複数のタスクから学習可能ではないかとのこと
  • 世界モデルとしてすでに集まったオフラインの経験から世界モデルを学習することも有効そうであるとのこと.
  • 他者の経験を有効活用することが有用な可能性ありとのこと

[メモ]

  • オフライン強化学習:固定データセットから方策の改善を行う強化学習(方策の更新時に環境との相互作用を仮定しない)
  • 実環境での方策の探索が難しい問題での強化学習の利用時に有効

[所感]

  • 特になし

未知語に対応可能な言語と動作の統合表現獲得モデル

[どんなもの?]

  • 動作の意味に応じた単語表現を獲得し,未知語に対しても正しい動作を生成可能とする手法の提案

[先行研究と比べてどこがすごい?]

  • 既存手法
    二つのRecurrent Autoencoderにより言語と動作の中間表現を近づける[Yamada+ 2018]:動作に結びついていない単語については対応できない
    類義語による同じ動作の生成:1単語による指示であり,分散表現は対義語にも似た表現を与えるため,意図した結果にならず
  • 提案手法
    事前学習済みの分散表現を非線形層で変換し,動作と言語のRAEへ

[手法の肝は?]

  • 非線形層で分散表現を意味によって差異化(後ろの動作と言語のところからバックプロパゲーションされる形?)
    ※例えば動作にではslowとfastという単語は全く違う対義語なのだが,分散表現上ではどちらも速度に関するもので近いので
    それを非線形層で再変換しているといった認識

[どうやって有効性を示した?]

  • ロボットによる2色のキューブに対する言語・動作生成の実験を行い評価
  • 動作→言語の生成は成功数が平均17.8/18通りで良好
  • 言語→動作については未知語の含まれる方によらず,間接角度(動作)が生成可能に
  • DTW(Dynamic Time Warping)による言語→動作の評価:非線形層がありの場合のほうが良い結果に

[議論はある?]

  • 特になし

[メモ]

  • 言語的には近いが動作の観点では真逆の事柄について何とかしたいといったモチベーション

[所感]

  • 特になし