コーディングやってる場合じゃねぇ

機械学習とコーディングと備忘録

【学会】人工知能学会2020 1日目

本日から開催している人工知能学会2020に参加している.

www.ai-gakkai.or.jp

大会論文集はこのページに
https://www.ai-gakkai.or.jp/jsai2020/proceedings

残念ながら昨年度はAI系の部署ではなかったので
本学会で発表することはできなかったものの,
新部署では聴講だけでも学会参加ぜんぜんOKなので聴講しました.

今回はオンライン開催ということでzoomで建てられた
部屋に入って発表者の報告を聞くスタイル.
自席のモニタにでかくパワポがでるので
いつもより発表がわかりやすく感じる.

またオンラインなので部屋の移動が楽です. セッション1つにずっと参加し,聴講というのではなく
聞きたい研究内容のあるセッションを回りまくりました.

オフラインだと部屋の移動でかなり疲れそうですが,
オンラインのおかげでサクサク移動することができました.

オンライン開催による所感はこの辺にして
さっそく1日目に聴講した内容(13報告)を記載.

h3タグで各報告のタイトルを記載し,内容については
githubのtil(today I learned)で論文紹介している形式(いわゆる落合形式)で記載.
聴講しながら書いたメモなので間違えていたら教えてください.
あと議論とメモ,所感については自分の主観が入っているのであしからず

実社会現象の確率モデリングによる社会問題解決の試み

[どんなもの?]

  • 実社会で得られるビックデータを持続的に収集するための技術的枠組み,事例について報告
  • society5.0を実現する社会においてAI技術として確率モデルを活用したアプローチを提案

[先行研究と比べてどこがすごい?]

  • 従来,経験と勘によりある社会的課題に対し解決手段を提案していたが,その手段で得られた対策が結果に結びつかないことが多々あり
  • 提案手法では計量可能なKGIに対し,確率的構造モデルにより,目的と原因を表現する確率的潜在意味構造モデルを提案

[手法の肝は?]

  • PLSAとBayesian Networkを融合したモデリング
  • 実証としてPOSEIDON-N1と呼ばれる実証フィールド,タスクセットを開発.
  • 実際の現場を制御(アクションにより行動変容につなげるという意味)する現場支援技術を展開
  • 時間,空間,現象をPLSAにより縮約,その後,確率モデル構築のために離散化,Bayesian Networkを構築し,生成モデルとしてシミュレーションに使用

[どうやって有効性を示した?]

  • 実案件(児童相談所における行動シミュレーション等)で活用

[議論はある?]

  • 構築したモデルとそれを用いたシステムを使用することで行動変容につながるかがカギ

[メモ]

  • 現状はネット上のデータ使用が多,今後実社会系のビッグデータが多くなる
  • 実社会系では時間,場所,人などの異質性,時空間高解像度が特徴

[所感]

  • 自分自身が研究とその実適用化に関する仕事をしているので苦労がよくわかる(行動変容の部分)

傾向スコアを用いた商品・顧客層別の広告効果分析

[どんなもの?]

  • コモディティ化されている市場に対し,広告接触量に対する広告効果を計測するために
    顧客クラスを分類し,傾向スコア分析を実施,コモディティ市場に対する示唆を得た

[先行研究と比べてどこがすごい?]

  • コモディティ化された市場について広告効果の検証があまりされていないとのこと.
  • コモディティ化を行う際もデータに基づく戦略立案があまりされていないとのこと.

[手法の肝は?]

  • 潜在クラス分析による顧客のクラス分類を行い,共変量選択をし, その後,傾向スコアによる
    効果検証を行った.

[どうやって有効性を示した?]

[議論はある?]

  • 特になし

[メモ]

  • 自社製品に類似する商品開発をすることによる多様化を進めると
    製品間の差が小さくなりコモディティ化を促進してしまう[Moon 10]

[所感]

  • アフターサービスを重視する消費価値観が優位と書かれていたが,
    茶系飲料界におけるアフターサービスとは何だろうか・・・?
  • 傾向スコアにより脱コモディティ化を行える顧客クラスは把握できたが,
    実際どのような広告を打ち出すかによって変わるのではないだろうか

深層マルチモーダルニューラルネットワークを対象とした勾配ベースの構造探索

[どんなもの?]

  • マルチモーダル系列データ用NN向けにDARTS(Differentiable Architecture Search)を拡張する手法の提案

[先行研究と比べてどこがすごい?]

  • 既存手法DARTSは勾配ベースでありユニモーダルしか扱えない.
  • 既存手法MFAS(Multimodal Fusion Architecture Search)はマルチモーダルであるものの系列性がない
  • 提案手法ではマルチモーダルを扱えて,かつ系列性ありの勾配ベースの手法である

[手法の肝は?]

  • 構造決定部分のパラメータと各NNの重み等の連続最適化として定式化
  • ノード間のエッジ重み+オペレーション(ReLUやtanhなど)の重みを構造決定のパラメータとして追加

[どうやって有効性を示した?]

  • 感情認識データセットMOSI dataset(音声,文章,映像)を用いて評価
  • 比較対象としてNon-hierachical, Hierachical[Poria 2017]

[議論はある?]

  • 特になし

[メモ]

  • 文書は恒等関数,音声はLSTM,映像はtanhが選択されている模様

[所感]

  • モデルベースの構造探索なので自分の研究している範囲には適用が難しいかもしれない.

ごみ焼却施設の時系列データを用いた蒸気量のオンライン予測

[どんなもの?]

  • 対象データの動的な変化に対し,PLSの入力成分を逐次選択し,精度向上を狙った手法

[先行研究と比べてどこがすごい?]

  • 従来手法では課題として説明変数が多く多重共線性が生じやすいことや,
    ごみの性状によりシステムの状態が動的に変化しやすく追従できていない
  • 提案手法ではPLSの入力成分数(変数のこと)をPCAの寄与率から計算した主成分数とし,変数削減
    更にMWオンラインモデルを用いて最新のプラントの状態にモデルを適用することで解決を図る

[手法の肝は?]

  • PCAによる累積寄与率から得た主成分数mをPLSの入力変数の数としてモデルを更新

[どうやって有効性を示した?]

  • ごみ焼却施設から得た3日分のセンサデータによる実験
  • 評価指標は相関係数とRMSE,比較対象はPLSの入力成分数を固定したもの

[議論はある?]

  • Recursive PLSやデータベースを用いた局所PLSといった手法に関してはまだ未比較
  • PCAでの累積寄与率から得た主成分数mとPLSの入力変数数nの数学的関係性は提示していない

[メモ]

  • 途中から聞いたためMWモデルが何かがわからなかった

[所感]

  • 精度評価結果でCorrで0.01×10^-1, RMSEで0.01×10^-2単位の差異だったので
    この向上分がコストとしてどれくらい削減されるのかは気になる・・・

LSTMを活用した解析雨量とダム流入量の関係に関する研究

[どんなもの?]

  • 上流のデータ(雨量や川の上流の水位)からダム流入量を予測することで水害への対策に活用

[先行研究と比べてどこがすごい?]

  • 水位データに加え,各領域の雨量データ(大域的データとグリッド状の各領域のデータ)を用いて構築ならびに予測

[手法の肝は?]

  • ドメイン知識(なのかな?)により必要な説明変数を追加,検証

[どうやって有効性を示した?]

  • 実際のレーダーアメダス解析雨量や水位データを用いて検証

[議論はある?]

  • 水位のみでモデル構築した場合,1時間先の下流での水位予測に時間方向にズレが生じるらしい.

[メモ]

  • 特になし

[所感]

  • 下流の水位が予測しやすいデータを取得しやすい地点を発見できるアルゴリズムがあれば面白そう(観測点の提案アルゴリズムとか)
  • 最初の水位のみを用いて予測した際にズレたのは単に時間遅れが生じている・・・?

Transformerによる時系列予測

[どんなもの?]

  • 自然言語処理のTransformerと呼ばれる系列予測技術を時系列予測に応用できるかを評価

[先行研究と比べてどこがすごい?]

  • Transformerを時系列予測に適用できる形に構築,他の時系列予測AIとの比較検証
  • 時系列の数値を埋め込み表現に変換し,未来の数値の埋め込み表現に活用する

[手法の肝は?]

  • サブワードという概念を時系列データにも活用
  • 説明変数が複数あり,目的変数が1つの場合,多対1の多言語機械翻訳に相当すると解釈
    ※このほかにもいろいろある

[どうやって有効性を示した?]

  • 北京PM2.5データ(MTNet論文で使用されたデータ)等を使用し,Corr, RMSE, MAEで予測精度評価

[議論はある?]

  • 多変量予測の場合においても多次元Transformerを使用し工夫すればできそうとのこと.
  • BERTを参考に気象予報士の概況文と多変量時系列解析を合わせた転移学習により
    高精度な気象予報にも拡張できそうとのこと.

[メモ]

  • 比較モデルはLSNet,MTNet
  • Transformerに使用されているself-attentionのおかげで目的変数の予測値が
    より滑らかになっているのではないかとのこと

[所感]

  • 時系列分析におけるBERTのようなものはできるのかな

再起型ニューラルネットワークによる航空券の需要予測

[どんなもの?]

  • 出発日までの航空券の販売状況を予測

[先行研究と比べてどこがすごい?]

  • 過去フライトの販売状況の変動を用いて,座席クラス毎に将来のフライトの航空券の残り枚数を予測する研究はほとんどない
  • LSTMを用いて,航空券の残り枚数変動を,出発月・土日判定を全結合層へ入れ,それらを結合し,LSTM(Decoder)へ

[手法の肝は?]

  • 上記構造か?

[どうやって有効性を示した?]

  • 56日分の航空券の販売状況からその先の56日分の販売状況を予測

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • なぜ曜日ごとにモデル構築?
  • 残席の有無の的中率は高いものの(火曜日以外は90%以上),正解率についてはかなり低く見える(25.7~52.0%)
  • 火曜日だけやけに低い.

知識グラフ上の経路クエリの横断評価モデル

[どんなもの?]

  • 知識グラフの補間に関しての課題(クエリの遷移後の誤差や遷移先での各点が重なる)に対する提案

[先行研究と比べてどこがすごい?]

  • 既存手法でのTranslation Based Modelは知識グラフを埋め込み空間上に表現し,各エンティティ間の移動を
    ベクトルの加算として解く.その際,経路内に1対多の関係があると移動(遷移)後に誤差が増加したり
    遷移先の点をつぶしてしまう(同じ集合内の点の差がなくなってしまう)といった問題あり.
  • 提案手法ではスコアの評価時に遷移後の点を行列Rpで変換し,別空間に飛ばして近さを評価する

[手法の肝は?]

[どうやって有効性を示した?]

  • 提案手法によりPath Query Answeringの精度を改善するかを確認.
  • H@10とMean Quantileで評価

[議論はある?]

  • 他のモデル(QuatE, TuckrE等)との精度比較も必要

[メモ]

  • 知識グラフの補完としてはLink Prediction, Path Query Answering, Question Answering, NLP・・・などいろいろあり
  • 厳密にはTransRではないが,TransE+TransRのハイブリットのようなものと説明していた

[所感]

  • ベクトルの足し算の順序を変更してもベクトルの遷移先が変わらない
    (兄弟の息子と,息子の兄弟が同じ遷移先になってしまう問題あり)
    →他の手法によりこの問題に対して言及されているらしい.

時系列データに対する予測モデルの介入効果の推定

[どんなもの?]

  • 目標値に対する説明変数の値を逐次求める手法の提案

[先行研究と比べてどこがすごい?]

  • 既存研究では,因果グラフと回帰モデルを組み合わせて変数を介入効果を伝播させ,目標値に対する説明変数を求める[Blobaum et al]
  • 本研究では時系列データの特にトレンドのあるデータに拡張

[手法の肝は?]

  • 各変数の期待値の計算を一定の時間幅の平均とし,介入効果の伝播を各時刻で逐次行う

[どうやって有効性を示した?]

  • 人工データと酢酸ビニル製造プラントシミュレータから得られたデータに対して実験

[議論はある?]

  • 酢酸ビニル製造プラントのデータは目的変数と介入している説明変数が線形関係にある?

[メモ]

  • 特になし

[所感]

  • トレンドに対して逐次変更しているので結果は妥当な気がする.
  • Concept Driftはいろいろ種類があり,今回はIncrementalなものと思われるが,Suddenな場合やGradualな場合,どうなるだろうか.

少数のShapeletに基づく時系列データ分類手法

[どんなもの?]

  • Shapelet+Deep Learningにより少数のShapeletを用いた時系列データ分類を行う

[先行研究と比べてどこがすごい?]

  • 既存手法のShapeletではクラスを最大限分離するような部分時系列モデル手法であった.
    データが大きいと分類に数多くのShapeletが使用され可読性が損なわれる.
    提案手法ではShapelet Ruleset + Rule Constrainted Network(RCN)を用いて少数のShapeletで表現.

[手法の肝は?]

  • K-meansでセントロイドを作成,情報利得を最大化するようなShapelet集合を初期集合として作成
  • RCNでShapelet Rulesetから最適なルールを提示させる.
  • RCNでは誤った分類をするルールの確率を低くする制約がないため,Label Guided Module(LGM)を提案

[どうやって有効性を示した?]

  • Shapelet Ruleset + RCN(これをSRCNとする),SRCN+LGM,既存手法を比較
  • 実験データはUCR time series dataset
  • SRCN, SRCN+LGMではShapeletの数を3で固定

[議論はある?]

[メモ]

  • Shapeletと観測データの間の距離がクラス分類に使用される

[所感]

  • 特になし

グラフ畳み込みを用いた企業間取引ネットワークのコミュニティ分析

[どんなもの?]

  • Variational Graph Auto-encoderによるコミュニティ分散表現の獲得方法の提案

[先行研究と比べてどこがすごい?]

  • コミュニティのベクトル表現を獲得

[手法の肝は?]

  • 推論モデル時にVariational Graph Auto-encoderを用いてコミュニティのベクトル表現を取得

[どうやって有効性を示した?]

  • コミュニティネットワークとして33237個のノードと,1593556個のエッジを対象とし,AUCで評価

[議論はある?]

  • 特になし

[メモ]

  • コミュニティの特徴としてコミュニティ内部構造と他コミュニティとの関係があり.

[所感]

  • 特になし

ベイジアンネットワークにおけるデータ取得優先付けのためのノード信頼度の感度分析

[どんなもの?]

  • 各ノードが信頼度と確率を持ち合わせたベイジアンネットワークによる感度分析を実施

[先行研究と比べてどこがすごい?]

  • データの不確実性を考慮した最終ノードの確率を獲得可能

[手法の肝は?]

  • 信頼度を2通りで考える.
    一つはブーストラップ法を用いて標本抽出し,分布の一致度を信頼度として扱う.
    もう一つはデータの特性(データの作成年度,欠損度合・・・)からスコアリング.
    *親ノードの信頼度については子ノードからの重要度の重みを用いて計算
    ※子ノードの信頼度→重要度→重み→親ノードの信頼度といったところなのかな

[どうやって有効性を示した?]

  • 数値データによる実験(ただし感度分析であり,実際のモデル精度については言及はない?)

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • 親子ノード間の信頼度を利用しているが,もしかしたら,同じ項目だがデータソースが異なるノードを用いる場合でも使えそう
    ※前半で言っていた気がするが・・・

高次元データにおける深層生成モデルの低次元表現を利用した分布外検知

[どんなもの?]

  • VQVAEにより潜在空間上の分布外検知を行う

[先行研究と比べてどこがすごい?]

  • 既存手法:混合ガウスモデルやカーネル密度推定による推定は低次元空間では簡単だが高次元では困難
  • 深層生成モデルの場合,分布外データを入力すると確率密度が訓練データより高くなってしまうという現象が報告されている[Nalisnick+ 2019]
  • 以下の仮定に基づいた手法を提案
    [仮定1]深層生成モデルを利用しても実際には高次元データ分布の密度推定ができていない→次元削減
    [仮定2]分布内,分布外の両データに関して再構成可能なモデルなら分類可能ではないか

[手法の肝は?]

  • VQVAEにより,次元削減しつつ,分布外分布外の両データに対して再構成可能にした

[どうやって有効性を示した?]

  • 同一ドメイン内の分布外検知(同データセット内のあるクラスを訓練データとし,それ以外のクラスを分布外とした)
    こちらは高精度で検知
  • 異なるドメイン上での分布外検知(あるデータセットで訓練し,異なるデータセットを分布外とし,評価)
    この場合精度が逆に低くなってしまったとのこと.

[議論はある?]

  • 精度が低くなる原因として
    1)複雑な表現が得られてしまっている,
    2)潜在表現がもつれてしまっているにもかかわらず再構成可能な表現が得られてしまっている?
    3)潜在空間上でまだ次元が高く,密度推定が十分に行われていない?

[メモ]

  • Encodeするほど再構成誤差が大きくなってしまうので注意

[所感]

  • 特になし