コーディングやってる場合じゃねぇ

機械学習とコーディングと備忘録

【学会】人工知能学会2020 3日目

人工知能学会2020の3日目聴講まとめ.

www.ai-gakkai.or.jp

大会論文集はこのページに
https://www.ai-gakkai.or.jp/jsai2020/proceedings

今日は少なめ. インダストリアルセッションや説明可能AI系を聞いてた.

訓練事例が予測に与える影響の測り方の妥当性検証

[どんなもの?]

  • 訓練事例が予測に対して与える影響指標の定量的妥当性を検討

[先行研究と比べてどこがすごい?]

  • 要件
    ・訓練事例にあるものは訓練事例を根拠として取り出せる
    ・共通の潜在クラスを持つ訓練事例を取り出せる
  • 手法
    ・類似度指標:特徴量に対する類似度で評価
    ・勾配を用いる指標:訓練事例のlossに対する勾配とテスト事例のlossに対する勾配の内積
    ・要件1,2を満たすのはGrad-Dot, Grad-Cosのみ(検証結果)
  • 提案手法:劣化データ画像とラベルを条件とした神の画像の条件付分布からサンプリングするという再解釈に基づく画像補完方法

[手法の肝は?]

  • 要件の定義と各手法の検証

[どうやって有効性を示した?]

  • MNIST, CIFAR10, TRECのデータセットを用いて検証

[議論はある?]

  • 勾配の内積に基づく手法の失敗要因は勾配のノルムが大きいものを選択する傾向にあるため

[メモ]

  • 特になし

[所感]

  • 結構,議論になってた.特に要件1に関して.
  • ユーザが違うと思って説明を求めた際に該当訓練事例を出すのは意味があるのかという質問あり
  • 個人的には間違ったラベルが付加されてしまった際に説明を要求しているシチュエーションなのかなと(どの訓練データが悪さしているかとか)

説明可能な論理規則のグラフ埋め込みによる学習

[どんなもの?]

  • 服圧な論理プログラムをクラスタリング手法を用いて,簡略化したモデルを得る手法を提案

[先行研究と比べてどこがすごい?]

  • [Doran+ 2017]では,説明可能性があるモデルが必ずしも解釈可能性を持つとは限らないとのこと
  • 論理プログラムを依存グラフで表現し,説明可能性と解釈可能性をもつモデルを提案

[手法の肝は?]

  • Attention Walk[Abu-El+ 2018]というグラフ埋め込みを用いて論理プログラムの依存グラフのノードを埋め込みを学習
  • 学習した埋め込みをUDAP(Uniform Manifold Approximation and Projection)[Mclnnes 2018]で次元圧縮
  • 外れ値に強いHDBSCAN[Campello 2013]でクラスタリング

[どうやって有効性を示した?]

  • Th2細胞の制御図を対象に評価した
  • 簡略化率による評価(ノード数,エッジ数の削除数)

[議論はある?]

  • HDBSCANは決定的なアルゴリズムではないため何回か繰り返し実行すると異なる結果が得られてしまう

[メモ]

  • 解釈可能性と説明可能性の定義[Doran+ 2017]
  • この研究は解釈可能性と説明可能性を持つモデルとして論理プログラムで記述された動的システムを対象とする

[所感]

  • グラフの見やすさについての研究やエンジニアリングについての評価はいつも迷う・・・
  • グラフを出した際に,解釈可能性と説明可能性があるというのはどこを見て評価されるのだろうか
  • 論理プログラムの依存グラフがすでに解釈可能性と説明可能性を持っているということを前提としているのか?

Entity Alignment for Heterogeneous Knowledge Graphs using Summary and Attribute Embeddings

[どんなもの?]

  • The method of discovering similar properties because each KG is constructed with different ontologies

[先行研究と比べてどこがすごい?]

  • Issue:Entity Alignment Problem
  • Related works
    JAPE[Sun+ 2017], BootEA[Sun+ 2018], AttributeE[Trisedya+ 2019]
  • Proposed method
    Predicate alignment module + embedding learning module(Entity summary) + Relational embedding module+ Attribute embedding module + Entity alignment module

[手法の肝は?]

  • BERt is used to generate summary vector and we sum up embedding(Three different scoring function)

[どうやって有効性を示した?]

  • Data(Dbpedia and WIKIDATA), Metrics:Hits@10, Hits@10, Mean10

[議論はある?]

  • None in particular

[メモ]

  • Relationship Triples(Object property), Attribute Triples(Datatype property)

[所感]

    • None in particular

富士通研究所におけるAI技術の適用事例紹介

[どんなもの?]

  • 発表内容:行動認識分析
  • 学習にかかる準備や検証の短縮(3か月以上かかっていた準備・検証を数日に)
  • 問題と適用内容
    準備・検証に時間がかかる→基本動作認識の特徴を100種類程度用意し,その組み合わせで行動認識
    導入後のカスタマイズが難しい→上位行動推定(基本動作の組合せから行動を推定する)
  • ただし,上位行動についてはルールベース(おそらく動作を組み合わせたものを人手で設定)
    扉の前にいる+座る+鍵穴を見る+鍵穴に手を当てる→ピッキング

[メモ]

  • 若手の議論から行動認識についてのアプリケーションが実現
  • 研究所にはビジネスの責任がない分,研究で貢献する必要があるとのこと

[所感]

  • ルールベースから様々な行動に対し自動的に行動抽出or行動組合せによる上位行動の発見はできないだろうか
  • ある特定のアプリケーションであればルールベースでやることが可能(N倍化可能か),他で作った行動部品が違うところで使えるとかかな

博報堂におけるデータサイエンス・機械学習・深層学習

[どんなもの?]

  • 広告予算の配分(Marketing Mix Modeling):状態空間モデルで広告の効率変化やブランドの盛衰等の経時変化を表現,MCMC活用
  • ストリーミング時代の音楽のヒット解明:Tableau(分析ツール)による分析環境の構築
  • データフュージョンによる購買分析:輸送問題による制約付き統計的マッチング,k-統計量疑似シングルソースデータの活用
  • 広告クリエイティブの研究開発:VAEによるCTR改善のための画像変換
  • ASEAN地域の拠点との共同開発:データパイプライン整備,予測モデル構築・施策実施,データマーケティング支援,現地スタッフ育成
  • 対話商談解析ソリューション(CONOOTO):商談時の対話を録音し,音声やキーワード,速度等を分析(音声区画検出,話者分類・・・等)
  • 健康経営支援プログラム(健診戦):従業員の健康増進に対して効果の高かった生活行動や施策を可視化(Bayesian Networkを使用)
  • 法律とターゲティング広告:個人情報保護を考慮したターゲティング技術(匿名加工技術,XAI・・・等)
  • 学生向けインターン:DATASCIENCECAMPを行い,パネル調査データに基づく番組視聴予測

[所感]

  • Bayesian Networkをどのように構築したか気になる

IBM Researchの最近の研究と実用事例

[どんなもの?]

  • 新型コロナウィルスへのIBMのAI関連取り組み
    Watson Assistant for Citizens チャットボット
    COVID-19関連文献のディープサーチサービス
    インタラクティブ創薬ツール(registrationは必要だが無料)
    The COVID-19 High Performance Computing Consortium

  • COVID-19関連文献のディープサーチサービス
    Corpus Conversion Service:Pasing, Annotation, MLmodel and Assemble
    Corpus Processing Service

  • IBM researchの最近の方向性
    Neuro-Symbolic AI
    記号的AIと深層学習を密に結合したい(オントロジーや推論を利用して学習を圧倒的に高速化する)
    複雑な質問を単純なプログラムに分解して実行
    無名の述語的関係を画像から教師なし学習(画像に映っているものをコンパクトに表現できる形に出す=述語表現)

[所感]

  • IBMから人工知能学会への発表は9本で積極性を感じる(うちもそれくらいしないとなぁ・・・)

サイバーエージェントにおける計算社会科学研究

[どんなもの?]

  • 計算社会科学領域において1)社会のセンサーとしてのメディア,2)課題解決ツールとしてのメディアの仕様
  • ABEMAにおけるメディア・コミュニケーションを研究
  • Before Internet:多くの人がマスメディアを利用→質が高く幅広い情報をみんな受け取っていた.マスメディアは知識・関心の平準化
  • After Internet:人によって利用メディアが異なり質・量が異なる.関心がある人とない人で差が生じている
  • 全くニュースを見るつもりのない人の知識を増やすにはどうすればよいか
    ザッピング時のニュース画面のチラ見に着目,ソーシャルメディアをよく使う人に限り政治ニュース知識に効果あり

[所感]

  • ユーザのログから因果推論を行っている?

インテルAI先進事例紹介

[どんなもの?]

  • 胸部疾患の自動診断(理化学研究所)
    モデルの推論環境の選定
    最初はCPUでの実行を考えていたが計算速度が遅いため,モデルをONNXに変換,CPUに最適化されたモデルへ変換,量子化(OpenVINO) 当初速度から約45倍速くした

  • カード不正利用検知システム(中国銀行)
    LSTM/GRUだけ使った場合,トランザクションのシーケンシャルな対象は認識精度がよいものの,
    個々のトランザクションの内容まで加味しての認識が期待以下に

  • リアルタイムN/W品質モニタリングおよび品質予測(SK telecom) ネットワーク品質予測(異常検知やリアルタイム管理のため)
    FlashBasegのオーバーヘッドが高くなる→Sparkじょうでモデル作成(IntelのANALYTICS ZOO使用)
    元々pandas + TFで外部出力してから処理していたが,前処理をインメモリで行うことができたので速度約45倍

  • AIによる不良検知(大手電池メーカー)
    製造コストの削減が目的である.ただし,AI/データサイエンティストがいない
    画像セグメンテーションにMASK-RCNNといった簡潔なものにしメンテナンスを考慮
    ただし,最後の全結合層をSVMにしたりといったテクニックを使用したりして精度はあげている
    各工場をエッジとみなしてラムダアーキテクチャをベースにソリューション提案

[所感]

  • 特になし