コーディングやってる場合じゃねぇ

機械学習とコーディングと備忘録

【学会】人工知能学会2020 4日目

人工知能学会2020の4日目(最終日)聴講まとめ.

www.ai-gakkai.or.jp

大会論文集はこのページに
https://www.ai-gakkai.or.jp/jsai2020/proceedings

今日は異常検知技術とknowledge Graph関連を聞いてた.

ラベルなし運用データに対するコンセプトドリフト検知の手法

[どんなもの?]

  • 任意のクラスのデータ分布が時間経過とともに変わっていくコンセプトドリフト日足教師なし学習で検知する手法の提案

[先行研究と比べてどこがすごい?]

  • 課題:運用データに対する正解ラベルなしで精度劣化を検知してモデルを適合させる
  • 既存研究:HDDDM, PCA-Based CD, MD3, アンサンブル, CDBD[Lindstrom 2011]
  • 本研究:CDBDで画像の劣化に対して検知検証

[手法の肝は?]

  •  CDBDに対し,1バッチ目と現バッチでKLD(カルバックライブラリー)を算出し,値の評価
    大きい値の時,現バッチがドリフトしていることを検知

[どうやって有効性を示した?]

  • 画像に対してノイズを孵化した6種類の画像をバッチの途中途中で追加した実験環境で評価

[議論はある?]

  • モデルのAccuracyの下がり幅に対し,KLDが上がるならドリフト検知に使用可能であるが,今回は変化が小さい
  • VGGは確信度が高いままご分類しているとのこと

[メモ]

  • 最大Softmax scoreの値を確信度に使うことはよくあることなのか
  • Metric Learningが研究として該当するのか

[所感]

  • 今回,劣化画像をバッチの途中に挿入しているのでSuddenタイプのConcept Driftと認識,
    今後Gradualなものを対象としていくのだろうか(Suddenだと,急に画像の劣化が生じているという仮定になるので・・・)

物理モデル自動構築に向けた学術論文からの変数抽出

[どんなもの?]

  • 学術論文から物理モデルに関する変数記号とその意味を抽出する手法の提案

[先行研究と比べてどこがすごい?]

  • 既存研究の対象がwiki等でありプロセス産業を対象としたものが少ない(5年で10報ちょい)
  • 既存の変数抽出手法
    パターンベース:あらかじめ定めた6つのパターンのいずれかに該当する単語を定義語とする
    ランクベース:記述子が含まれる分の集合から定義語の候補となる名詞句を抽出し,ランク値が最も大きい名詞句を定義語とする
  • 提案手法
    プロセス産業特有である定義語である英単語の一部を変数に用いることを考慮したランク値の定義

[手法の肝は?]

  • プロセス用語と変数の関係の特徴である定義語である英単語の一部を用いることを考慮して,
    記述子の文字と頭文字が一致している数をさらにランク計算に活用

[どうやって有効性を示した?]

  • 有名なプロセス分野での教科書を用いて検証
  • 再現率72%,精度87%
  • 失敗例としては2つ以上の文字からなる変数(e.g. dT)や上付き記号がついた変数が取得できていない

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • ゆくゆくは物理モデルの変数間の関係も抽出していくのだろうか
  • 物理モデルの変数間の関係性をもし抽出する場合,例えばあるフレームワークに沿った形で知識のデジタル化はできるのか
  • コンテキストを加味したりした変数の抽出はできるようになっていくのだろうか

事業・世代を超えた知識共有のための製造現場ビックデータからの専門用語獲得

[どんなもの?]

  • 製造現場で得られたデータから専門用語の辞書を半自動化
  • 設計トラブル時のスキームと問題:膨大なナレッジを蓄積しているものの過去のナレッジを活かしきれず
    個々の能力に依存,目立つトラブルの対処・・・etc.
  • 解決策と課題:最適情報へのアクセス,ベストプラクティスの提供
    使用ツール:Watson Knowledge Studio 辞書作成の際に機械学習を用いてEntity認識器を作成する
    保全履歴から認識器によって部品,事象,方法を抽出し,人手による正誤判定の元,それぞれの辞書を作成

[どうやって有効性を示した?]

  • ドメインアダプテーションによる評価検証により350文書を用いることで目標精度0.7を達成
  • 追加65文書を使用し,他製造部にて同程度の精度達成
  • 工数60%サック減,各特養語数22%増加

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • 特になし

相互依存性を考慮した復旧戦略によるネットワークのレジリエンス性の向上

[どんなもの?]

[先行研究と比べてどこがすごい?]

  • 既存手法
    媒介中心性を考慮した手法[有沢ら 2016]:相互依存性を考慮していないため実世界での適用困難
    カスケード故障モデル[杉下ら 2017]:あるノードに負荷がかかった場合,そのノードが破損し依存しているノードも確率的に破損
  • 提案手法は上記二つを組み合わせたもの(と認識した)

[手法の肝は?]

  • 通常時と復旧後の中心性の二乗誤差を計算し,その誤差が大きいところから順に復旧する

[どうやって有効性を示した?]

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • 特になし

マンホール内部点検自動化のための深層学習を用いた不良箇所検出手法の検討

[どんなもの?]

  • 人工知能による点検稼働削減
    ※AIで不良箇所を自動判定するものの,全数ではないがオペレータが確認

  • Mask R-CNNをベースとしたセグメンテーション

  • 360度カメラで撮影してるため撮影画像が歪曲している

[どうやって有効性を示した?]

  • 実際のマンホール内部の画像を使用し検証
  • クラス数は6,Bounding Box, Polygonのデータセットを作成し,検証

[メモ]

  • マンホール点検方法:現地にてカメラを用いて内部撮影(30000枚/年)
  • 集約センタにてオペレータが目視で不良箇所を点検

[所感]

  • 証明度合いでさびているか否かが変わる気がするがロバスト性はあるのだろうか
  • 360度カメラで得られた画像に対してもMask R-CNNは機能するのだろうか

オートエンコーダを用いた地震計の時系列異常検知

[どんなもの?]

  • 地震計の故障・経年劣化の早期発見事例の紹介

[先行研究と比べてどこがすごい?]

  • 課題
    突発的な故障は一目で見つかるが経年劣化は一目ではわからない
    大量のデータを対象とし,異常度を可視化する必要がある
    地震計のデータを評価するための特徴量の設計方法がわからない
  • 提案
    オートエンコーダを用いた経年劣化の検知

[手法の肝は?]

  • データサイズが大きく学習時間と学習の不安定化が問題
    →ダウンサンプリングで対応
  • 生の波形のままでは可読性が低い
    FFT処理してパワースペクトル
  • 入出力データ間の再構成誤差を異常度として定義し,検知に応用

[どうやって有効性を示した?]

  • 実データによる確認.
  • 経年劣化についてはどの地点から生じたかを検証するのが難しいが結果は専門家との認識と一致

[議論はある?]

  • 観測地点が全国800以上あるため,実運用時にモデル推論検証昨日も必要とのこと

[メモ]

  • 特になし

[所感]

  • 異常検知の閾値計算が問題になりそう・・・

PACベイズ輸送距離の推定に関する検討

[どんなもの?]

[先行研究と比べてどこがすごい?]

  • 既存研究:square(d/n)である程度把握可能だった→現在のdeep learning等の特性を反映できていない
  • 統計的学習理論がある(VC dimension, Rademacher complexity, PAC Bayes Bound・・・etc.)
  • PAC Boundはモデルやデータの情報がフルに活かしきれいていない→PAC Bayes Transportation Boundへ
  • 本研究:PAC Bayes Transportation Boundにおいて生じるvの推論が難しく,こちらを簡略化できる手法を提案

[手法の肝は?]

  • 真のデータに依存する期待値を含む項に対し,SGDの場合は満たすため,その条件で推定

[どうやって有効性を示した?]

  • (発表が駆け足だったため略)

[議論はある?]

  • 特になし

[メモ]

  • 学習しないとわからない訓練データとテストデータとの間の汎化ギャップを事前にわかるデータから記述したい

[所感]

  • 特になし

モンテカルロシミュレーションを用いたロボットエンジンの故障検知・診断

[どんなもの?]

  • 燃料漏洩の検知・診断を対象とした故障検知

[先行研究と比べてどこがすごい?]

  • 既存研究
    レッドライン判定が一般的:検知力が低い [Tsutsumi+ 2019]はDTW距離を用いて標準ケースからの乖離を評価
    [Sato+ 2019]は正常な場合のセンサ間の関係の違いを評価
  • 提案手法 物理モデルを用いたシミュレーションにより教師データを生成し漏洩検知と診断方法を開発

[手法の肝は?]

[どうやって有効性を示した?]

  • センサ値に対してクラス分類.正常と異常に対し分布が異なりある程度分離可能なことを確認

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • データ差分時の分布の可視化は興味深い

Entity-Relationshipモデルに基づいた知識グラフの構築方法

[どんなもの?]

  • 関係データベースの概念設計に使用されているEntity-Relationshipモデルに基づいて知識グラフを構築するための基準を作成

[先行研究と比べてどこがすごい?]

  • 本研究ではrelationshipにも属性を持たせることを可能にしている(との認識)

[手法の肝は?]

[どうやって有効性を示した?]

  • 特になし

[議論はある?]

  • 特になし

[メモ]

  • 複数のアプリケーションで共有あるいは再利用できるようにすること

[所感]

  • 特になし

上位オントロジーに基づく非対称なオントロジー統合

[どんなもの?]

[先行研究と比べてどこがすごい?]

  • 既存研究
    一般知識によるドメイン知識の拡充:質問応答[Asano+ 2016],固有表現認識[Cardellino+ 2017]
  • 提案手法
    上位オントロジーを用いた非対称な自動マージ手法の開発

[手法の肝は?]

  • 非対称な統合の関連研究として[Raunich+ 2013][Stoilos+ 2018]
  • 上位オントロジーの利用
    規模,対象範囲に関するギャップあり,意味的な変化が小さくなるように統合する
    領域横断概念を含む上位オントロジーの設定

[どうやって有効性を示した?]

  • DOLCE-AWO(ドメイン)とDOLCE-YAGO(大規模汎用)の統合による評価

[議論はある?]

  • 特になし

[メモ]

  • 特になし

[所感]

  • 特になし