ネットワークの表現学習
下のやつを読んだまとめ(ほぼコ……)
ただ、元記事自体は参考になるしアド
What's the 表現学習?
- 画像、音、自然言語、時系列データの要素を予測問題を解くことでベクトル(分散表現)として抽象化する手法
- 人手で定義した特徴量を並べて〜ではない
- Deep Learningは多層のニューラルネットを使って表現学習を行っている
ネットワークの表現学習について
- DeepWalk(2014)とか
- 既存の複雑ネットワークのクラスタリング手法よりもラベル推定や分類タスクの精度良し
- 大規模グラフの可視化、画像や文章の内容と関連性からラベルを推定、といった手法へ応用
- ネットワークの表現学習手法は自然言語処理の表現学習手法から大きく影響を受けている
- 異種データを分散表現を介して結びつけるとかいうのがある
- ネットワーク構造とラベル情報、画像データやテキスト情報とネットワーク構造などを同時に表現学習
DeepWalk
- 自然言語における分布仮説をネットワーク構造へ転用
- 「ある人の周りはある人を反映してる」、「論文の内容は引用関係から推測できる」という考え方と類似
- 周囲の関係性から要素の性質を推定する
- ネットワークのリンク上をランダムウォーク、辿れるノードの列を文脈としてword2vecしてノードの分散表現を計算している
- Spectral Clustringより高速かつ高精度(既存のクラスタリング手法)
- LINEとかGraRepとかいうのも出てきた(DeepWalkよりも精度良し)
- 各要素がもつ画像やテキストからの分散表現とネットワークの分散表現を結びつける研究も
言語の学習表現のSomething to read
- 確率的ニューラルネットワーク言語モデル word2vecのもととなった考え方
- word2vec : 読みづらく重大な間違いあり読む前に解説記事を読む
- doc2vec : 文章の分散表現を獲得する手法
- Sequence to sequence learning with neural networks : 異なる言語を分散表現を通じて結び付け自動翻訳を実現する手法
-
LDAは複雑ネットワークの分野ではSpectral Clustering として応用されています
- 岩波データサイエンス Vol. 2 : 岡﨑直観さんの部分
- 言語処理における分散表現学習のフロンティア
チェックする人・研究室
- Geoffrey E. Hinton, Yoshua Bengio : Deepの人
- Tomas Mikolov : word2vec, doc2vec, seq2seqの人
- Google Deep Mind : DQNとかAlpha Goとか
- Facebook AI Research(FAIR), Microsoft Research
表現学習の国際会議
- ICLR : 表現学習
- EMNLP( Conference on Empirical Methods in Natural Language Processing)
- ACL(Annual Meeting of the Association for Computational Linguistics)
- COLING(International Conference on Computational Linguistics)
-
ACL-IJCNLP( International Joint Conference on Natural Language Processing)
- ACM sigKDD, ICML, AAAI, IJCAI, WWW, CIKM, NIPS
ライブラリ
- Gensim : 言語処理全般のライブラリ word2vecとかdoc2vecも含まれている
- Tenser Flow
- Chainer
ネットワークの表現学習のSomething to read
ネットワークの表現学習を行うアド : 「要素の分類や要素間の関係性の容易な推定」を活かせる
今までは → パラメータ依存性や精度、Complexityの問題あり、ネットワークのノード間の距離の定量化も難しかった
but now → 要素間の距離を定量化することで要素のラベル推定、分類の精度が向上
- DeepWalk : 前述のノードの表現学習を獲得する手法
- LINE : 分布仮説に基づいた表現学習手法を二次の近接性と定義,直接つながっているノードが近いという一次の近接性を定義してどっちも使ってDeepWalk より精度アップ
- GraRep : ネットワークの構造を抽象化して変換し、上記2つの手法より精度アップ
- PTE : 要素、ラベルのそれぞれのネットワークを同時に表現学習、一部の要素のラベルから他の要素のラベルを推定
- Heterogeneous Network Embedding : 画像とテキストと画像同士の関係性をもとに要素を分散表現化,画像のラベル付けやクラスタリングを行う手法
- text-associated DeepWalk : ノードのテキスト情報とネットワーク情報を組み合わせて表現学習を行う手法
- Visualizing Large-scale and High-dimensional Data : 数百万単位のノードを可視化
チェックする研究者
- Jian Tang : Microsoft Research Asia ネットワークの表現学習の第一人者
- Bryan Perozzi : DeepWalkの人
- Barabási : 複雑ネットワークの分野の第一人者
ライブラリ
- Deepwalk : Python で提供されているので,普段Python に慣れている方ならすぐに使えます
- LINE : C++のソースコードで提供されているのでコンパイルが必要.動作に必要な各種ライブラリのインストールが簡単なLINUX 上で動作させるのが簡単です.
- Visualizing Large-scale and High-dimensional Data
キーワード
- network and embedding
- network and representation