未分類

Deep learningの中心的トピックス

よく研究されている機械学習の分野として,教師あり分類というものがあります.

教師あり分類とは,カテゴリに関連付けられた入力を見せられて,新たな入力を学習成果に基づいてカテゴリに分類するというものです.

/*(動物の画像,動物),(食べ物の画像,食べ物)といった例を大量に見せられて学習した後犬の画像を見せられて「動物」と答えるって感じですかね*/

ここではたくさんの例から一般化した知識を見つけ出すのが重要となってきます.

与えられた例からどの程度知識を一般化させ,応用できるかという能力を「容量」といいます.

/*日本語訳された用語があれば教えてください*/

容量が与えられた例の数に対して大きすぎる場合,「当てはめ過ぎ」が起こります.

この場合,与えられた例においてはちゃんと知識を応用できるのに,新たな入力に対しては今までの例に囚われすぎてまともな出力を出すことができません.

また,「当てはめなさすぎ」という現象も起こることがあります.

当てはめ過ぎは統計学的な問題であるのに対し,当てはめなさすぎは様々な理由が絡んでいるためあまり研究が進んでいません.

当てはめなさすぎの主な理由は容量の不足というよりも,アルゴリズムに困難な数値最適化が必要になるということです.

最適化したい関数のことを目的関数(objective function),または訓練基準(training criteria)といいますが,

/*training criteriaの訳語がぐぐっても出ないので直訳しました*/

この訓練基準が凸関数になってない事が多いというのがよくある困難です.

このような最適化しづらい関数は最適値を見積もるようなアルゴリズムを用いますが,そういうアルゴリズムはよく局所最適解に陥ってしまうのが問題です.

このように当てはめなさすぎはDeep learningの中心的な論点と言っても過言ではありません.

また,多くの学習アルゴリズムでは最尤法を用いる必要がありますが,尤度を最大化することが難しいという問題もあります.

勾配を計算することさえ難しいことがあります.

確率論も中心的な論点です.

また,他に重要な概念として,多様体学習があります.

「多様体仮説」では一見データが高次元のパラメータを持っていても,実はより低次元の構造の近くに分布していると主張しています.

/*例えばパラメータが10個あっても,実は10次元空間の中のある曲面の近くに分布しているというイメージをしました.参考*/

これを認めるとほとんどのパラメータの組み合わせは実現しにくく,そのより低次元の構造近くの組み合わせだけが実現することになります.

また,多様体仮説では小さな変化を加えても不変のカテゴリ変数が存在すると主張しています.

/*画像を少し拡大縮小しても「画像に写っているもの」は変わらない,と言っているんだと理解しました.小さな変化と言ったのはあまりに横にばかり拡大したりグニャグニャ曲げるエフェクトを書けたりするともはや「画像に写っているもの」は変わってしまうということだと思います.*/

関連して「natural clustering hypothesis」では異なる分類のデータは十分離れた異なる多様体上に存在すると主張しています.

/*体重,体長,表面の色等のデータを与えられた時,象とヒトでは十分離れたところにある,ということでしょうかね*/

これらの考え方はregularized auto-encoderのアルゴリズムにおいて未知の多様体の構造とデータが従う確率分布を見出す仕組みを理解するのに大変重要です.

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中