未分類

データの「表現」

単純な機械学習のシステムではデータをどのように表現するかが性能に関わってきます.

例えば2進数で10000001は129を表しますが,00000001は1を表します.

129と1では全く違う値なのに2進数で表すと似通った表現になってしまい,機械学習においては2進数の表記法は適さないことがわかります.

/*勿論プログラムは数値を10001などといった文字列ではなく数値として認識するのでこれはあくまで例えです*/

ここで問題になってくるのがどのデータをどういうふうに表現するか,ということです.

例えば人間の会話から話者を特定するにはピッチを見れば良い,ということが知られていますが,何を見れば良いのか分からないデータもたくさんあります.

画像中の車を認識するアルゴリズムにしても光の当たり方とか,車体の色,背景の物体といったものの差異に影響されない特徴を見つけ出す必要があります.

ディープラーニングは与えられたデータを類似するデータに写像することで,データを用意する側が特徴をよく反映する表現を考えだしたりする難しさや,データ中に潜む細かな差異を乗り越えるアプローチです.

/*pdfには「与えられたデータを類似するデータに写像する」イメージ画像が載っているのですが権利の都合上ここに載せるのは控えます*/

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中