特徴ベクトルを作成する手間を減らすプログラムを作成した

特徴量の選択は実に重要な要素である。
しかし、特徴量一つごとに特徴量化するプログラムを書くのは大変手間であるし、そんなところに時間を使うのは勿体ない。
そんな時間を減らすためにプログラムを作成した。

特徴量にしなくてはいけないものにはいくつか種類があると思う。(他にあったら順次追加していく)

  • 連続値
  • 複数選択肢がある中で一つだけを選ぶもの
  • 複数選択肢がある中で複数を選ぶもの
  • 文章などのテキストデータ


本プログラムではテキストデータ以外の3つを簡略化する。

プログラムと使用方法はgithubにあげたのでリンクを貼っておく。

github.com

 

概要としては

連続値は標準化する

複数選択肢があって一つだけ選択する場合は選択肢の分だけ次元を作って特定の部分にのみ1、それ以外は0にして返す

複数選択肢があって複数選択する場合は上記と同様に次元を作り、選択された分だけ特定の場所に1、それ以外を0で返すようにした。