GeeksforGeeks

アーサー・サミュエルは1959年に「機械学習」という言葉を作り、「明示的にプログラムされることなく学習する能力をコンピュータに与える研究分野」と定義しました。

そしてこれが機械学習の始まりでした! 現代では、機械学習は最も人気のある(とまではいかないまでも!)キャリアの選択肢の1つです。 Indeedによると、Machine Learning Engineer Is The Best Job of 2019は344%の成長率で、平均基本給は年間146,085ドルです。

Getting Started with Machine Learning

しかし、機械学習とは一体何なのか、どうやって学習を開始すれば良いのかという疑問はまだたくさんあるのではないでしょうか? そこで、この記事では、機械学習の基礎と、最終的に一人前の機械学習エンジニアになるための道筋を扱います。

機械学習とは

機械学習とは、人工知能を使用して、機械がそのタスクについて特別にプログラミングしなくても、経験からタスクを学習できるようにすることを指します。 (要するに、機械は人間の手を借りずに自動的に学習します!!) このプロセスは、質の高いデータを与えて、データとさまざまなアルゴリズムを使ってさまざまな機械学習モデルを構築して、機械を訓練することから始まります。

どのように機械学習を始めるか

これは、非常に優秀な機械学習エンジニアになるための、大まかなロードマップです。

ステップ 1 – 前提条件を理解する

あなたが天才である場合、直接 ML を始めることができますが、通常は、線形代数、多変量微積分、統計、および Python を含むいくつかの前提条件を知っておく必要があります。 もし、これらを知らなくても、心配は無用です。 これらのトピックを始めるのに博士号は必要ありませんが、基本的な理解は必要です。

(a) 線形代数と多変量解析を学ぶ

線形代数と多変量解析は両方とも機械学習では重要です。 しかし、どの程度必要かは、データサイエンティストとしての役割によります。 アプリケーションに重点を置いた機械学習であれば、多くの一般的なライブラリがあるため、数学にそれほど重点を置く必要はないでしょう。 しかし、機械学習の R&D に焦点を当てたい場合は、多くの ML アルゴリズムをゼロから実装しなければならないため、線形代数と多変量微積分の習得は非常に重要です。

(b) 統計を学ぶ

機械学習ではデータが大きな役割を担います。 実際、ML専門家としての時間の約80%は、データの収集とクリーニングに費やされるでしょう。 そして、統計学は、データの収集、分析、および提示を扱う分野です。 だから、それを学ぶ必要があるのは当然です!
統計学で重要な概念には、統計的有意性、確率分布、仮説検定、回帰などがあります。

(c) Python を学ぶ

線形代数、多変量解析、統計学は飛ばして、試行錯誤しながら学ぶことを好む人もいます。 しかし、絶対に飛ばしてはいけないのが Python です! RやScalaなど、機械学習に使える言語はほかにもありますが。 Pythonは現在、MLで最も人気のある言語です。 実際、Keras、TensorFlow、Scikit-learnなど、人工知能や機械学習に特に役立つPythonライブラリが多数存在します。

ですから、MLを学びたいのであれば、Pythonを学ぶのが一番です!

ステップ2 – ML のさまざまな概念を学ぶ

前提条件を満たしたので、実際に ML を学ぶことに移ります(これが楽しいところです!!)。

(a) 機械学習の用語

  • モデル – モデルは、ある機械学習アルゴリズムを適用してデータから学習した特定の表現である。
  • 特徴 – 特徴とは、データの個々の測定可能な特性である。 数値的特徴のセットは、特徴ベクトルによって簡便に記述することができる。 特徴ベクトルはモデルへの入力として与えられる。 たとえば、果物を予測するために、色、香り、味などの特徴があるかもしれない。
  • ターゲット(ラベル)- ターゲット変数またはラベルは、モデルによって予測される値である。 特徴セクションで説明した果物の例では、入力の各セットのラベルは、リンゴ、オレンジ、バナナなどの果物の名前になります。
  • トレーニング – このアイデアは、入力(特徴)のセットと予想出力(ラベル)を与えることであり、トレーニング後に、新しいデータをトレーニングしたカテゴリのいずれかにマップするモデル(仮説)を持つことになります。
  • 予測 – モデルの準備ができたら、予測される出力 (ラベル) を提供する入力のセットを与えることができます。

(b) 機械学習の種類

  • Supervised Learning – 分類および回帰モデルを使用して、ラベル付きデータで訓練データセットから学習することを含みます。
  • 教師なし学習 – これは、ラベル付けされていないデータを使用し、因子およびクラスター分析モデルを使用してデータ自体についてより多くを学ぶために、データの基本構造を見つけることが含まれます
  • 半教師付き学習 – これは、教師なし学習と同様にラベル付けされていないデータを、少量のラベル付きデータで使用します。
  • 強化学習 – これは、試行錯誤を通じて最適な行動を学習するものです。

(c) 機械学習の実践方法

  • 機械学習で最も時間がかかるのは、実はデータの収集、統合、クリーニング、および前処理です。 そのため、高品質のデータが必要ですが、大量のデータは汚れていることが多いので、これを必ず練習してください。 だから、これはあなたの時間のほとんどが費やされる場所です!
  • 様々なモデルを学び、実際のデータセットで練習してください。
  • これらのステップと同時に、さまざまなモデルを使用して得られた結果をどのように解釈するかを理解することも同様に重要である。

(d)機械学習を学習するためのリソース。

機械学習を学習するために使用できるさまざまなオンラインおよびオフラインのリソース (無料と有料の両方!) があります。

  • 機械学習の幅広い入門には、Andrew Ng によるスタンフォードの機械学習コースが非常に人気があります。
  • 機械学習の自習ガイドが欲しいなら、GoogleのMachine Learning Crash Courseがよいでしょう。

ステップ3 – コンペティションに参加する

機械学習の基本を理解した後は、クレイジーな部分へと進むことができます! コンペティションです! これらは基本的に、ほとんど理論的な知識を実践的な実装と組み合わせることによって、ML にさらに熟練することができます。

  • Titanic: 災害からの機械学習。 タイタニック号。 Machine Learning from Disasterチャレンジは、複数のチュートリアルが用意されているため、MLの初心者向けプロジェクトとして非常に人気があります。 そのため、データ探索、特徴エンジニアリング、およびモデルチューニングのような ML の概念の素晴らしい入門書となります。 Digit Recognizerは、PythonとMLの基本的な知識がある程度ある後のプロジェクトです。

これらのコンテストやその他の簡単な課題を完了した後は、おめでとうございます。

新しくなった GeeksforGeeks Premium を試してみてください

Article Tags :

練習用タグ:

div

コメントを残す

メールアドレスが公開されることはありません。