データ準備とは? - データ準備の説明 - Aws
分析結果
- カテゴリ
- IT
- 重要度
- 57
- トレンドスコア
- 21
- 要約
- データ準備とは? - データ準備の説明 - AWS メインコンテンツに移動 クラウドコンピューティングとは? クラウドコンピューティングコンセプトのハブ Machine Learning データ準備とは AWS アカウントを作成する データ準備とは 機械学習とデータ準備の関係とは? なぜ機械学習ではデータ準備が重要なのですか? どのようにデータを準備するのですか? AWS が行えるサポートは? データ準備とは データの準備は、生データを
- キーワード
データ準備とは? - データ準備の説明 - AWS メインコンテンツに移動 クラウドコンピューティングとは? クラウドコンピューティングコンセプトのハブ Machine Learning データ準備とは AWS アカウントを作成する データ準備とは 機械学習とデータ準備の関係とは? なぜ機械学習ではデータ準備が重要なのですか? どのようにデータを準備するのですか? AWS が行えるサポートは? データ準備とは データの準備は、生データを準備して、さらなる処理と分析に適したものにするプロセスです。重要なステップには、生データを収集してクリーニングし、ラベル付けして 機械学習 (ML) アルゴリズムに適した形式にしてから、データを探索と視覚化することが含まれます。データの準備には、機械学習プロジェクトに費やされる時間の最大 80% がかかる場合があります。このプロセスを最適化するために、専用のデータ準備ツールを使用することが重要です。 機械学習とデータ準備の関係とは? データは、スマートフォンからスマートシティまで、構造化データと非構造化データ (画像、ドキュメント、地理空間データなど) の両方として届き、かつてないほど組織に流れ込んでいます。非構造化データは、今日のデータの 80% を占めています。機械学習は構造化データを分析するだけでなく、非構造化データのパターンも発見することができます。機械学習は、コンピュータがデータを解釈し、そのデータに基づいて意思決定や推奨を行うことを学習するプロセスです。学習プロセスや、後に予測に使用する場合、不正確なデータや偏ったデータ、不完全なデータは、不正確な予測につながる可能性があります。 なぜ機械学習ではデータ準備が重要なのですか? データは機械学習を活性化します。このデータを活用してビジネスを改革することは、難しいことではありますが、現在そして将来にわたって適切な存在であり続けるために必要不可欠です。それは最も情報に通じた人々の生き残りであり、データを活用し、より良い情報に基づいた意思決定を行うことができる人は、予期せぬ事態に素早く対応し、新たな機会を発見することができます。この重要かつ退屈なプロセスは、正確な機械学習モデルや分析を構築するための前提条件であり、機械学習プロジェクトで最も時間のかかる部分です。この時間の投資を最小限に抑えるために、データサイエンティストは様々な方法でデータ準備の自動化を支援するツールを使用することができます。 どのようにデータを準備するのですか? データ準備は、正しいデータの収集から始まり、クリーニング、ラベリング、そして検証や可視化といった一連のステップを踏みます。 データを収集する データの収集は、機械学習に必要なすべてのデータを集めるプロセスです。データはラップトップ、データウェアハウス、クラウド、アプリケーション内部、デバイスなど、多くのデータソースに存在するため、データ収集は面倒なものです。さまざまなデータソースに接続する方法を見つけるのは困難です。また、データボリュームは指数関数的に増加しているため、検索対象となるデータも膨大になります。さらに、データはソースによってフォーマットや種類が大きく異なります。例えば、動画データとテーブルデータを一緒に使うのは簡単ではありません。 データのクリーニング データ品質を確保するためのステップとして、エラーを修正し、データの欠落を補うのがデータのクリーニングです。クリーンなデータが得られたら、それを一貫性のある読みやすいフォーマットに変換する必要があります。このプロセスには、日付や通貨などのフィールドフォーマットの変更、命名規則の修正、測定の値や単位が一致するように修正することが含まれます。 データのラベル付け データラベリングは、raw データ (画像、テキストファイル、動画など) を識別し、コンテキストを提供するために 1 つ以上の意味のある有益なラベルを追加して機械学習モデルがそこから学習できるようにするプロセスです。例えば、ラベルは、写真に鳥や車が含まれているかどうか、音声録音でどの単語が使われているか、X 線検査で異常が発見されたかどうかを示すことがあります。データラベリングは、コンピュータビジョン、自然言語処理、音声認識など、さまざまなユースケースで必要になります。 検証および可視化 データのクリーニングとラベル付けが終わると、機械学習チームはデータが正しく、機械学習に適したものであることを確認するために、データを調査することがよくあります。ヒストグラム、散布図、箱ひげ図、折れ線グラフ、棒グラフなどの可視化は全て、データが正しいかどうかを確認するのに有効なツールです。さらに、可視化は、データサイエンスチームが探索的データ分析を行う際にも役立ちます。このプロセスは、パターンの発見、異常の発見、仮説の検証、仮定の確認に可視化データを使用します。探索的データ分析では、正式なモデリングは必要ありません。その代わりに、データサイエンスチームは、データを解読するために可視化を使用することができます。 AWS が行えるサポートは? Amazon SageMaker データ準備ツールは、組織が構造化データと非構造化データの両方から洞察を得るのに役立ちます。たとえば、 Amazon SageMaker Data Wrangler を使用すると、コード不要のビジュアルインターフェイスを介した組み込みのデータ視覚化機能により、構造化データの準備を簡素化できます。SageMaker Data Wrangler には 300 を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、機能をすばやく正規化、変換、および結合できます。また、必要に応じて、Python や Apache Spark でカスタム変換をもたらすことも可能です。非構造化データの場合、高品質でラベル付けされた大規模なデータセットが必要です。 Amazon SageMaker Ground Truth Plus を使用すると、自分でラベリングアプリケーションを構築したり、ラベリング作業員を管理したりしなくても、データのラベリングコストを最大 40% 削減しながら、高品質の ML トレーニングデータセットを構築できます。 ノートブック内でデータを準備したいアナリストやビジネスユーザーは、数回クリックするだけで Amazon SageMaker Studio ノートブックから Amazon EMR で実行されている Spark データ処理環境を視覚的に参照、検出、接続できます。接続後は、データのクエリ、探索、可視化をインタラクティブに行い、SQL、Python、またはScala などのお客様が選択した言語を使用して Spark ジョブを実行し、完全なデータ準備と機械学習ワークフローを構築することができます。 AWS での次のステップ 追加の製品関連リソースをチェックする 詳細 無料のアカウントにサインアップする AWS 無料利用枠にすぐにアクセスできます。 サインアップ コンソールで構築を開始する AWS マネジメントコンソールで、AWS を利用して構築を開始しましょう。 サインイン Browse all cloud computing concepts Browse all cloud computing concepts content here: ロード中 ロード中 ロード中 ロード中 ロード中 Did you find what you were looking for today? Let us know so we can improve the quality of the content on our pages Yes No