データ探索の高速化
あらゆるデータセットを素早く理解する。AIを使ってデータをプロファイリングし、問題を発見し、チャンスを特定する。
プレミアムコースコンテンツ
このレッスンはプレミアムコースの一部です。Proにアップグレードすると、すべてのプレミアムコースとコンテンツを利用できます。
- すべてのプレミアムコースを利用
- 1,000以上のAIスキルテンプレート付き
- 毎週新しいコンテンツを追加
探索フェーズ
🔄 前のレッスンで、良い分析問いの立て方を学んだ。今回はその土台の上に、データそのものを理解する方法を構築する。
データの問いに答える前に、データそのものを理解する必要がある。
どんな列があるか?それは何を意味するか?値の範囲は?どこに欠落があるか?
これがデータ探索だ——そしてAIがワークフローを劇的に加速してくれる領域だ。
データプロファイリングチェックリスト
新しいデータセットでは、以下を理解する:
1. 構造
- 何行(レコード)あるか?
- 何列(フィールド)あるか?
- 列名は何か?
2. データ型
- どの列が数値か?
- どれがテキスト(カテゴリ)か?
- どれが日付か?
- どれが識別子か?
3. 値の範囲
- 数値列の最小/最大は?
- カテゴリ列のユニーク値は?
- カバーしている日付範囲は?
4. 品質の問題
- 欠損値(どの列に、何件?)
- 重複は?
- 明らかなエラーや外れ値は?
- 不整合なフォーマットは?
5. 関係性
- 列同士はどう関連しているか?
- 他のデータと結合するためのキーは?
AIパワーのデータプロファイリング
AIを使って素早くプロファイリングする:
以下のデータセット(最初の100行)をプロファイリングしてください:
[データを貼り付け]
以下の項目を分析してください:
1. 構造
- 列数とその名前
- 各列の想定される目的
2. データ型
- 各列の分類(数値、カテゴリ、日付、ID)
- 混在型のフラグ
3. 値の分析
- 数値列:最小値、最大値、概算平均
- カテゴリ列:ユニーク値(10個まで)
- 日付列:カバー範囲
4. 品質の問題
- 欠損値がある列と概算パーセンテージ
- 明らかな外れ値や疑わしい値
- 不整合(フォーマット、命名)
5. 初期の所見
- 異常または注目すべき点
- 列間の潜在的な関係性
1つのプロンプトで、手動なら1時間かかるものが手に入る。
よくあるデータ品質の問題
これらを素早く見抜けるようになろう:
欠損値
探すもの: 空白、「N/A」、「NULL」、プレースホルダーとしての「0」
問うべき質問:
- 欠損はランダムか体系的か?
- この行を除外すべきか、値を埋めるべきか、なぜ欠損しているか調査すべきか?
外れ値
探すもの: 正常範囲から大きく外れた値
問うべき質問:
- データ入力エラーか、正当な極端なケースか?
- 平均や合計を歪めるか?
- 別途扱うべきか?
重複
探すもの: 同一または近似の行
問うべき質問:
- 本当の重複か、有効な繰り返しエントリか?
- 何がその行をユニークにするか?
不整合なフォーマット
探すもの:
- 日付フォーマットの混在(2024/01/15 vs 01-15-2024)
- テキストの表記ゆれ(東京、Tokyo、TOKYO)
- 数値の不整合(¥1,000 vs 1000)
✅ Quick Check: データ品質の4大問題を挙げてみよう:欠損値、外れ値、重複、そしてもう1つは?(答え:不整合なフォーマット)
怪しいパターン
探すもの:
- 切りの良い数字が多すぎる(推定値であり実測値ではない可能性)
- デフォルト値の過剰使用
- 予期しない負の値
5分間データ探索ルーティン
新しいデータセットを受け取ったら、これを素早く実行する:
1〜2分目:基本情報を押さえる
AI:「このデータセットを要約してください。列は何で、何行あり、どの期間をカバーしていますか?」
3〜4分目:品質をチェック
AI:「データ品質の問題を特定してください:欠損値、外れ値、重複、不整合。」
5分目:初期パターン
AI:「このデータにどんなパターンや関係性が見えますか?このデータで答えられる問いは?」
5分間の探索が、不良データでの何時間もの作業を防ぐ。
実践的な探索ワークフロー
スプレッドシートデータの場合
- 開いてスキャン —— 構造の視覚的な把握
- 列でフィルタ —— キー列のユニーク値を確認
- 列でソート —— 最小/最大を発見、外れ値を検出
- AIを使う —— 見逃した問題のプロファイリング
大規模データの場合
- まずサンプリング —— 代表的なサンプルで作業
- サンプルをプロファイリング —— 構造と問題を理解
- パターンを検証 —— 全データセットで確認
- 問題を記録 —— クリーニングが必要な点をメモ
演習:このデータをプロファイリングしよう
サンプルデータセットを使って、チェックリストでプロファイリングしてみよう:
日付,顧客名,地域,商品,売上,数量
2024-01-15,ABCコーポレーション,関東,ウィジェットA,1500000,100
2024-01-16,デルタ株式会社,関西,ウィジェットB,2250000,150
2024-01-17,ABCコーポレーション,関東,ウィジェットA,-50000,
01/18/2024,ガンマ合同会社,東北,ウィジェットC,1800000,120
2024-01-19,ABCコーポレーション,関東,ウィジェットa,1600000,105
2024-01-20,イプシロン,中部,ウィジェットB,0,0
2024-01-21,ABCコーポレーション,関東,ウィジェットA,1550000,NULL
どんな問題が見つかるだろうか?——日付フォーマットの混在、負の売上、欠損数量、表記ゆれ(ウィジェットA vs ウィジェットa)、ゼロ値、文字列としてのNULLなど。
Key Takeaways
- 分析の前に必ずデータをプロファイリングする——構造、型、範囲、問題を理解
- AIでプロファイリングを高速化:1つのプロンプトで手動1時間分を発見
- よくある問題に注意:欠損値、外れ値、重複、フォーマットの不整合
- 5分間データ探索ルーティンで問題を早期に発見
- データセット内の関係性と、他のデータソースとの関係を理解
- 発見した問題を記録する——データクリーニングの際に必要になる
Up next: 次のレッスンでは、伝わるビジュアライゼーション——発見を明確に伝えるチャートの作り方を学ぶ。
理解度チェック
まず上のクイズを完了してください
レッスン完了!