〔研究タスク〕4.データ収集
研究のタスク・サブタスクにおけるデータ収集の各項目について詳述していきます。
4.データ収集:
・データソースからデータ取得
・データの整形
・データのクリーニング(例:外れ値の処理、不適切なデータの削除)
・データの保管と管理
4.データ収集:
データソースからデータ取得:
利用可能なデータソースを確認: 政策の分析に必要なデータを提供する可能性があるソースを洗い出します。これらは公的機関、非営利団体、商業データベースなど、さまざまなソースから取得可能です。
データの取得: ソースからデータを直接ダウンロードしたり、APIを使用して取得したりします。いずれの方法も、使用許可とデータ使用規約を確認することが必要です。
取得データの確認: データが適切に取得できたこと、そして期待通りの形式と内容であることを確認します。
データの整形と内容確認:
データ形式の確認: データが分析に適した形式(例えば、CSV、Excel、SQLなど)であることを確認します。必要に応じてデータの形式を変換します。
データ構造の整理: データが扱いやすい形になっていることを確認し、必要に応じて整理します。これには、欠損値の取り扱いやカテゴリデータのエンコーディングなどが含まれます。
データの内容の確認: データの多くは調査主体の定義に従って整理されています。例えば、DHSなどの世帯調査は層化抽出法によって収集されており、詳細な地域コード、調査月、サンプリングウェイトなどの情報を理解する必要があります。これはほかのどのような調査でも同様です。
データのクリーニング:
エラー値の確認: データに誤った値や不適切な値(例えば、範囲外の数値や書式違いの日付など)が含まれていないかを確認します。
欠損値の処理: データに欠損値がある場合、適切な処理(例えば、除去、補完、または無視)を行います。通常、補完しません。
一貫性と正確性の確認: データが一貫性を持っており、予想される範囲やパターンに従っていることを確認します。
データの保管と管理:
データの保管: データは適切な形式で保存され、必要に応じてバックアップが取られます。これには、データの形式、命名規則、ファイル構造などが考慮されます。
データのセキュリティ: データは適切なセキュリティ対策が施された場所に保存されます。これには、アクセス制御、暗号化、安全なデータ転送方法などが含まれます。
データのアクセシビリティ: データは分析チームが必要な時に容易にアクセスできる形で整理・保存されます。これには、適切なメタデータとドキュメンテーションが必要となります。