〔研究タスク〕4.データ収集

研究のタスク・サブタスクにおけるデータ収集の各項目について詳述していきます。

 

4.データ収集:

・データソースからデータ取得
・データの整形
・データのクリーニング(例:外れ値の処理、不適切なデータの削除)
・データの保管と管理

 

4.データ収集:

データソースからデータ取得:

 利用可能なデータソースを確認: 政策の分析に必要なデータを提供する可能性があるソースを洗い出します。これらは公的機関、非営利団体、商業データベースなど、さまざまなソースから取得可能です。
 データの取得: ソースからデータを直接ダウンロードしたり、APIを使用して取得したりします。いずれの方法も、使用許可とデータ使用規約を確認することが必要です。
 取得データの確認: データが適切に取得できたこと、そして期待通りの形式と内容であることを確認します。

 

データの整形と内容確認:

 データ形式の確認: データが分析に適した形式(例えば、CSVExcelSQLなど)であることを確認します。必要に応じてデータの形式を変換します。
 データ構造の整理: データが扱いやすい形になっていることを確認し、必要に応じて整理します。これには、欠損値の取り扱いやカテゴリデータのエンコーディングなどが含まれます。
 データの内容の確認: データの多くは調査主体の定義に従って整理されています。例えば、DHSなどの世帯調査は層化抽出法によって収集されており、詳細な地域コード、調査月、サンプリングウェイトなどの情報を理解する必要があります。これはほかのどのような調査でも同様です。

 

データのクリーニング:

 エラー値の確認: データに誤った値や不適切な値(例えば、範囲外の数値や書式違いの日付など)が含まれていないかを確認します。
 欠損値の処理: データに欠損値がある場合、適切な処理(例えば、除去、補完、または無視)を行います。通常、補完しません。
 一貫性と正確性の確認: データが一貫性を持っており、予想される範囲やパターンに従っていることを確認します。

 

データの保管と管理:

 データの保管: データは適切な形式で保存され、必要に応じてバックアップが取られます。これには、データの形式、命名規則、ファイル構造などが考慮されます。
 データのセキュリティ: データは適切なセキュリティ対策が施された場所に保存されます。これには、アクセス制御、暗号化、安全なデータ転送方法などが含まれます。
 データのアクセシビリティ: データは分析チームが必要な時に容易にアクセスできる形で整理・保存されます。これには、適切なメタデータドキュメンテーションが必要となります。