〔研究タスク〕6.データ分析

研究のタスク・サブタスクにおけるデータ分析の各項目について詳述していきます。

 

6.データ分析:

・政策効果の推定モデルの構築
・イベントスタディグラフを描く
・因果効果の推定
・結果の解釈
潜在的な問題の評価(例:過学習、バイアス)
・他のモデルや方法との比較分析

 

6.データ分析:

政策効果の推定モデルの構築:

 推定モデルの設計と仮説検証の計画: 理論的背景に基づき、使用するモデルの詳細な設計を行い、仮説の検証にどのように進むかを計画します。
 必要な統計手法やアルゴリズムの選択: データと研究目標に最も適した統計手法やアルゴリズムを選択します。
 モデルの構築を支援するツールやソフトウェアの利用: 適切なツールやソフトウェア(例:Stataなど)を使用してモデルを構築します。

 

イベントスタディグラフを描く:

 イベントスタディグラフ用モデルの設計: 政策効果の推定モデルに従ってモデルを拡張します。TWFEの文脈で適切な重みづけによるイベントスタディグラフの議論が盛んにおこなわれています。頑張ってフォローします。
 イベントスタディグラフを描く: 上記のモデルを推定し、イベントスタディグラフを描きます。アウトカムの数だけ推定しましょう。
 グラフの解釈: 作成したグラフから得られた情報を解釈し、分析に活用します。

 

因果効果の推定:

 因果効果の推定: 政策の因果効果を推定します。
 推定結果の確認と検証: 推定結果が信頼できるものであるかを確認し、必要に応じて検証作業を行います。

 

結果の解釈:

 推定結果の統計的意義の評価: 統計的に有意であることを確認します。
 理論的背景に基づき結果を解釈:推定結果の解釈は理論的背景から一意に解釈されます。
 推定結果の学術的意義の評価: 結果が実世界の状況にどのように適用できるかを評価します。
 

潜在的な問題の評価(例:過学習、バイアス):

 過学習やバイアスの可能性の検討: データの過学習やバイアスの可能性を調査します。
 モデルの改善や調整の必要性の判断: 必要に応じてモデルを改善または調整します。

 

他のモデルや方法との比較分析:

 他のモデルとの結果の比較: 同じデータセットを使用して他のモデルから得られた結果と比較します。
 分析方法の適切性と有効性の評価: 使用した分析方法が問題設定に対して適切であるか、また有効であるかを評価します。
 分析の信頼性と頑健性の確認: 分析結果が頑健であること、つまり様々な仮定やパラメータに対して一貫性があることを確認します。さらに、因果関係が異なるメカニズムで説明できないかを調べる。

 

 

〔研究タスク〕5.因果関係の概観

研究のタスク・サブタスクにおける因果関係の概観の各項目について詳述していきます。

 

5.因果関係の概観:

・推定前の散布図などのグラフ作成
・グラフから得られる洞察を用いた識別戦略の見直し

 

5.因果関係の概観:

推定前の散布図などの作成:

 変数間の関係を視覚的に確認するための散布図作成: 使用するデータセットを選び、それぞれの変数の相関関係を視覚的に理解するために散布図を作成します。これは、それぞれの変数が互いにどのように関係しているかを把握するのに役立ちます。ここで一番重要な散布図は、主たる推定モデルにおけるアウトカムと原因となる変数との散布図です。因果関係がありそうだ、と誰もが思えるグラフが必須です。
 散布図作成のためのソフトウェアやツールの使用: ソフトウェアを使用して散布図を作成します。私はSTATAを使用します。
 作成した散布図の解釈と分析: 作成した散布図を解釈し、変数間の関係、データの分布、異常値などを特定します。変数間の関係を解釈するさいには暗黙のうちに理論的な予測に基づくことになります。ですから、初めから因果関係を調べるための散布図を描きましょう。ここでの解釈は、後の分析ステップで使用します。

 

グラフから得られる洞察を用いた識別戦略の見直し:

 グラフを用いた因果効果の観察と解釈: グラフを詳しく見て、因果関係を観察し、それを解釈します。この解釈は、因果関係の理解と、どのようにそれを統計的にテストするかについての戦略に影響します。
 グラフから得られた情報に基づく因果関係の仮説検証: グラフから得られた情報を使用して、因果関係の仮説を検証します。これは、統計的モデリング、仮説検定、信頼区間の計算などを含むことがあります。
 分析モデルの選択や改善につながる新たな視点の発見: グラフから得られた情報を使用して、分析モデルを選択または改善します。これは、新たな変数の追加、相互作用項の検討、変換の導入などを含むことがあります。
 グラフに基づく結果のドキュメンテーションと共有: グラフとその解釈をドキュメンテーションし、関係者と共有します。これにより、全体の研究プロセスが透明性を保ち、他の人が結果を理解しやすくなります。

 

〔研究タスク〕4.データ収集

研究のタスク・サブタスクにおけるデータ収集の各項目について詳述していきます。

 

4.データ収集:

・データソースからデータ取得
・データの整形
・データのクリーニング(例:外れ値の処理、不適切なデータの削除)
・データの保管と管理

 

4.データ収集:

データソースからデータ取得:

 利用可能なデータソースを確認: 政策の分析に必要なデータを提供する可能性があるソースを洗い出します。これらは公的機関、非営利団体、商業データベースなど、さまざまなソースから取得可能です。
 データの取得: ソースからデータを直接ダウンロードしたり、APIを使用して取得したりします。いずれの方法も、使用許可とデータ使用規約を確認することが必要です。
 取得データの確認: データが適切に取得できたこと、そして期待通りの形式と内容であることを確認します。

 

データの整形と内容確認:

 データ形式の確認: データが分析に適した形式(例えば、CSVExcelSQLなど)であることを確認します。必要に応じてデータの形式を変換します。
 データ構造の整理: データが扱いやすい形になっていることを確認し、必要に応じて整理します。これには、欠損値の取り扱いやカテゴリデータのエンコーディングなどが含まれます。
 データの内容の確認: データの多くは調査主体の定義に従って整理されています。例えば、DHSなどの世帯調査は層化抽出法によって収集されており、詳細な地域コード、調査月、サンプリングウェイトなどの情報を理解する必要があります。これはほかのどのような調査でも同様です。

 

データのクリーニング:

 エラー値の確認: データに誤った値や不適切な値(例えば、範囲外の数値や書式違いの日付など)が含まれていないかを確認します。
 欠損値の処理: データに欠損値がある場合、適切な処理(例えば、除去、補完、または無視)を行います。通常、補完しません。
 一貫性と正確性の確認: データが一貫性を持っており、予想される範囲やパターンに従っていることを確認します。

 

データの保管と管理:

 データの保管: データは適切な形式で保存され、必要に応じてバックアップが取られます。これには、データの形式、命名規則、ファイル構造などが考慮されます。
 データのセキュリティ: データは適切なセキュリティ対策が施された場所に保存されます。これには、アクセス制御、暗号化、安全なデータ転送方法などが含まれます。
 データのアクセシビリティ: データは分析チームが必要な時に容易にアクセスできる形で整理・保存されます。これには、適切なメタデータドキュメンテーションが必要となります。

 

 

〔研究タスク〕3.先行研究の調査

研究のタスク・サブタスクにおける先行研究の調査の各項目について詳述していきます。

 

3.先行研究の調査:

・先行研究調査の計画
・先行研究調査の実施
・関連文献の読解と要約
・先行研究の知見を用いた研究デザインの改善

 

3.先行研究の調査:

先行研究調査の計画:

 調査する主題と関連するキーワードのリストアップ: 主題に関連するキーワードを洗い出し、これらのキーワードを組み合わせて最も関連性の高い文献を見つけるための基準を作ります。
 使用するデータベースの選定: 英語論文であればWeb of Scienceを使いましょう。それ以外の時は、研究の主題や領域によって最適なデータベースを選択します。
 検索範囲(年代、ジャーナルなど)の設定: 主題の重要性や研究の時期に応じて、検索する文献の年代範囲を設定します。ジャーナルの指定も必要であれば行います。英語の論文を探す場合は、評価の高い学術誌に限定しましょう。それでも100篇くらいは見つかるはずです。
 

先行研究調査の実施:

 データベースでの検索: 事前に設計した検索クエリを使ってデータベースでの検索を実施します。
 関連度の高そうな文献の抽出: 検索結果から、研究主題に関連度の高そうな文献を抽出します。
 抽出した文献の大まかな内容確認: 抽出した文献のアブストラクトや序論、結論部分を読み、内容が自分の研究主題に適しているかを確認します。
 関連論文を網羅的にチェック: Web of Scienceを使うと、関連する論文(関連の強い研究が引用している論文、その論文を引用している論文)を簡単に見つけられます。
 必要に応じて検索クエリの調整と再検索: 検索結果が期待通りでなければ、検索クエリを調整し、再度検索を行います。

 

関連文献の読解と要約:

 文献全体の読解: 選択した文献を詳細に読み、その内容を深く理解します。文献の読解は論文の進捗によって理解度が異なります。何度も読むことになるであろう論文を印刷して手元に置いておきます。
 主な研究結果、手法、考察等の要約作成: 文献の主要な点(例えば、研究の目的、方法、結果、議論など)を要約します。専用のエクセルを作ると複数の論文を進めた時に管理をしやすくなります。
 独自の見解や感想のメモ: 文献を読んで得た独自の見解や感想、さらに追求したい問い等をメモします。

 

先行研究の知見を用いた研究デザインの改善:

 先行研究の結果を用いて自身の研究デザインや仮説の検討: 先行研究の結果を用いて、自分の研究デザインを改善したり、研究仮説を検討したりします。
 先行研究の手法を参考に自身の分析方法の見直し: 先行研究の分析手法を参考に、自分の分析方法を改善するかどうかを考えます。
 先行研究の議論から新たな視点や問いの発見: 先行研究の議論を通じて、新たな視点や問いを見つけ、自分の研究に組み込むか検討します。論文の位置づけをより高いものにするために重要な手続きです。

 

 

 

〔研究タスク〕2.背景理解と政策分析

研究のタスク・サブタスクにおける背景理解と政策の分析について説明します。

 

2.    背景理解と政策の分析:
•    政策の特性の理解とドキュメンテーション
•    因果効果を識別するための戦略の理解と計画
•    政策の文脈や影響を理解するための資料収集
•    政策の処置群や対照群の理解

 

2.    背景理解と政策の分析:

政策の特性の理解とドキュメンテーション:

 政策ドキュメントの詳細な読解: 政策の主要な目標、その目的、およびそれを実施する機関についての詳細を把握します。
 インタビューや専門家の意見の調査: 追加情報や明確な解釈を得るために、関連専門家と話すか、既存のインタビューや発言を探します。アネクドートを集めるような感じです。理論的予想が著しくアネクドートと矛盾しないか、矛盾するとすればなぜかを確認する作業になります。したがって、この作業の内容は論文に書かない可能性が高いです。
 ポテンシャルな影響リストの作成: 政策が影響を与える可能性がある人々や産業のリストを作成します。
 直接的、間接的影響の分類: 影響を受ける各グループが、政策によって直接影響を受けるのか、間接的に影響を受けるのかを特定します。
 政策の実施内容の詳細なリスト作成: 政策の具体的な実施内容についての詳細なリストを作成します(例:金額、期間、対象地域等)。
 疑問点や不明確な部分の明確化: 政策実施の詳細が不明確な場合や、疑問点がある場合は、それを明らかにします。

 

因果効果を識別するための戦略の理解と計画:

 データと問題の理解に基づく変数の選択: あなたが持っているデータと問題の理解に基づいて、何を被説明変数とし、何を説明変数とするかを決定します。当初想定していないアウトカムがあるはずです。また、影響を受けるはずのないアウトカムについても分析をすることで、議論や理解を深めることができます。
 選択した統計的手法の前提条件の確認: 自然実験アプローチは、因果関係を識別するためのデザインがあり、それには常に仮定がおかれています。例えば、差分の差分法はコモントレンドの仮定がおかれています。
 制約や前提条件が満たされない場合の対応策の計画: すべての前提条件や制約が満たされない場合、その対応策を計画します。

 

政策の文脈や影響を理解するための資料収集:

 二次資料のレビュー: このサブタスクは、政策の背景や影響に関する二次資料(例えば、報告書、ニュース記事など)のレビューを含みます。先行研究調査で取り上げないような学術論文はここで集めます。
 データの収集: 統計分析には直接用いることは無い可能性のあるデータを収集します。サイドエビデンスとして使うかもしれないからです。当然のことながら、使わないかもしれないので、この作業にあまり時間をかけたりはしません。「必要な時に集められる」くらいが理想的かもしれません。

 

政策の処置群と対照群の理解:

 処置群と対照群の特定: 政策が直接影響を与えるグループ(処置群)と、政策の影響を受けない比較対象のグループ(対照群)を特定します。様々なパターンがあり得る場合があります。注意深く考える必要があります。
 比較可能性の評価: 処置群と対照群が比較可能であることを評価します。論理的にも統計的にも評価します。

 

〔研究タスク〕1.問題定義と研究デザイン

研究のタスク・サブタスクにおける問題定義と研究デザインの各項目について詳述していきます。

  1. 問題定義と研究デザイン:
    •    研究の目的の明確化:
    •    研究問題が経済学の理論的な枠組みとどのように関連しているかを理解する:
    •    リサーチクエッションを経済学の理論に基づいて定義する:
    •    必要なデータの種類とソースの特定:
    •    理論的な予測を使用して分析モデルを選択する:
    •    研究デザインのドキュメンテーション:
    •    因果関係を概観するグラフ作成の勉強と練習:

 

1. 問題定義と研究デザイン

研究の目的の明確化: 
 研究が解決しようとする具体的な問題を特定: 問題を明確に定義し、それが何であるか、どのように発生するかを理解します。
 その問題が社会的、学術的になぜ重要なのかを明確に: 問題がどのような広範な文脈に関連しているか、そしてその解決がどのように重要な貢献を提供するかを説明します。このパートは先行研究を読まずに確定することはできません。

 

リサーチクエッションが学問分野の理論的な枠組みとどのように関連しているかを理解する:

 関連する学術的理論の選択と理解: 研究問題に適用できる理論を見つけ、それらの理論の基本的な原則を理解します。
 その理論が提供する洞察を研究問題にどのように適用するかの検討: どのように理論が問題に対する理解を深めるかを評価し、どのように理論が問題解決に役立つかを考察します。

 

リサーチクエッションを学問分野の理論に基づいて定義する:

 リサーチクエッションの初期バージョンの作成: 問題を理解するための初期の質問を設計します。
 理論に基づく洞察を用いてリサーチクエッションの改良: 既存の理論を用いて、これらの質問を精緻化または改良します。これにより、研究問題が理論的なフレームワークに明確に根ざすようにします。

 

必要なデータの種類とソースの特定:

 分析に必要なデータのリスト作成: 研究に必要なすべてのデータをリスト化します。
 各データがどのリソースから得られるかの確認: それぞれのデータがどこから入手できるかを特定します。データは、公的な統計、調査データ、企業の内部データなど、さまざまなソースから得られる可能性があります。

 

理論的な予測を使用して分析モデルを選択する:

 理論に基づく予測の作成: 選択した理論に基づいて、理論的な予測を設定します。
 それらの予測を最もよくテストできる分析モデルの選択: 各予測を検証するための最適な統計モデルを選択します。ここでは、制度や入手できるデータの特徴を踏まえて大まかに識別戦略を決めます。

 

研究デザインのドキュメンテーション:

 デザインの詳細を明記した文書の作成: 研究の全プロセスを詳述した文書を作成します。これには、研究の目的、理論的な枠組み、リサーチクエッション、データソース、分析モデルなどが含まれます。
 デザインの見直しや改善に用いるフィードバックの収集: 他の研究者や専門家からフィードバックを収集し、それを用いてデザインを改善します。

 

因果関係を概観するグラフ作成の勉強と練習:

 因果関係を表現するためのグラフ作成方法の学習: 可視化技術を学び、どのように因果関係を視覚的に表現できるかを理解します。
 具体的なデータを使用してグラフ作成の練習: 実際のデータを使ってグラフを作成し、その技術を練習します。

大学院進学のための研究計画書の書き方(4)

書き方(1)書き方(2)書き方(3)の続き

 

研究計画書の構造

  1. タイトル
  2. 研究の概要
  3. 研究の背景・目的
  4. 先行研究(研究の背景や研究の貢献に書くことも)
  5. 研究の貢献
  6. 研究の枠組み(理論的予想など)
  7. 分析方法
  8. 期待される成果

 

4.先行研究

先行研究を紹介する理由は、自分の研究の位置づけ、貢献を明確にするためです。要するに自分の研究をアピールするために書きます。関連する研究を紹介する場所ではありません。分野によっては評価の高い学術誌であっても関連研究を並べるような論文が掲載されていますが、そんなのは全部脚注で十分であり、研究計画で羅列する必要はありません。

 

研究計画の学術的背景を端的に説明するために先行研究を引用します。先行研究を引用しつつ主張すべきことは、「これまで多くの研究者が学術的な関心のもとで、研究を行ってきた。ただ、もっとも肝心なこのことがわかっていないので、本研究で扱う(だから、私の研究は大事)」ということです。つまり、この主張になるように逆算的に先行研究を引用し、並べていきます。どれだけ説得的にこの文章を書けるのかが研究者の力の見せ所でもあります。もし、段落として独立させるならば、やはりこの段落も4つの文章で書くことになります。

 

短い研究計画であれば、一文で説明する必要があるでしょう。つまり、書き方(2)で説明した、位置づけに関する文章(2文目)がそれにあたります。あの文章に最適な先行研究を引用することができればよいのです。

 

卒論・修論でよく見かけるのは、「このような研究は沢山行われてきたけれども、本研究が扱うアプリケーションではなかったため、それが私の研究の貢献です。」的なものです。学術的な進歩という意味では、そのような研究に意義がある場合もあるのですが、研究計画が必要な状況というのはアピールの場所なので、もう少し頑張ってほしいものです。ちなみに、このような研究は銅鉄研究(論文)と呼ばれています。

 

印象が最悪なのは、自分のリサーチクエッションの貢献を大きく見せるために、論理的ではあるけれども、引用が不明瞭だったり、論理とは関連の弱い論文を引用するケースです。嘘は書かれていないとしても、非常に残念な気持ちになります。これは、論文を深く読み込めない研究者においてしばしば起きている現象だと思います。大学院受験の際の研究計画の段階では、しばしば起きてしまうことでしょうから、指導教員や先輩、あるいはその分野をよく知っていそうな研究者に相談するようにするのが無難だと思います。ちなみに、私自身も論文を書く際には最も注意する部分の一つです。

 

たった一文かもしれないこの文章が読者に論文の価値を明示する最大の機会といっても過言ではありません。そのため、この文章を書くためだけに、かなりの時間をかける必要があります。

 

先行研究の調べかた

これは、どのような研究テーマなのかだけでなく、どのくらいの質の研究を目指しているのかに依存します。指導教員になる方があなたをどのように研究教育するのかという方針にもよるでしょうから、ここではあまり詳しいことは述べません。いつかまた別のパートで説明するかもしれません。