# R：既知の非正規分布への探索変数の分布の調整 -- r フィールド 関連 問題

## R: Adjusting exploratory variable's distribution to known non-normal distribution

0

### 問題

<事前> <コード> Value of E Population Distribution of E Sample Distribution of E 0-10 56.57% 92.95% 10.01 - 20 6.90% 1.19% 20.01 - 30 8.29% 1.38% 30.01-40 5.87% 0.85% 40.01 - 50 8.18% 0.32% 50.01 - 60 4.63% 0.48% 60.01-70 1.34% 0.32% 70.01 - 80 1.50% 0.08% 80.01 - 90 0.29% 0.49% 90.01-100 3.72% 1.12% 100.01-110 2.10% 0.69% 110.01-120 0.24% 0.00% 120.01+ 0.35% 0.13%

サンプルの e -distributionを人口に似ているようにするために、 r でやるべき良いことは何ですか？ e の値が無効になると、サンプルデータをフィルタリングしようとしました。同時に、ほとんどの共通の変換が通常の分布にデータを適合させようとするので、どの変換が正常な配布に適合しようとしているのかわかりません。

I have data for a sample of the U.S. population. The dataset for the sample has N = 10,000 records. Each row is described by a quantitative explanatory variable E, a price that affects the probability R that people return a bought item. It is necessary for the sample and population to have similar distribution of E to ensure validity of statistical models linking it to R.

There is a significant discrepancy between the frequency distributions of E in the U.S. population and in the sample (see summary below). In particular, a normal distribution does not seem to describe well the population distribution.

``Value of E  Population Distribution of E    Sample Distribution of E 0-10        56.57%  92.95% 10.01 - 20  6.90%   1.19% 20.01 - 30  8.29%   1.38% 30.01-40    5.87%   0.85% 40.01 - 50  8.18%   0.32% 50.01 - 60  4.63%   0.48% 60.01-70    1.34%   0.32% 70.01 - 80  1.50%   0.08% 80.01 - 90  0.29%   0.49% 90.01-100   3.72%   1.12% 100.01-110  2.10%   0.69% 110.01-120  0.24%   0.00% 120.01+     0.35%   0.13% ``

What are good things to do in R to make the sample's E-distribution more akin to the population's, hopefully to match it? I have tried filtering off sample data with low E values to no avail. At the same time, I am not quite sure which transformations to use since most of the common transformations attempt to fit data to a normal distribution --- which does not seem applicable here.

I myself think that transformations (possibly including weightings) of E are permissible, deletion of rows borderline acceptable, and creation of new rows forbidden --- but I would appreciate any input on what operations are usually considered permissible in contexts similar to mine.

</div

## 回答リスト

0

これに最適な方法は予測間隔を使用します。あなたのサンプルのほとんどがEのための非常に低い値を持っていることは明らかです。これは、あなたがあなたのデータの範囲から離れて遠くに移動するように、あなたがEの低い値のためのRの予測値について比較的確信していることを意味します。 e）の高値は、Rの予測についてははるかに自信がありません。

The best way to this would be using prediction intervals. It is clear that most of your sample has very low values for E. This means that you are relatively confident about the predicted value of R for low values of E. However, as you move farther away from the range of your data (i.e. very high values of E), you are much less confident about your predictions for R.

</div

## 関連する質問

12  Rの重複属性を持つ行を取り除きます  ( Get rid of rows with duplicate attributes in r )

7  経済学を教えるための最高のプログラミング言語？ [閉まっている]  ( Best programming language for teaching econometrics )

5  複数の変数で変換された複数の列を追加する  ( Adding multiple columns transforming with multiple variables )

1  Rを使用してデータポイントの対数形式のデータポイントを推定するにはどうすればよいですか。  ( How can i estimate the logarithmic form of data points using r )

2  空の文字列を含めるとRテーブルの列の順序  ( R table column order when including the empty string )

4  ASCIIキャラクターを表示します  ( Show an ascii character )
ブロックASCII文字█を表示したい（ASCIIコードは219）、 ターミナルに表示する方法は？ winxp でRGUIを使用しています ...

26  Rのベクトルで考える  ( Thinking in vectors with r )

8  R：シンプルなコマンドラインの作成ツール/キャプチャウィンドウ閉じるイベント  ( R building a simple command line plotting tool capturing window close events )

10  RBIで変数をバインドします  ( Bind variables in r dbi )
Rの DBI パッケージで、バインド変数を使用するための機能を見つけていません。私はバインド変数について言われた文書（2002年からのオリジナルのビネット）を見つけました、「おそらくDBIはこの機能を実装することができます」はこれまでのところ、元に戻すことが...

191  あなた自身の関数を書くときにRの省略記号機能を使う方法？  ( How to use rs ellipsis feature when writing your own function )
R言語は、可変数の引数を取ることができる関数を定義するためのNIFTY機能を持っています。たとえば、関数 data.frame は任意の数の引数を取り、各引数は結果のデータテーブル内の列のデータになります。使用例： <事前> <コード> > data.fra...