R:既知の非正規分布への探索変数の分布の調整 -- r フィールド 関連 問題

R: Adjusting exploratory variable's distribution to known non-normal distribution












0
vote

問題

日本語

私は米国人口のサンプルのためのデータを持っています。サンプルのデータセットは n = 10,000レコードを持っています。各行は、定量的説明変数 E で記述されており、人々が購入されたアイテムを返す確率 r に影響を与える価格。サンプルおよび集団が R に結合する統計モデルの有効性を確実にするために E の同様の分布を有することが必要である。

米国人口およびサンプル内の E の周波数分布との間には大きな不一致がある(以下の要約参照)。特に、正常な分布は人口分布のうまく説明されていないようです。

<事前> <コード> Value of E Population Distribution of E Sample Distribution of E 0-10 56.57% 92.95% 10.01 - 20 6.90% 1.19% 20.01 - 30 8.29% 1.38% 30.01-40 5.87% 0.85% 40.01 - 50 8.18% 0.32% 50.01 - 60 4.63% 0.48% 60.01-70 1.34% 0.32% 70.01 - 80 1.50% 0.08% 80.01 - 90 0.29% 0.49% 90.01-100 3.72% 1.12% 100.01-110 2.10% 0.69% 110.01-120 0.24% 0.00% 120.01+ 0.35% 0.13%

サンプルの e -distributionを人口に似ているようにするために、 r でやるべき良いことは何ですか? e の値が無効になると、サンプルデータをフィルタリングしようとしました。同時に、ほとんどの共通の変換が通常の分布にデータを適合させようとするので、どの変換が正常な配布に適合しようとしているのかわかりません。

私自身は、eの変換(おそらく重み付けを含む)が許容され、行の境界線の削除、および禁止された新しい行の作成---しかし、私は通常のコンテキストで通常許容されるものであると考えています。私の。

英語

I have data for a sample of the U.S. population. The dataset for the sample has N = 10,000 records. Each row is described by a quantitative explanatory variable E, a price that affects the probability R that people return a bought item. It is necessary for the sample and population to have similar distribution of E to ensure validity of statistical models linking it to R.

There is a significant discrepancy between the frequency distributions of E in the U.S. population and in the sample (see summary below). In particular, a normal distribution does not seem to describe well the population distribution.

Value of E  Population Distribution of E    Sample Distribution of E 0-10        56.57%  92.95% 10.01 - 20  6.90%   1.19% 20.01 - 30  8.29%   1.38% 30.01-40    5.87%   0.85% 40.01 - 50  8.18%   0.32% 50.01 - 60  4.63%   0.48% 60.01-70    1.34%   0.32% 70.01 - 80  1.50%   0.08% 80.01 - 90  0.29%   0.49% 90.01-100   3.72%   1.12% 100.01-110  2.10%   0.69% 110.01-120  0.24%   0.00% 120.01+     0.35%   0.13% 

What are good things to do in R to make the sample's E-distribution more akin to the population's, hopefully to match it? I have tried filtering off sample data with low E values to no avail. At the same time, I am not quite sure which transformations to use since most of the common transformations attempt to fit data to a normal distribution --- which does not seem applicable here.

I myself think that transformations (possibly including weightings) of E are permissible, deletion of rows borderline acceptable, and creation of new rows forbidden --- but I would appreciate any input on what operations are usually considered permissible in contexts similar to mine.

</div
  
   
   

回答リスト

0
 
vote

これに最適な方法は予測間隔を使用します。あなたのサンプルのほとんどがEのための非常に低い値を持っていることは明らかです。これは、あなたがあなたのデータの範囲から離れて遠くに移動するように、あなたがEの低い値のためのRの予測値について比較的確信していることを意味します。 e)の高値は、Rの予測についてははるかに自信がありません。

 

The best way to this would be using prediction intervals. It is clear that most of your sample has very low values for E. This means that you are relatively confident about the predicted value of R for low values of E. However, as you move farther away from the range of your data (i.e. very high values of E), you are much less confident about your predictions for R.

</div
 
 

関連する質問

12  Rの重複属性を持つ行を取り除きます  ( Get rid of rows with duplicate attributes in r ) 
私は次のような列を持つ大きなデータフレームを持っています。 <事前> <コード> ID, time, OS, IP そのデータフレームの各行は1つのエントリに対応します。一部の IDS 複数のエントリ(行)のデータフレーム内には存在します。それらの複数行を...

7  経済学を教えるための最高のプログラミング言語? [閉まっている]  ( Best programming language for teaching econometrics ) 
現在立つにつれて、この質問は私たちのQ&AMPにとって良いフィットではありません。フォーマット。私たちは事実、参考文献、または専門知識によって支持されることを期待していますが、この質問は...

5  複数の変数で変換された複数の列を追加する  ( Adding multiple columns transforming with multiple variables ) 
多くの変数から値を追加する方法? 2つの変数(列)を持っていた場合、私は単に行くことができます: <事前> <コード> summation.variable <- variable1 + variable2 またはそれがすべてデータフレームにあった場合:...

1  Rを使用してデータポイントの対数形式のデータポイントを推定するにはどうすればよいですか。  ( How can i estimate the logarithmic form of data points using r ) 
対数関数を表すデータ点を持っています R?を使ってこのデータを説明する関数を推定できるアプローチはありますか? ありがとう。 ...

2  空の文字列を含めるとRテーブルの列の順序  ( R table column order when including the empty string ) 
空の文字列を含む一連の値があります レベル(MyData $ Phone_Partner_Products) "" dont_know "" mays_intesting "> "not_inteenting" "very_not_inter...

4  ASCIIキャラクターを表示します  ( Show an ascii character ) 
ブロックASCII文字█を表示したい(ASCIIコードは219)、 ターミナルに表示する方法は? winxp でRGUIを使用しています ...

26  Rのベクトルで考える  ( Thinking in vectors with r ) 
私は、Rがベクトルとループを使って最も効率的に機能することを知っています。私は実際にこのようにコードを書くために自分自身を教えるのに苦労しています。私のコードを「ベクトル化」する方法についてのいくつかのアイデアが欲しいのですが。これは、10,000個の固有の状...

8  R:シンプルなコマンドラインの作成ツール/キャプチャウィンドウ閉じるイベント  ( R building a simple command line plotting tool capturing window close events ) 
単純なコマンドラインプロットツールとして機能するスクリプト内でRを使用しようとしています。 NS。ユーザーパイプはCSVファイルでプロットを取得します。私はr罰金に到達して、さまざまな一時ファイルの機械加工を通して展示するためにプロットを取得することができます...

10  RBIで変数をバインドします  ( Bind variables in r dbi ) 
Rの DBI パッケージで、バインド変数を使用するための機能を見つけていません。私はバインド変数について言われた文書(2002年からのオリジナルのビネット)を見つけました、「おそらくDBIはこの機能を実装することができます」はこれまでのところ、元に戻すことが...

191  あなた自身の関数を書くときにRの省略記号機能を使う方法?  ( How to use rs ellipsis feature when writing your own function ) 
R言語は、可変数の引数を取ることができる関数を定義するためのNIFTY機能を持っています。たとえば、関数 data.frame は任意の数の引数を取り、各引数は結果のデータテーブル内の列のデータになります。使用例: <事前> <コード> > data.fra...




© 2022 cndgn.com All Rights Reserved. Q&Aハウス 全著作権所有