Pythonで大規模なデータセットを扱うための最良の方法 -- python フィールド と pycharm フィールド と large-data フィールド と bigdata フィールド 関連 問題

best way to work with large dataset in python












2
vote

問題

日本語

私は大規模な財務データセットを使って働いています(今は15GBは200 GB後になります)。それを扱う最善の方法は何でしょうか。特に、私はいくつかの統計的テストをし、ミリ秒データを使用していくつかのグラフを生成したいです。これまでのところ私は簡単な揺れのためにSQLite3を使用しましたが、ファイルのサイズを処理することができないようです。私はpycharmを使っています(それが役立つかどうかわからない)

英語

I am working with a large financial dataset (15gb for now but will be 200 gb later). what will be the best way to work with it. In particular, I want to do some statistical tests and produce some graphs using millisecond data. So far I have used sqlite3 for the shake of easiness but it seems not able to handle the size of the file. I am using PyCharm (not sure if it helps)

</div
           
 
 

回答リスト

1
 
vote

SQLiteは、大規模なデータを管理したい場合は、優れた代替手段ではありません(実際には、プロトタイピングやテスト以外のものにSQLiteを使用しません)。

Amazon RDSを使用してデータベースを保存することができます http://aws.amazon.com/es / rds / とAmazonがオファーが提供するデータベースエンジンの1つを選択します。

Pythonを使用するために、DBエンジンに要求を処理するようにして、Pythonを使用してグラフを作成するだけです。

 

sqlite is not a good alternative if you want to manage large ammounts of data (actually I wouldn't use sqlite for something other than prototyping or running tests).

You can try using amazon RDS to store the database http://aws.amazon.com/es/rds/ and choose between one of the database engines that amazon offers.

As for using Python, I think you should let the DB engine to handle the requests and just use python to produce the graphs.

</div
 
 
   
   

関連する質問

1  どのように私は簡単に配列データベースRasdamanを学ぶことができますか?  ( How can i learn array database rasdaman easily ) 
私はベトナムで働いています - ハノイ国立大学と私はArray DatabaseによるBigData衛星ラスターイメージの研究です。 解決策は、長年開発されたRasdamanデータベースを使用しています。このサーバーを正常にインストールしました。このガイドをr...

-1  地図上に描画するためのいくつかのヒートマップライブラリとは何ですか?  ( What are some heatmap libraries for drawing on maps ) 
私はPycharmで働いています、そして、私は分析したいという大きなデータセットを持っています。私はこれを行うための最良の方法を決めました。米国を示す地質熱マップを通してのことです。 私はFISOIUSとプロットを知っていますが、私はそれ以上がそこにあるかどう...

2  すべてのスレーブとマスターにはHadoopに同じユーザー名が必要ですか?  ( Is it necessary for all slaves and the master need to have the same user name in ) 
すべてのスレーブとマスターに同じユーザー名を持つべきですか? すべてのスレーブとマスターは同じ道にHadoopを持っているべきですか? YESの場合、上記の制限を克服する方法はありますか? ...

0  HadoopとCassandra 2列を比較する  ( Hadoop and cassandra to compare 2 rows ) 
Cassandra ColumnFamilyには2行があり、列の値を同じ列名で比較したい場合があります。例えば: cf:user キー:列: .................................................... ......

0  DataNodeとNameNodeは実行されますがUIには反映されません  ( Datanode and namenode runs but not reflected in ui ) 
ハドープのマスターとスレーブを設定する際に小さな後退し、マスターのMy NameNodeとDataNodeの両方があり、スレーブアップして実行しています。 しかし、WebUIのLINGUNDは反映されていませんが、ノードは実行されています。 すでにファイアウォ...

1  D3JSは大量のノードを強制します  ( D3js force large number of nodes ) 
pl。このnoobの質問で私を助けてください。私は大量(70000)のノードを持つネットワークを見せたい、そして力のレイアウトでは210万つのリンクです。これを行うための良いとスケーラブルな方法を探してください。 実際にそのような大きなノードを実際に見せ...

1  電子商取引ソフトウェアで大量の亜種(300万+)を処理する  ( Handling large amounts of variants 3 million in e commerce software ) 
ボスは私が1項目あたり300万のエントリーを言うときに私を信じていません。遅延、通知、そして一部のサーバーを拡大縮小するように私に言った。 私は、複数の電子商取引統合からデータを引き出すサーバ側の実装を有し、アイテムのすべての可能なバリエーションのデカルト製品...

1  大きなシーケンスファイルを複数のシーケンスファイルに分割する方法  ( How to split a big sequence file into multiple sequence files ) 
私は約6000万エントリ(ほぼ4.5GB)の大きなシーケンスファイルを持っています。 それを分割したいのですが。たとえば、それを3つの部分に分割したいと思います。それぞれは2000万のエントリを持っています。これまでのところ私のコードはこのようなものです: <...

54  HBaseはすぐに行数をカウントします  ( Hbase quickly count number of rows ) 
今こののように、<コード> ResultScanner を介して行数を実装します。 <事前> <コード> for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { numbe...

0  SQOOP - コードが大きすぎる>最大テーブルの定義?  ( Sqoop code too large max table definition ) 
2000列のTeradataテーブルからデータをインポートしようとしています(テーブル定義は90k文字を作る)...私のスクリプトを実行すると: <事前> <コード> /tmp/sqoop-hadoopi/compile/636c527afc3baa6fdf...




© 2022 cndgn.com All Rights Reserved. Q&Aハウス 全著作権所有