データセット言語識別 -- nlp フィールド と multiprocessing フィールド と multilingual フィールド と text-classification フィールド と supervised-learning フィールド 関連 問題

Dataset Language identification












-1
vote

問題

日本語

多言語データセットでテキスト分類問題に取り組んでいます。言語が私のデータセットにどのように配布されているか、そしてこれらの言語が知りたいのですが。言語の数は約8-12になる可能性があります。私は前処理の一部としてこの言語検出を検討しています。適切な停止単語を使用することができるように言語を把握したいと思います。特定の言語の一部のデータがClassificatinの発生に影響を与える可能性があるかを確認します。

はLangid.pyまたは単純なLangDetectが適していますか?またはその他の提案?

ありがとう

英語

I am working on a text classification problem with a multilingual dataset. I would like to know how the languages are distributed in my dataset and what languages are these. The number of languages might be approximately 8-12. I am considering this language detection as a part of the preprocessing. I would like to figure out the languages in order to be able to use the appropriate stop words and see how less data in some of the given languages could affect the occuracy of the classificatin.

Is langid.py or simple langdetect suitable? or any other suggestions?

Thanks

</div
              

回答リスト

0
 
vote

テキストの言語を識別する最も簡単な方法は、各言語の一般的な文法的な言葉のリストを持つことです(実際には、ほとんどあなたの停止単語、実際に)テキストのサンプルを取り、あなたの中にどの単語が発生するかを数えることです。言語固有の)単語リスト。それからそれらを合計し、最大の重なりの単語リストはテキストの言語であるべきです。

もっと高度になりたい場合は、単語の代わりに n -gramsを使うことができます: n -Gramsの言語を知っているテキストからそれはあなたの停止の言葉の代わりに分類器として。

 

The easiest way to identify the language of a text is to have a list of common grammatical words of each language (pretty much your stop words, in fact), take a sample of the text and count which words occur in your (language-specific) word lists. Then sum them up and the word list with the largest overlap should be the language of the text.

If you want to be more advanced, you can use n-grams instead of words: collect n-grams from a text you know the language of, and use that as a classifier instead of your stop words.

</div
 
 
0
 
vote

複数の言語で訓練されたトランスフォーマーベースのモデルを使用できます。たとえば、100列の言語で訓練された多言語モデルであるXLM-Robertaを使用できます。いくつかのXLM多言語モデルとは異なり、Lang Tensorsはどの言語が使用されているのか(あなたの場合は良い)、入力IDから正しい言語を決定できるようにする必要があります。他のトランスベースのモデルと同じように、それはそのトークナイザーが来るので前処理部分をジャンプすることができる。

HuggingFaceライブラリを使用して、これらのモデルを使用できます。

XLM Roberta HuggingFaceのドキュメント

 

You could use any transformer-based model trained on multiple languages. For instance, you could use XLM-Roberta which is a multilingual model trained on 100 different languages. Unlike some XLM multilingual models, it does not require lang tensors to understand which language is used (which is good in your case), and should be able to determine the correct language from the input ids. Besides like any other transformer based model, it comes with its tokenizer so you could jump the preprocessing part.

You could use the Huggingface library to use any of these models.

Check the XLM Roberta Huggingface documentation here

</div
 
 

関連する質問

1  教師付き学習における分類機能を抽出する  ( Extract classification function in supervised learning ) 
おそらく私は些細な質問をしていますが、答えはとても不可欠です。 私は本当にマシニングラーニングに新しくなっています。私は監督された学習について読みました、そして私はこれらの種類のアルゴリズムの基本を知っています。質問は、データセットでJ48のようなアルゴリズム...

72  SCIKIT-LEAKN:真の正の正の、真の否定的な、誤った正および偽陰性を得る方法  ( Scikit learn how to obtain true positive true negative false positive and fal ) 
私の問題: 私は大きなJSONファイルのデータセットを持っています。私はそれを読み、それを trainList 変数に保存します。 次に、私はそれを処理できるようにするためにそれを事前に処理します。 分類を開始したら: 私は平均を得るために<コード> k...

0  ロジスティック回帰の重みの最適化(ログ尤度)  ( Optimizing weights in logistic regression log likelihood ) 
ロジスティック回帰: 仮説機能、 <事前> <コード> h(x) = ( 1 + exp{-wx} )^-1 ここで、W - W重さ/パラメータが適合または最適化 費用関数(-ve log尤度関数)は次のように与...

1  selectfrommodel()はfrom_model.pyからどのように機能しますか?  ( How does selectfrommodel work from from model py ) 
<事前> <コード> fsel = ske.ExtraTreesClassifier().fit(X, y) model = SelectFromModel(fsel, prefit=True) ExtraTreesClassifier のデータセッ...

0  教師付きデータ事前定義ラベルを持つDOC2VEC Gensim  ( Doc2vec gensim with supervised data predefined labels ) 
GensimのDOC2VECを使用して、一連の文書と一連のラベルで訓練されるモデルを作成しようとしています。ラベルは手動で作成され、訓練されるプログラムに入れる必要があります。これまでのところ私は2つのリストを持っています:文のリスト、そしてその文に対応する...

1  機械学習で不均衡なデータをモデル化する方法  ( How to model unbalanced data in machine learning ) 
私は、不均衡なデータを持つデータセットを使用しています(y = 5%、n = 95%)データ・セットには3000個の固有レコードがあります。機能を選択するには、情報ゲインを使用しました。その後、66の割合の割合でランダムフォレストを適用します。 正しく分類され...

0  ランダム検索を使用してハイパーパラメータを調整するための最適パラメータ配布とは何ですか  ( What is the optimal parameter distribution for tuning hyperparameters using rand ) 
SK-LEAKNからの機械学習アルゴリズムは、膨大な量のパラメータを取ります、そして、私はランダム検索調整アルゴリズムにどの間隔を割り当てるべきかを判断するのに本当のハードタイムがあります。私は現在7つの異なるMLアルゴリズム(SVM、LDA、LR、DT、G...

21  マルチクラスのSklearn.roc_auc_scoreを計算します  ( Calculate sklearn roc auc score for multi class ) 
私の分類器のAUC、精度、正確さを計算したいと思います。 私は教師な学習をしています: これが私の作業コードです。 このコードはバイナリクラスには問題なく機能していますが、マルチクラス用ではありません。 バイナリクラスのデータフレームがあるとします。 <事前>...

1  予測アルゴリズムから2つの目標値を取得する  ( Getting two target values from prediction algorithms ) 
シーケンスタプルと以下のようなターゲットを持つデータセットを持っています: <事前> <コード> input_0 input_1 input_2 output 0 0 1.0 2.0 4.0 1 ...

0  エラー用語Eの意味  ( Meaning of error term e ) 
私は本「統計学習の紹介」を読んでいました。その本はそれを言う: より一般的には、定量的応答yと予測因子変数x 1、x 2、.... x nを観察すると仮定してください。 非常に一般的な形で書くことができるyとx(x1、x2、... xn)の間にはいくつかの関係...




© 2022 cndgn.com All Rights Reserved. Q&Aハウス 全著作権所有