テキストマイニング - 非構造化テキストからバンドの抽出名[閉じる] -- text フィールド と nlp フィールド と text-mining フィールド と named-entity-recognition フィールド 関連 問題

Text mining - extract name of band from unstructured text [closed]












2
vote

問題

日本語

この質問を改善したいですか?

閉じた 5年前

この質問を改善します

これは一般的な、オープンエンドの質問のようなものであることを知っています。私は本質的に私は前方の方法を決定するのに役立ちを探しています、そしておそらくいくつかの読み物素材のために。

非構造化されていないテキストマイニングを行うアルゴリズムに取り組んで、そのテキストからのバンドの名前(単一のアーティスト、バンドなど)の名前を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さい(1,2行のテキスト)。

いくつかの例は(実際のイベントではない):

<事前> <コード> Concert Green Day At Wembley Stadium Extraordinary representation - Norah Jones in Poland - at the Polish Opera

今、私は分類子を試すことを考えていますが、テキストはそれの実際の訓練情報を提供するために小さくなっています。 この種の問題(またはおそらくアルゴリズムは全く目的ではない)のために良い結果をもたらすかもしれない他のいくつかのテキストマイニング技術、ヒューリスティックまたはアルゴリズムがあるでしょう。

英語

I'm aware that this is kind of a general, open-ended question. I'm essentially looking for help in deciding a way forward, and perhaps for some reading material.

I'm working on an algorithm that does unstructured text mining, and trying to extract something specific - the names of bands (single artists, bands, etc) from that text. The text itself has no predictable structure, but it is relatively small (1, 2 rows of text).

Some examples may be (not real events):

Concert Green Day At Wembley Stadium Extraordinary representation - Norah Jones in Poland - at the Polish Opera 

Now, I'm thinking of trying out a classifier but the text seems to small to provide any real training information for it. There probably are several other text mining techniques, heuristics or algorithms that may yield good results for this kind of problem (or perhaps no algorithm will).

</div
           
   
   

回答リスト

2
 
vote

あなたのデータの構造のために、事前に訓練されたモデルはおそらく不十分であるでしょう。その上、一般組織場所 person カテゴリはおそらくあなたにとって有用ではないでしょう。

テキスト自体が小さすぎるとは思わない、ほとんどのNERシステムは一度に1つの文に機能します。だから、NER-Libraryを使用して独自のトレーニングセットを提供することは、おそらく http:// nlpなど、おそらくうまくいくでしょう。 .stanford.edu / ner / index.shtml

トレーニングセットを作成したくない場合は、すべてのバンド/アーティストを持つ辞書が必要です。それからあなたは明らかに未知のバンド/アーティストを見つけることができません。

 

Because of the structure of your data a pre-trained model will probably perform poorly. Besides, the general organization, location, and person categories will probably not be useful for you.

I don't think the text themselves are too small, most NER-systems work on one sentence at a time. So providing your own training set with a NER-library will probably work well, such as http://nlp.stanford.edu/ner/index.shtml

If you don't want to create a training set you will need a dictionary with all the bands/artists. Then you obviously can't find unknown bands/artists.

</div
 
 
   
   
0
 
vote

タスクを少し単純化することができる単純なNERアルゴリズムがあります。 名前を付けて(または)名前を付けられている可能性がある単語を取って、それらを2回区別してください。単語として、正確なフレーズ(すなわち引用符を備えた)。結果の数を分割します。単語が名前付きエンティティを形成するかどうかを判断するしきい値(<30)があります。

 

There is simple NER algorithm that could simplify the task a bit: take the words which may be (or not be) named entity and search for them in Google or Yahoo (via API) twice: as separate words and as exact phrase (i.e. with quotation marks). Divide numbers of results. There is threshold (<30) which determines if words form a named entity.

</div
 
 

関連する質問

2  クエリ内のすべてのNGRAMと照合する完了提案者を使用する  ( Use completion suggester to match against all ngrams in a query ) 
Elasticsearchの完成提案者クエリ内のすべてのNGRAMと一致するように。 基本的にやりたいことは、「辞書ベースの衝突」をすることを目的とした誤用の補完提案者です。 例えば文章を考えると:「今日はクレイジーホースクラブは何時まで?」 上記の...

9  GeoTagingまたはGeoLabellingテキストの内容のためのメソッド  ( Methods for geotagging or geolabelling text content ) 
都市/地域や原産地にテキストを自動的にラベリングするためのいくつかの良いアルゴリズムとは何ですか?つまり、ブログがニューヨークについての場合、どのようにしてプログラム的に言うことができます。任意の程度の確実性でこれを行うと主張するパッケージ/論文はありますか?...

0  Sequence Label / IOBタグを使用してClassifiy NERを作成する方法  ( How to classifiy ner using sequence label iob tag ) 
IOB /シーケンスラベリングに基づいてエンティティタイプを認識して分類しようとしています。 例えば: <事前> <コード> Alex B-PER Tan I-PER is O a O president O . O iは、それをトークンで分類...

1  名前付きエンティティを分析しながらGoogle Cloud NLUで信頼スコアを取得する方法  ( How to get a confidence score in google cloud nlu while analyzing named entities ) 
私は複数の名前のエンティティを含むことができるテキスト(例えば、1人と2人の組織)を持っています。 名前付きエンティティタグガーの信頼性に基づいて、テキストの1つを選択する必要があります。 (最後の例) プロジェクトは「分析」を使用しています。 / a>名前付...

0  Eclipseでプログラム的に実行できる無料のエンティティ認識プログラム  ( Any free entity recognition programs that can be run programatically on eclipse ) 
私は私が追加する人々の新しい名前を認識するように修正できるエンティティ認識プログラムを見つけたいと思います。たとえば、「XYZ」を名前として追加する場合は、そうすることができ、プログラムはテキスト内のエンティティとして「XYZ」を認識します。 ...

-1  名前抽出 - CV / RESUME - スタンフォードNER / OpenNLP  ( Name extraction cv resume stanford ner opennlp ) 
現在、私は現在CV / Resumeから個人名を抽出するための学習プロジェクトにあります。 現在、スタンフォード - NERとOpenNLPと協力しています。これは、両方ともボックスから成功した程度の成功を遂行し、「非西洋の」タイプ名(誰かに向かって意図され...

26  NLTKのStanford Ner Taggerを使用した人と組織の抽出リスト  ( Extract list of persons and organizations using stanford ner tagger in nltk ) 
Python NLTKのStanfordという名前のエンティティ認識装置(NER)を使用して、人と組織のリストを抽出しようとしています。 実行すると: <事前> <コード> from nltk.tag.stanford import NERTagger st...

1  1行あたりの単語へのテキスト+ Pythonの名前付きエンティティタグ  ( Text to word per line named entity tag in python ) 
名前付きエンティティ認識士を作っていて、Pythonを使ってデータを正しい形式に入れるのに苦労しています。私が持っているものは特定の文字列とその名前付きエンティティのリストに属するタグを持つ名前付きエンティティのリストです。例えば: <事前> <コード> te...

22  名前付きエンティティ認識のためのアルゴリズム  ( Algorithms for named entity recognition ) 
名前付きエンティティ認識(NER)を使用して、データベース内のテキストの適切なタグを見つけたいと思います。 私はこれと多くのページを説明している他のページについてのウィキペディアの記事があることを知っています、私はあなたからこのトピックについて何かを聞くことが...

2  R:メタデータデータフレームのCleanNLPパッケージ?  ( Cleannlp package in r metadata data frame ) 
私のデータフレームは次のように見えましょう: <事前> <コード> bio_text <- c("Georg Aemilius, eigentlich Georg Oemler, andere Namensvariationen „Aemylius" und ...




© 2022 cndgn.com All Rights Reserved. Q&Aハウス 全著作権所有