NERsuite

A Named Entity Recognition toolkit

Command Reference

nersuite

Syntax

nersuite <mode> <-m model_filename> [-C C2_value] [-o output_format] [file(s)]

Parameters

1. mode 
- 'learn' or 'tag' 

2. model_filename 
- A model file name for storing a trained model in
 'train' mode, or for loading a model in 'tag' mode

3. C2 value  (for learn mode) 
- The C2 value of the CRFSuite Learning parameter 
- Default value is 1.0 

4. output_format  (for tag mode) 
- 'conll' or 'standoff' format 
- Default value is 'conll' format 

5. input_file 
- Input file(s) can be delivered in three ways.
  1. re-directed standard input.
  2. an input file name with -f option. (e.g. -f input.txt)
  3. a file of input file names with -l option. (e.g. -l list.txt)
    a file in the list file needs to have a relative path 
    from the directory in which the list file stored.
- An input file consists of columns as follows.
    [1st col.] - the byte position of the first letter of a token. 
    [2nd col.] - the byte position one past the last letter of a token. 
    [3rd col.] - raw token (word)
    [4th col.] - lemma
    [5th col.] - POS tag
    [6th col.] - chunk tag
    [7th ... ] - any attributes
      P.s. With learn option, 1st column is a correct named entity label 
      for each line and other columns will be placed one column 
      after then the original position

Example

For learning:

$ nersuite learn -m model.m < source.features_learn.txt

The following is a sample snippet of "source.features_learn.txt". As this is a training data, the correct labels are given in the first columns.

 This example does not have Dictionary Features.

...
B-GGP	0	1	5	5	CD	B-NP
I-GGP	1	2	-	-	HYPH	I-NP
I-GGP	2	5	LOX	LOX	NN	I-NP
O	6	9	and	and	CC	I-NP
B-GGP	10	11	5	5	CD	I-NP
I-GGP	11	12	-	-	HYPH	I-NP
I-GGP	12	15	LOX	LOX	NN	I-NP
O	16	26	activating	activate	VBG	B-VP
O	27	34	protein	protein	NN	B-NP
O	35	36	(	(	(	O
B-GGP	36	40	FLAP	FLAP	NN	B-NP
O	40	41	)	)	)	O
O	42	45	are	be	VBP	B-VP
...

Or, you can use a training data with Dictionary Features like:

...
B-GGP	0	1	5	5	CD	B-NP	O	O	B-EntrezGene_gene.syn	O	O	O	O	B-EntrezGene_prot.name	O	O	O	O	B-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	B-UMLS_Enzyme	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
I-GGP	1	2	-	-	HYPH	I-NP	O	O	I-EntrezGene_gene.syn	O	O	O	O	I-EntrezGene_prot.name	O	O	O	O	I-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	I-UMLS_Enzyme	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
I-GGP	2	5	LOX	LOX	NN	I-NP	O	O	I-EntrezGene_gene.syn	O	O	O	O	I-EntrezGene_prot.name	O	O	O	O	I-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	I-UMLS_Enzyme	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
O	6	9	and	and	CC	I-NP	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
B-GGP	10	11	5	5	CD	I-NP	O	O	B-EntrezGene_gene.syn	O	O	O	O	B-EntrezGene_prot.name	O	O	O	O	B-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	B-UMLS_Enzyme	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
I-GGP	11	12	-	-	HYPH	I-NP	O	O	I-EntrezGene_gene.syn	O	O	O	O	I-EntrezGene_prot.name	O	O	O	O	I-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	I-UMLS_Enzyme	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
I-GGP	12	15	LOX	LOX	NN	I-NP	O	O	I-EntrezGene_gene.syn	O	O	O	O	I-EntrezGene_prot.name	O	O	O	O	I-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	I-UMLS_Enzyme	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
O	16	26	activating	activate	VBG	B-VP	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
O	27	34	protein	protein	NN	B-NP	B-EntrezGene_gene.desc	O	B-EntrezGene_gene.syn	O	O	O	B-EntrezGene_prot.desc	B-EntrezGene_prot.name	O	O	O	O	B-UMLS_Amino_Acid,_Peptide,_or_Protein	O	O	O	O	O	O	O	O	O	O	B-UMLS_Biologically_Active_Substance	O	O	O	O	O	O	O	O	O	O	O	B-UMLS_Cell_Component	O	O	O	O	O	O	O	O	B-UMLS_Conceptual_Entity	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	B-UMLS_Laboratory_Procedure	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
O	35	36	(	(	(	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
B-GGP	36	40	FLAP	FLAP	NN	B-NP	O	B-EntrezGene_gene.locus	B-EntrezGene_gene.syn	O	O	O	O	B-EntrezGene_prot.name	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	B-UMLS_Body_Part,_Organ,_or_Organ_Component	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	B-UMLS_Gene_or_Genome	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
O	40	41	)	)	)	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
O	42	45	are	be	VBP	B-VP	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O	O
...

For Tagging:

     $ nersuite tag -m model.m < source.features.txt > result.features.txt
                    

The following is a sample snippet of "source.features.txt". (Only shows an example without Dictionary Features.)

...
0	2	DG	DG	NNS	B-NP
3	6	and	and	CC	I-NP
7	9	GG	GG	NNS	I-NP
10	14	were	be	VBD	B-VP
15	26	synthesized	synthesize	VBN	I-VP
27	32	using	use	VBG	B-VP
33	34	3	3	CD	B-NP
34	35	-	-	HYPH	I-NP
35	53	methylcholanthrene	methylcholanthrene	NN	I-NP
53	54	-	-	HYPH	B-NP
54	61	induced	induce	VBN	I-NP
62	65	rat	rat	NN	I-NP
66	71	liver	liver	NN	I-NP
72	82	microsomes	microsome	NNS	I-NP
82	83	.	.	.	O
...

Please make sure that each line of input data is always terminated with LF (not CR LF) in a Linux environment.

nersuite_tokenizer

Syntax

nersuite_tokenizer < input_file > output_file

Parameters


                    

Example

$ nersuite_tokenizer < source.txt > source.tokenized.txt
                    

"source.txt" should be in the format like the following example:

...
DG and GG were synthesized using 3-methylcholanthrene-induced rat liver microsomes.
...

nersuite_gtagger

Syntax

nersuite_gtagger -d <path_to_the_model_directory> [file(s)]

Parameters

1. path_to_the_model_directory
- Path to the directory in which the GENIA tagger models are stored 
2. [file(s)]
- Input file(s) can be delivered in three ways.
  1. re-directed standard input.
  2. an input file name with -f option. (e.g. -f input.txt)
  3. a file of input file names with -l option. (e.g. -l list.txt)
    a file in the list file needs to have a relative path from the directory in which the list file stored.
- A file consists of a beginning position, a past-the-end position and a token columns.
- Each column is tab-separated.

Example

$ nersuite_gtagger -d gtagger_models < source.tokenized.txt > source.features.txt
                    

"source.tokenized.txt" should be in the format like the following example:

...
0	2	DG
3	6	and
7	9	GG
10	14	were
15	26	synthesized
27	32	using
33	34	3
34	35	-
35	53	methylcholanthrene
53	54	-
54	61	induced
62	65	rat
66	71	liver
72	82	microsomes
82	83	.
...

nersuite_dic_compiler

Syntax

nersuite_dic_compiler [options] <Text_dictionary_filename> <CDB++_DB_filename>

Parameters

Text dictionary should be a text file containing dictionary entries,
one per line with the following tab-separated format:
Named_Entity <tab> Class1 <tab> Class2 <tab> Class3 ...
Options:
-n <type_of_normalization> : Normalization type for dictionary matching
   can be "none" or any combination of "c", "n", "s", "t"
   none (default): No normalization
   c: Case insensitive (convert all letters to lowercase)
   cn: Case AND Number insensitive (convert all numbers to '0')
   cns: Case AND Number AND Symbol insensitive (convert all symbols to '_')
   t: Use token-base matching

Example

     $ nersuite_dic_compiler -n cns dictionary.txt dictionary.cdbpp
                    

"dictionary.txt" should be in the format like the following example (the column after a tab assigns a class to the word):

...
hydroxyacyl-Coenzyme A dehydrogenase<tab>EntrezGene
hydroxyacyl-Coenzyme A dehydrogenase pseudogene<tab>EntrezGene
...

nersuite_dic_tagger/h3>

Syntax

nersuite_dic_tagger [options] CDB++_DB_filename < standard input

Parameters

Options:
-n <type_of_normalization> : Normalization type for dictionary matching
   none (default): No normalization
   can be "none" or any combination of "c", "n", "s", "t"
   c: Case insensitive (convert all letters to lowercase)
   cn: Case AND Number insensitive (convert all numbers to '0')
   cns: Case AND Number AND Symbol insensitive (convert all symbols to '_')
   t: Use token-base matching

Line format of the input file: 
     [1st col.] - the byte position of the first letter of a token. 
     [2nd col.] - the byte position one past the last letter of a token. 
     [3rd col.] - raw token
     [4th col.] - lemma
     [5th col.] - POS tag
     [6th col.] - chunk tag
     [7th ... ] - any attributes

Example

$ nersuite_dic_tagger -n cns dictionary.db < source.features.txt > result.features.txt
                    

"source.features.txt" should be in the format like the following example:

...
0	2	DG	DG	NNS	B-NP
3	6	and	and	CC	I-NP
7	9	GG	GG	NNS	I-NP
10	14	were	be	VBD	B-VP
15	26	synthesized	synthesize	VBN	I-VP
27	32	using	use	VBG	B-VP
33	34	3	3	CD	B-NP
34	35	-	-	HYPH	I-NP
35	53	methylcholanthrene	methylcholanthrene	NN	I-NP
53	54	-	-	HYPH	B-NP
54	61	induced	induce	VBN	I-NP
62	65	rat	rat	NN	I-NP
66	71	liver	liver	NN	I-NP
72	82	microsomes	microsome	NNS	I-NP
82	83	.	.	.	O
...