Copied from old documentation. Removed all Gedcom_val details.
[gedcom-parse.git] / gedcom / gedcom_lohi.lex
1 /* Lexer for Unicode encoding (low-high order) of Gedcom.
2    Copyright (C) 2001 The Genes Development Team
3    This file is part of the Gedcom parser library.
4    Contributed by Peter Verthez <Peter.Verthez@advalvas.be>, 2001.
5
6    The Gedcom parser library is free software; you can redistribute it
7    and/or modify it under the terms of the GNU Lesser General Public
8    License as published by the Free Software Foundation; either
9    version 2.1 of the License, or (at your option) any later version.
10
11    The Gedcom parser library is distributed in the hope that it will be
12    useful, but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Lesser General Public License for more details.
15
16    You should have received a copy of the GNU Lesser General Public
17    License along with the Gedcom parser library; if not, write to the
18    Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA
19    02111-1307 USA.  */
20
21 /* $Id$ */
22 /* $Name$ */
23
24 /* In low-high order, a space is encoded as 0x20 0x00 */
25 /* i.e. this is utf-16-le */
26
27 %{
28 #define LEX_SECTION 1  /* include only a specific part of the following file */
29 #define yymyinit gedcom_lohi_myinit
30 #include "gedcom_lex_common.c"
31   
32 static size_t encoding_width = 2;
33 %}
34
35 %s NORMAL
36 %s EXPECT_TAG
37
38 alpha        [A-Za-z_]\x00
39 digit        [0-9]\x00
40 delim        \x20\x00
41 tab          [\t]\x00
42 hash         #\x00
43 literal_at   @\x00@\x00
44 normal_at    @\x00
45 otherchar    [\x21-\x22\x24-\x2F\x3A-\x3F\x5B-\x5E\x60\x7B-\x7E\x80-\xFF]\x00|[\x00-\xFF][\x01-\xFF]
46 terminator   \x0D\x00|\x0A\x00|\x0D\x00\x0A\x00|\x0A\x00\x0D\x00
47
48 any_char     {alpha}|{digit}|{otherchar}|{delim}|{hash}|{literal_at}
49 any_but_delim {alpha}|{digit}|{otherchar}|{hash}|{literal_at}
50 non_at       {alpha}|{digit}|{otherchar}|{delim}|{hash}
51 alphanum     {alpha}|{digit}
52 gen_delim    {delim}|{tab}
53
54 escape       @\x00#\x00{any_char}+@\x00
55 pointer      @\x00{alphanum}{non_at}*@\x00
56
57 %%
58
59 %{
60 #undef LEX_SECTION
61 #define LEX_SECTION 2  /* include only a specific part of the following file */
62 #include "gedcom_lex_common.c"
63
64 ACTION_BEFORE_REGEXPS
65   
66 %}
67
68 <INITIAL>{gen_delim}*     ACTION_INITIAL_WHITESPACE
69
70 <INITIAL>\x00[0]{digit}+  ACTION_0_DIGITS
71
72 <INITIAL>{digit}+         ACTION_DIGITS
73
74 <EXPECT_TAG>A\x00B\x00B\x00R\x00  MKTAGACTION(ABBR)
75 <EXPECT_TAG>A\x00D\x00D\x00R\x00  MKTAGACTION(ADDR)
76 <EXPECT_TAG>A\x00D\x00R\x001\x00  MKTAGACTION(ADR1)
77 <EXPECT_TAG>A\x00D\x00R\x002\x00  MKTAGACTION(ADR2)
78 <EXPECT_TAG>A\x00D\x00O\x00P\x00  MKTAGACTION(ADOP)
79 <EXPECT_TAG>A\x00F\x00N\x00   MKTAGACTION(AFN)
80 <EXPECT_TAG>A\x00G\x00E\x00   MKTAGACTION(AGE)
81 <EXPECT_TAG>A\x00G\x00N\x00C\x00  MKTAGACTION(AGNC)
82 <EXPECT_TAG>A\x00L\x00I\x00A\x00  MKTAGACTION(ALIA)
83 <EXPECT_TAG>A\x00N\x00C\x00E\x00  MKTAGACTION(ANCE)
84 <EXPECT_TAG>A\x00N\x00C\x00I\x00  MKTAGACTION(ANCI)
85 <EXPECT_TAG>A\x00N\x00U\x00L\x00  MKTAGACTION(ANUL)
86 <EXPECT_TAG>A\x00S\x00S\x00O\x00  MKTAGACTION(ASSO)
87 <EXPECT_TAG>A\x00U\x00T\x00H\x00  MKTAGACTION(AUTH)
88 <EXPECT_TAG>B\x00A\x00P\x00L\x00  MKTAGACTION(BAPL)
89 <EXPECT_TAG>B\x00A\x00P\x00M\x00  MKTAGACTION(BAPM)
90 <EXPECT_TAG>B\x00A\x00R\x00M\x00  MKTAGACTION(BARM)
91 <EXPECT_TAG>B\x00A\x00S\x00M\x00  MKTAGACTION(BASM)
92 <EXPECT_TAG>B\x00I\x00R\x00T\x00  MKTAGACTION(BIRT)
93 <EXPECT_TAG>B\x00L\x00E\x00S\x00  MKTAGACTION(BLES)
94 <EXPECT_TAG>B\x00L\x00O\x00B\x00  MKTAGACTION(BLOB)
95 <EXPECT_TAG>B\x00U\x00R\x00I\x00  MKTAGACTION(BURI)
96 <EXPECT_TAG>C\x00A\x00L\x00N\x00  MKTAGACTION(CALN)
97 <EXPECT_TAG>C\x00A\x00S\x00T\x00  MKTAGACTION(CAST)
98 <EXPECT_TAG>C\x00A\x00U\x00S\x00  MKTAGACTION(CAUS)
99 <EXPECT_TAG>C\x00E\x00N\x00S\x00  MKTAGACTION(CENS)
100 <EXPECT_TAG>C\x00H\x00A\x00N\x00  MKTAGACTION(CHAN)
101 <EXPECT_TAG>C\x00H\x00A\x00R\x00  MKTAGACTION(CHAR)
102 <EXPECT_TAG>C\x00H\x00I\x00L\x00  MKTAGACTION(CHIL)
103 <EXPECT_TAG>C\x00H\x00R\x00   MKTAGACTION(CHR)
104 <EXPECT_TAG>C\x00H\x00R\x00A\x00  MKTAGACTION(CHRA)
105 <EXPECT_TAG>C\x00I\x00T\x00Y\x00  MKTAGACTION(CITY)
106 <EXPECT_TAG>C\x00O\x00N\x00C\x00  MKTAGACTION(CONC)
107 <EXPECT_TAG>C\x00O\x00N\x00F\x00  MKTAGACTION(CONF)
108 <EXPECT_TAG>C\x00O\x00N\x00L\x00  MKTAGACTION(CONL)
109 <EXPECT_TAG>C\x00O\x00N\x00T\x00  MKTAGACTION(CONT)
110 <EXPECT_TAG>C\x00O\x00P\x00R\x00  MKTAGACTION(COPR)
111 <EXPECT_TAG>C\x00O\x00R\x00P\x00  MKTAGACTION(CORP)
112 <EXPECT_TAG>C\x00R\x00E\x00M\x00  MKTAGACTION(CREM)
113 <EXPECT_TAG>C\x00T\x00R\x00Y\x00  MKTAGACTION(CTRY)
114 <EXPECT_TAG>D\x00A\x00T\x00A\x00  MKTAGACTION(DATA)
115 <EXPECT_TAG>D\x00A\x00T\x00E\x00  MKTAGACTION(DATE)
116 <EXPECT_TAG>D\x00E\x00A\x00T\x00  MKTAGACTION(DEAT)
117 <EXPECT_TAG>D\x00E\x00S\x00C\x00  MKTAGACTION(DESC)
118 <EXPECT_TAG>D\x00E\x00S\x00I\x00  MKTAGACTION(DESI)
119 <EXPECT_TAG>D\x00E\x00S\x00T\x00  MKTAGACTION(DEST)
120 <EXPECT_TAG>D\x00I\x00V\x00   MKTAGACTION(DIV)
121 <EXPECT_TAG>D\x00I\x00V\x00F\x00  MKTAGACTION(DIVF)
122 <EXPECT_TAG>D\x00S\x00C\x00R\x00  MKTAGACTION(DSCR)
123 <EXPECT_TAG>E\x00D\x00U\x00C\x00  MKTAGACTION(EDUC)
124 <EXPECT_TAG>E\x00M\x00I\x00G\x00  MKTAGACTION(EMIG)
125 <EXPECT_TAG>E\x00N\x00D\x00L\x00  MKTAGACTION(ENDL)
126 <EXPECT_TAG>E\x00N\x00G\x00A\x00  MKTAGACTION(ENGA)
127 <EXPECT_TAG>E\x00V\x00E\x00N\x00  MKTAGACTION(EVEN)
128 <EXPECT_TAG>F\x00A\x00M\x00   MKTAGACTION(FAM)
129 <EXPECT_TAG>F\x00A\x00M\x00C\x00  MKTAGACTION(FAMC)
130 <EXPECT_TAG>F\x00A\x00M\x00F\x00  MKTAGACTION(FAMF)
131 <EXPECT_TAG>F\x00A\x00M\x00S\x00  MKTAGACTION(FAMS)
132 <EXPECT_TAG>F\x00C\x00O\x00M\x00  MKTAGACTION(FCOM)
133 <EXPECT_TAG>F\x00I\x00L\x00E\x00  MKTAGACTION(FILE)
134 <EXPECT_TAG>F\x00O\x00R\x00M\x00  MKTAGACTION(FORM)
135 <EXPECT_TAG>G\x00E\x00D\x00C\x00  MKTAGACTION(GEDC)
136 <EXPECT_TAG>G\x00I\x00V\x00N\x00  MKTAGACTION(GIVN)
137 <EXPECT_TAG>G\x00R\x00A\x00D\x00  MKTAGACTION(GRAD)
138 <EXPECT_TAG>H\x00E\x00A\x00D\x00  MKTAGACTION(HEAD)
139 <EXPECT_TAG>H\x00U\x00S\x00B\x00  MKTAGACTION(HUSB)
140 <EXPECT_TAG>I\x00D\x00N\x00O\x00  MKTAGACTION(IDNO)
141 <EXPECT_TAG>I\x00M\x00M\x00I\x00  MKTAGACTION(IMMI)
142 <EXPECT_TAG>I\x00N\x00D\x00I\x00  MKTAGACTION(INDI)
143 <EXPECT_TAG>L\x00A\x00N\x00G\x00  MKTAGACTION(LANG)
144 <EXPECT_TAG>L\x00E\x00G\x00A\x00  MKTAGACTION(LEGA)
145 <EXPECT_TAG>M\x00A\x00R\x00B\x00  MKTAGACTION(MARB)
146 <EXPECT_TAG>M\x00A\x00R\x00C\x00  MKTAGACTION(MARC)
147 <EXPECT_TAG>M\x00A\x00R\x00L\x00  MKTAGACTION(MARL)
148 <EXPECT_TAG>M\x00A\x00R\x00R\x00  MKTAGACTION(MARR)
149 <EXPECT_TAG>M\x00A\x00R\x00S\x00  MKTAGACTION(MARS)
150 <EXPECT_TAG>M\x00E\x00D\x00I\x00  MKTAGACTION(MEDI)
151 <EXPECT_TAG>N\x00A\x00M\x00E\x00  MKTAGACTION(NAME)
152 <EXPECT_TAG>N\x00A\x00T\x00I\x00  MKTAGACTION(NATI)
153 <EXPECT_TAG>N\x00A\x00T\x00U\x00  MKTAGACTION(NATU)
154 <EXPECT_TAG>N\x00C\x00H\x00I\x00  MKTAGACTION(NCHI)
155 <EXPECT_TAG>N\x00I\x00C\x00K\x00  MKTAGACTION(NICK)
156 <EXPECT_TAG>N\x00M\x00R\x00   MKTAGACTION(NMR)
157 <EXPECT_TAG>N\x00O\x00T\x00E\x00  MKTAGACTION(NOTE)
158 <EXPECT_TAG>N\x00P\x00F\x00X\x00  MKTAGACTION(NPFX)
159 <EXPECT_TAG>N\x00S\x00F\x00X\x00  MKTAGACTION(NSFX)
160 <EXPECT_TAG>O\x00B\x00J\x00E\x00  MKTAGACTION(OBJE)
161 <EXPECT_TAG>O\x00C\x00C\x00U\x00  MKTAGACTION(OCCU)
162 <EXPECT_TAG>O\x00R\x00D\x00I\x00  MKTAGACTION(ORDI)
163 <EXPECT_TAG>O\x00R\x00D\x00N\x00  MKTAGACTION(ORDN)
164 <EXPECT_TAG>P\x00A\x00G\x00E\x00  MKTAGACTION(PAGE)
165 <EXPECT_TAG>P\x00E\x00D\x00I\x00  MKTAGACTION(PEDI)
166 <EXPECT_TAG>P\x00H\x00O\x00N\x00  MKTAGACTION(PHON)
167 <EXPECT_TAG>P\x00L\x00A\x00C\x00  MKTAGACTION(PLAC)
168 <EXPECT_TAG>P\x00O\x00S\x00T\x00  MKTAGACTION(POST)
169 <EXPECT_TAG>P\x00R\x00O\x00B\x00  MKTAGACTION(PROB)
170 <EXPECT_TAG>P\x00R\x00O\x00P\x00  MKTAGACTION(PROP)
171 <EXPECT_TAG>P\x00U\x00B\x00L\x00  MKTAGACTION(PUBL)
172 <EXPECT_TAG>Q\x00U\x00A\x00Y\x00  MKTAGACTION(QUAY)
173 <EXPECT_TAG>R\x00E\x00F\x00N\x00  MKTAGACTION(REFN)
174 <EXPECT_TAG>R\x00E\x00L\x00A\x00  MKTAGACTION(RELA)
175 <EXPECT_TAG>R\x00E\x00L\x00I\x00  MKTAGACTION(RELI)
176 <EXPECT_TAG>R\x00E\x00P\x00O\x00  MKTAGACTION(REPO)
177 <EXPECT_TAG>R\x00E\x00S\x00I\x00  MKTAGACTION(RESI)
178 <EXPECT_TAG>R\x00E\x00S\x00N\x00  MKTAGACTION(RESN)
179 <EXPECT_TAG>R\x00E\x00T\x00I\x00  MKTAGACTION(RETI)
180 <EXPECT_TAG>R\x00F\x00N\x00   MKTAGACTION(RFN)
181 <EXPECT_TAG>R\x00I\x00N\x00   MKTAGACTION(RIN)
182 <EXPECT_TAG>R\x00O\x00L\x00E\x00  MKTAGACTION(ROLE)
183 <EXPECT_TAG>S\x00E\x00X\x00   MKTAGACTION(SEX)
184 <EXPECT_TAG>S\x00L\x00G\x00C\x00  MKTAGACTION(SLGC)
185 <EXPECT_TAG>S\x00L\x00G\x00S\x00  MKTAGACTION(SLGS)
186 <EXPECT_TAG>S\x00O\x00U\x00R\x00  MKTAGACTION(SOUR)
187 <EXPECT_TAG>S\x00P\x00F\x00X\x00  MKTAGACTION(SPFX)
188 <EXPECT_TAG>S\x00S\x00N\x00   MKTAGACTION(SSN)
189 <EXPECT_TAG>S\x00T\x00A\x00E\x00  MKTAGACTION(STAE)
190 <EXPECT_TAG>S\x00T\x00A\x00T\x00  MKTAGACTION(STAT)
191 <EXPECT_TAG>S\x00U\x00B\x00M\x00  MKTAGACTION(SUBM)
192 <EXPECT_TAG>S\x00U\x00B\x00N\x00  MKTAGACTION(SUBN)
193 <EXPECT_TAG>S\x00U\x00R\x00N\x00  MKTAGACTION(SURN)
194 <EXPECT_TAG>T\x00E\x00M\x00P\x00  MKTAGACTION(TEMP)
195 <EXPECT_TAG>T\x00E\x00X\x00T\x00  MKTAGACTION(TEXT)
196 <EXPECT_TAG>T\x00I\x00M\x00E\x00  MKTAGACTION(TIME)
197 <EXPECT_TAG>T\x00I\x00T\x00L\x00  MKTAGACTION(TITL)
198 <EXPECT_TAG>T\x00R\x00L\x00R\x00  MKTAGACTION(TRLR)
199 <EXPECT_TAG>T\x00Y\x00P\x00E\x00  MKTAGACTION(TYPE)
200 <EXPECT_TAG>V\x00E\x00R\x00S\x00  MKTAGACTION(VERS)
201 <EXPECT_TAG>W\x00I\x00F\x00E\x00  MKTAGACTION(WIFE)
202 <EXPECT_TAG>W\x00I\x00L\x00L\x00  MKTAGACTION(WILL)
203      
204 <EXPECT_TAG>{alphanum}+  ACTION_ALPHANUM
205
206 {delim}                  ACTION_DELIM
207
208 {any_but_delim}          ACTION_ANY
209
210 {escape}/{non_at}        ACTION_ESCAPE
211
212 {pointer}                ACTION_POINTER
213
214 {gen_delim}*{terminator} ACTION_TERMINATOR
215
216 <<EOF>>                  ACTION_EOF
217
218 {normal_at}              ACTION_NORMAL_AT
219
220 {tab}                    ACTION_TAB
221
222 .                        ACTION_UNEXPECTED
223
224 %%
225 #undef LEX_SECTION
226 #define LEX_SECTION 3  /* include only a specific part of the following file */
227 #include "gedcom_lex_common.c"
228
229 #ifdef LEXER_TEST
230 int gedcom_lex()
231 {
232   return gedcom_lohi_lex();
233 }
234
235 int main()
236 {
237   return test_loop(TWO_BYTE_LOHI, "UNICODE");
238 }
239 #endif