Added some initial documentation.
[gedcom-parse.git] / gedcom / gedcom_hilo.lex
1 /* Lexer for Unicode encoding (high-low order) of Gedcom.
2    Copyright (C) 2001 The Genes Development Team
3    This file is part of the Gedcom parser library.
4    Contributed by Peter Verthez <Peter.Verthez@advalvas.be>, 2001.
5
6    The Gedcom parser library is free software; you can redistribute it
7    and/or modify it under the terms of the GNU Lesser General Public
8    License as published by the Free Software Foundation; either
9    version 2.1 of the License, or (at your option) any later version.
10
11    The Gedcom parser library is distributed in the hope that it will be
12    useful, but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Lesser General Public License for more details.
15
16    You should have received a copy of the GNU Lesser General Public
17    License along with the Gedcom parser library; if not, write to the
18    Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA
19    02111-1307 USA.  */
20
21 /* $Id$ */
22 /* $Name$ */
23
24 /* In high-low order, a space is encoded as 0x00 0x20 */
25 /* i.e. this is utf-16-be */
26
27 %{
28 #undef IN_LEX    /* include only a specific part of the following file */
29 #include "gedcom_lex_common.c"
30   
31 static size_t encoding_width = 2;
32 %}
33
34 %s NORMAL
35 %s EXPECT_TAG
36
37 alpha        \x00[A-Za-z_]
38 digit        \x00[0-9]
39 delim        \x00\x20
40 tab          \x00[\t]
41 hash         \x00#
42 literal_at   \x00@\x00@
43 otherchar    \x00[\x21-\x22\x24-\x2F\x3A-\x3F\x5B-\x5E\x60\x7B-\x7E\x80-\xFF]|[\x01-\xFF][\x00-\xFF]
44 terminator   \x00\x0D|\x00\x0A|\x00\x0D\x00\x0A|\x00\x0A\x00\x0D
45
46 any_char     {alpha}|{digit}|{otherchar}|{delim}|{hash}|{literal_at}
47 any_but_delim {alpha}|{digit}|{otherchar}|{hash}|{literal_at}
48 non_at       {alpha}|{digit}|{otherchar}|{delim}|{hash}
49 alphanum     {alpha}|{digit}
50 gen_delim    {delim}|{tab}
51
52 escape       \x00@\x00#{any_char}+\x00@
53 pointer      \x00@{alphanum}{non_at}+\x00@
54
55 %%
56
57 %{
58 #define IN_LEX    /* include only a specific part of the following file */
59 #include "gedcom_lex_common.c"
60
61 ACTION_BEFORE_REGEXPS
62   
63 %}
64
65 <INITIAL>{gen_delim}*    ACTION_INITIAL_WHITESPACE
66
67 <INITIAL>\x00[0]{digit}+ ACTION_0_DIGITS
68
69 <INITIAL>{digit}+        ACTION_DIGITS
70
71 <EXPECT_TAG>\x00A\x00B\x00B\x00R  MKTAGACTION(ABBR)
72 <EXPECT_TAG>\x00A\x00D\x00D\x00R  MKTAGACTION(ADDR)
73 <EXPECT_TAG>\x00A\x00D\x00R\x001  MKTAGACTION(ADR1)
74 <EXPECT_TAG>\x00A\x00D\x00R\x002  MKTAGACTION(ADR2)
75 <EXPECT_TAG>\x00A\x00D\x00O\x00P  MKTAGACTION(ADOP)
76 <EXPECT_TAG>\x00A\x00F\x00N   MKTAGACTION(AFN)
77 <EXPECT_TAG>\x00A\x00G\x00E   MKTAGACTION(AGE)
78 <EXPECT_TAG>\x00A\x00G\x00N\x00C  MKTAGACTION(AGNC)
79 <EXPECT_TAG>\x00A\x00L\x00I\x00A  MKTAGACTION(ALIA)
80 <EXPECT_TAG>\x00A\x00N\x00C\x00E  MKTAGACTION(ANCE)
81 <EXPECT_TAG>\x00A\x00N\x00C\x00I  MKTAGACTION(ANCI)
82 <EXPECT_TAG>\x00A\x00N\x00U\x00L  MKTAGACTION(ANUL)
83 <EXPECT_TAG>\x00A\x00S\x00S\x00O  MKTAGACTION(ASSO)
84 <EXPECT_TAG>\x00A\x00U\x00T\x00H  MKTAGACTION(AUTH)
85 <EXPECT_TAG>\x00B\x00A\x00P\x00L  MKTAGACTION(BAPL)
86 <EXPECT_TAG>\x00B\x00A\x00P\x00M  MKTAGACTION(BAPM)
87 <EXPECT_TAG>\x00B\x00A\x00R\x00M  MKTAGACTION(BARM)
88 <EXPECT_TAG>\x00B\x00A\x00S\x00M  MKTAGACTION(BASM)
89 <EXPECT_TAG>\x00B\x00I\x00R\x00T  MKTAGACTION(BIRT)
90 <EXPECT_TAG>\x00B\x00L\x00E\x00S  MKTAGACTION(BLES)
91 <EXPECT_TAG>\x00B\x00L\x00O\x00B  MKTAGACTION(BLOB)
92 <EXPECT_TAG>\x00B\x00U\x00R\x00I  MKTAGACTION(BURI)
93 <EXPECT_TAG>\x00C\x00A\x00L\x00N  MKTAGACTION(CALN)
94 <EXPECT_TAG>\x00C\x00A\x00S\x00T  MKTAGACTION(CAST)
95 <EXPECT_TAG>\x00C\x00A\x00U\x00S  MKTAGACTION(CAUS)
96 <EXPECT_TAG>\x00C\x00E\x00N\x00S  MKTAGACTION(CENS)
97 <EXPECT_TAG>\x00C\x00H\x00A\x00N  MKTAGACTION(CHAN)
98 <EXPECT_TAG>\x00C\x00H\x00A\x00R  MKTAGACTION(CHAR)
99 <EXPECT_TAG>\x00C\x00H\x00I\x00L  MKTAGACTION(CHIL)
100 <EXPECT_TAG>\x00C\x00H\x00R   MKTAGACTION(CHR)
101 <EXPECT_TAG>\x00C\x00H\x00R\x00A  MKTAGACTION(CHRA)
102 <EXPECT_TAG>\x00C\x00I\x00T\x00Y  MKTAGACTION(CITY)
103 <EXPECT_TAG>\x00C\x00O\x00N\x00C  MKTAGACTION(CONC)
104 <EXPECT_TAG>\x00C\x00O\x00N\x00F  MKTAGACTION(CONF)
105 <EXPECT_TAG>\x00C\x00O\x00N\x00L  MKTAGACTION(CONL)
106 <EXPECT_TAG>\x00C\x00O\x00N\x00T  MKTAGACTION(CONT)
107 <EXPECT_TAG>\x00C\x00O\x00P\x00R  MKTAGACTION(COPR)
108 <EXPECT_TAG>\x00C\x00O\x00R\x00P  MKTAGACTION(CORP)
109 <EXPECT_TAG>\x00C\x00R\x00E\x00M  MKTAGACTION(CREM)
110 <EXPECT_TAG>\x00C\x00T\x00R\x00Y  MKTAGACTION(CTRY)
111 <EXPECT_TAG>\x00D\x00A\x00T\x00A  MKTAGACTION(DATA)
112 <EXPECT_TAG>\x00D\x00A\x00T\x00E  MKTAGACTION(DATE)
113 <EXPECT_TAG>\x00D\x00E\x00A\x00T  MKTAGACTION(DEAT)
114 <EXPECT_TAG>\x00D\x00E\x00S\x00C  MKTAGACTION(DESC)
115 <EXPECT_TAG>\x00D\x00E\x00S\x00I  MKTAGACTION(DESI)
116 <EXPECT_TAG>\x00D\x00E\x00S\x00T  MKTAGACTION(DEST)
117 <EXPECT_TAG>\x00D\x00I\x00V   MKTAGACTION(DIV)
118 <EXPECT_TAG>\x00D\x00I\x00V\x00F  MKTAGACTION(DIVF)
119 <EXPECT_TAG>\x00D\x00S\x00C\x00R  MKTAGACTION(DSCR)
120 <EXPECT_TAG>\x00E\x00D\x00U\x00C  MKTAGACTION(EDUC)
121 <EXPECT_TAG>\x00E\x00M\x00I\x00G  MKTAGACTION(EMIG)
122 <EXPECT_TAG>\x00E\x00N\x00D\x00L  MKTAGACTION(ENDL)
123 <EXPECT_TAG>\x00E\x00N\x00G\x00A  MKTAGACTION(ENGA)
124 <EXPECT_TAG>\x00E\x00V\x00E\x00N  MKTAGACTION(EVEN)
125 <EXPECT_TAG>\x00F\x00A\x00M   MKTAGACTION(FAM)
126 <EXPECT_TAG>\x00F\x00A\x00M\x00C  MKTAGACTION(FAMC)
127 <EXPECT_TAG>\x00F\x00A\x00M\x00F  MKTAGACTION(FAMF)
128 <EXPECT_TAG>\x00F\x00A\x00M\x00S  MKTAGACTION(FAMS)
129 <EXPECT_TAG>\x00F\x00C\x00O\x00M  MKTAGACTION(FCOM)
130 <EXPECT_TAG>\x00F\x00I\x00L\x00E  MKTAGACTION(FILE)
131 <EXPECT_TAG>\x00F\x00O\x00R\x00M  MKTAGACTION(FORM)
132 <EXPECT_TAG>\x00G\x00E\x00D\x00C  MKTAGACTION(GEDC)
133 <EXPECT_TAG>\x00G\x00I\x00V\x00N  MKTAGACTION(GIVN)
134 <EXPECT_TAG>\x00G\x00R\x00A\x00D  MKTAGACTION(GRAD)
135 <EXPECT_TAG>\x00H\x00E\x00A\x00D  MKTAGACTION(HEAD)
136 <EXPECT_TAG>\x00H\x00U\x00S\x00B  MKTAGACTION(HUSB)
137 <EXPECT_TAG>\x00I\x00D\x00N\x00O  MKTAGACTION(IDNO)
138 <EXPECT_TAG>\x00I\x00M\x00M\x00I  MKTAGACTION(IMMI)
139 <EXPECT_TAG>\x00I\x00N\x00D\x00I  MKTAGACTION(INDI)
140 <EXPECT_TAG>\x00L\x00A\x00N\x00G  MKTAGACTION(LANG)
141 <EXPECT_TAG>\x00L\x00E\x00G\x00A  MKTAGACTION(LEGA)
142 <EXPECT_TAG>\x00M\x00A\x00R\x00B  MKTAGACTION(MARB)
143 <EXPECT_TAG>\x00M\x00A\x00R\x00C  MKTAGACTION(MARC)
144 <EXPECT_TAG>\x00M\x00A\x00R\x00L  MKTAGACTION(MARL)
145 <EXPECT_TAG>\x00M\x00A\x00R\x00R  MKTAGACTION(MARR)
146 <EXPECT_TAG>\x00M\x00A\x00R\x00S  MKTAGACTION(MARS)
147 <EXPECT_TAG>\x00M\x00E\x00D\x00I  MKTAGACTION(MEDI)
148 <EXPECT_TAG>\x00N\x00A\x00M\x00E  MKTAGACTION(NAME)
149 <EXPECT_TAG>\x00N\x00A\x00T\x00I  MKTAGACTION(NATI)
150 <EXPECT_TAG>\x00N\x00A\x00T\x00U  MKTAGACTION(NATU)
151 <EXPECT_TAG>\x00N\x00C\x00H\x00I  MKTAGACTION(NCHI)
152 <EXPECT_TAG>\x00N\x00I\x00C\x00K  MKTAGACTION(NICK)
153 <EXPECT_TAG>\x00N\x00M\x00R   MKTAGACTION(NMR)
154 <EXPECT_TAG>\x00N\x00O\x00T\x00E  MKTAGACTION(NOTE)
155 <EXPECT_TAG>\x00N\x00P\x00F\x00X  MKTAGACTION(NPFX)
156 <EXPECT_TAG>\x00N\x00S\x00F\x00X  MKTAGACTION(NSFX)
157 <EXPECT_TAG>\x00O\x00B\x00J\x00E  MKTAGACTION(OBJE)
158 <EXPECT_TAG>\x00O\x00C\x00C\x00U  MKTAGACTION(OCCU)
159 <EXPECT_TAG>\x00O\x00R\x00D\x00I  MKTAGACTION(ORDI)
160 <EXPECT_TAG>\x00O\x00R\x00D\x00N  MKTAGACTION(ORDN)
161 <EXPECT_TAG>\x00P\x00A\x00G\x00E  MKTAGACTION(PAGE)
162 <EXPECT_TAG>\x00P\x00E\x00D\x00I  MKTAGACTION(PEDI)
163 <EXPECT_TAG>\x00P\x00H\x00O\x00N  MKTAGACTION(PHON)
164 <EXPECT_TAG>\x00P\x00L\x00A\x00C  MKTAGACTION(PLAC)
165 <EXPECT_TAG>\x00P\x00O\x00S\x00T  MKTAGACTION(POST)
166 <EXPECT_TAG>\x00P\x00R\x00O\x00B  MKTAGACTION(PROB)
167 <EXPECT_TAG>\x00P\x00R\x00O\x00P  MKTAGACTION(PROP)
168 <EXPECT_TAG>\x00P\x00U\x00B\x00L  MKTAGACTION(PUBL)
169 <EXPECT_TAG>\x00Q\x00U\x00A\x00Y  MKTAGACTION(QUAY)
170 <EXPECT_TAG>\x00R\x00E\x00F\x00N  MKTAGACTION(REFN)
171 <EXPECT_TAG>\x00R\x00E\x00L\x00A  MKTAGACTION(RELA)
172 <EXPECT_TAG>\x00R\x00E\x00L\x00I  MKTAGACTION(RELI)
173 <EXPECT_TAG>\x00R\x00E\x00P\x00O  MKTAGACTION(REPO)
174 <EXPECT_TAG>\x00R\x00E\x00S\x00I  MKTAGACTION(RESI)
175 <EXPECT_TAG>\x00R\x00E\x00S\x00N  MKTAGACTION(RESN)
176 <EXPECT_TAG>\x00R\x00E\x00T\x00I  MKTAGACTION(RETI)
177 <EXPECT_TAG>\x00R\x00F\x00N   MKTAGACTION(RFN)
178 <EXPECT_TAG>\x00R\x00I\x00N   MKTAGACTION(RIN)
179 <EXPECT_TAG>\x00R\x00O\x00L\x00E  MKTAGACTION(ROLE)
180 <EXPECT_TAG>\x00S\x00E\x00X   MKTAGACTION(SEX)
181 <EXPECT_TAG>\x00S\x00L\x00G\x00C  MKTAGACTION(SLGC)
182 <EXPECT_TAG>\x00S\x00L\x00G\x00S  MKTAGACTION(SLGS)
183 <EXPECT_TAG>\x00S\x00O\x00U\x00R  MKTAGACTION(SOUR)
184 <EXPECT_TAG>\x00S\x00P\x00F\x00X  MKTAGACTION(SPFX)
185 <EXPECT_TAG>\x00S\x00S\x00N   MKTAGACTION(SSN)
186 <EXPECT_TAG>\x00S\x00T\x00A\x00E  MKTAGACTION(STAE)
187 <EXPECT_TAG>\x00S\x00T\x00A\x00T  MKTAGACTION(STAT)
188 <EXPECT_TAG>\x00S\x00U\x00B\x00M  MKTAGACTION(SUBM)
189 <EXPECT_TAG>\x00S\x00U\x00B\x00N  MKTAGACTION(SUBN)
190 <EXPECT_TAG>\x00S\x00U\x00R\x00N  MKTAGACTION(SURN)
191 <EXPECT_TAG>\x00T\x00E\x00M\x00P  MKTAGACTION(TEMP)
192 <EXPECT_TAG>\x00T\x00E\x00X\x00T  MKTAGACTION(TEXT)
193 <EXPECT_TAG>\x00T\x00I\x00M\x00E  MKTAGACTION(TIME)
194 <EXPECT_TAG>\x00T\x00I\x00T\x00L  MKTAGACTION(TITL)
195 <EXPECT_TAG>\x00T\x00R\x00L\x00R  MKTAGACTION(TRLR)
196 <EXPECT_TAG>\x00T\x00Y\x00P\x00E  MKTAGACTION(TYPE)
197 <EXPECT_TAG>\x00V\x00E\x00R\x00S  MKTAGACTION(VERS)
198 <EXPECT_TAG>\x00W\x00I\x00F\x00E  MKTAGACTION(WIFE)
199 <EXPECT_TAG>\x00W\x00I\x00L\x00L  MKTAGACTION(WILL)
200      
201 <EXPECT_TAG>{alphanum}+  ACTION_ALPHANUM
202
203 {delim}                  ACTION_DELIM
204
205 {any_but_delim}          ACTION_ANY
206
207 {escape}/{non_at}        ACTION_ESCAPE
208
209 {pointer}                ACTION_POINTER
210
211 {gen_delim}*{terminator} ACTION_TERMINATOR
212
213 <<EOF>>                  ACTION_EOF
214
215 .                        ACTION_UNEXPECTED
216
217 %%
218
219 int yywrap()
220 {
221   return 1;
222 }
223
224 #ifdef LEXER_TEST
225 int gedcom_lex()
226 {
227   return gedcom_hilo_lex();
228 }
229
230 int main()
231 {
232   return test_loop(TWO_BYTE_HILO, "UNICODE");
233 }
234 #endif