Blame - py/lexer.c - lite/micropython

blob: 6feb231e0cd1f79562b552a317d00842001d2d92 [file] [log] [blame]

Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	1	/* lexer.c -- simple tokeniser for Python implementation
				2	*/
				3
				4	#include <stdint.h>
				5	#include <stdio.h>
				6	#include <assert.h>
				7
				8	#include "misc.h"
				9	#include "lexer.h"
				10
				11	#define TAB_SIZE (8)
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	12
Damien	92c0656	2013-10-22 22:32:27 +0100	[diff] [blame]	13	// TODO seems that CPython allows NULL byte in the input stream
				14	// don't know if that's intentional or not, but we don't allow it
				15
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	16	struct _mp_lexer_t {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	17	const char *name; // name of source
				18	void *stream_data; // data for stream
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	19	mp_lexer_stream_next_char_t stream_next_char; // stream callback to get next char
				20	mp_lexer_stream_close_t stream_close; // stream callback to free
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	21
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	22	unichar chr0, chr1, chr2; // current cached characters from source
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	23
				24	uint line; // source line
				25	uint column; // source column
				26
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	27	int emit_dent; // non-zero when there are INDENT/DEDENT tokens to emit
				28	int nested_bracket_level; // >0 when there are nested brackets over multiple lines
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	29
				30	uint alloc_indent_level;
				31	uint num_indent_level;
				32	uint16_t *indent_level;
				33
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	34	vstr_t vstr;
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	35	mp_token_t tok_cur;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	36	};
				37
Damien George	9528cd6	2014-01-15 21:23:31 +0000	[diff] [blame]	38	// TODO replace with a call to a standard function
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	39	bool str_strn_equal(const char str, const char strn, int len) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	40	uint i = 0;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	41
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	42	while (i < len && str == strn) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	43	++i;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	44	++str;
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	45	++strn;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	46	}
				47
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	48	return i == len && *str == 0;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	49	}
				50
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	51	void mp_token_show(const mp_token_t *tok) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	52	printf("(%s:%d:%d) kind:%d str:%p len:%d", tok->src_name, tok->src_line, tok->src_column, tok->kind, tok->str, tok->len);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	53	if (tok->str != NULL && tok->len > 0) {
				54	const char *i = tok->str;
				55	const char *j = i + tok->len;
				56	printf(" ");
				57	while (i < j) {
Damien George	8cc96a3	2013-12-30 18:23:50 +0000	[diff] [blame]	58	unichar c = utf8_get_char(i);
				59	i = utf8_next_char(i);
				60	if (unichar_isprint(c)) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	61	printf("%c", c);
				62	} else {
				63	printf("?");
				64	}
				65	}
				66	}
				67	printf("\n");
				68	}
				69
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	70	#define CUR_CHAR(lex) ((lex)->chr0)
				71
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	72	static bool is_end(mp_lexer_t *lex) {
				73	return lex->chr0 == MP_LEXER_CHAR_EOF;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	74	}
				75
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	76	static bool is_physical_newline(mp_lexer_t *lex) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	77	return lex->chr0 == '\n' \|\| lex->chr0 == '\r';
				78	}
				79
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	80	static bool is_char(mp_lexer_t *lex, char c) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	81	return lex->chr0 == c;
				82	}
				83
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	84	static bool is_char_or(mp_lexer_t *lex, char c1, char c2) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	85	return lex->chr0 == c1 \|\| lex->chr0 == c2;
				86	}
				87
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	88	static bool is_char_or3(mp_lexer_t *lex, char c1, char c2, char c3) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	89	return lex->chr0 == c1 \|\| lex->chr0 == c2 \|\| lex->chr0 == c3;
				90	}
				91
				92	/*
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	93	static bool is_char_following(mp_lexer_t *lex, char c) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	94	return lex->chr1 == c;
				95	}
				96	*/
				97
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	98	static bool is_char_following_or(mp_lexer_t *lex, char c1, char c2) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	99	return lex->chr1 == c1 \|\| lex->chr1 == c2;
				100	}
				101
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	102	static bool is_char_following_following_or(mp_lexer_t *lex, char c1, char c2) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	103	return lex->chr2 == c1 \|\| lex->chr2 == c2;
				104	}
				105
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	106	static bool is_char_and(mp_lexer_t *lex, char c1, char c2) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	107	return lex->chr0 == c1 && lex->chr1 == c2;
				108	}
				109
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	110	static bool is_whitespace(mp_lexer_t *lex) {
Damien George	8cc96a3	2013-12-30 18:23:50 +0000	[diff] [blame]	111	return unichar_isspace(lex->chr0);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	112	}
				113
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	114	static bool is_letter(mp_lexer_t *lex) {
Damien George	8cc96a3	2013-12-30 18:23:50 +0000	[diff] [blame]	115	return unichar_isalpha(lex->chr0);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	116	}
				117
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	118	static bool is_digit(mp_lexer_t *lex) {
Damien George	8cc96a3	2013-12-30 18:23:50 +0000	[diff] [blame]	119	return unichar_isdigit(lex->chr0);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	120	}
				121
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	122	static bool is_following_digit(mp_lexer_t *lex) {
Damien George	8cc96a3	2013-12-30 18:23:50 +0000	[diff] [blame]	123	return unichar_isdigit(lex->chr1);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	124	}
				125
				126	// TODO UNICODE include unicode characters in definition of identifiers
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	127	static bool is_head_of_identifier(mp_lexer_t *lex) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	128	return is_letter(lex) \|\| lex->chr0 == '_';
				129	}
				130
				131	// TODO UNICODE include unicode characters in definition of identifiers
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	132	static bool is_tail_of_identifier(mp_lexer_t *lex) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	133	return is_head_of_identifier(lex) \|\| is_digit(lex);
				134	}
				135
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	136	static void next_char(mp_lexer_t *lex) {
				137	if (lex->chr0 == MP_LEXER_CHAR_EOF) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	138	return;
				139	}
				140
				141	int advance = 1;
				142
				143	if (lex->chr0 == '\n') {
				144	// LF is a new line
				145	++lex->line;
				146	lex->column = 1;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	147	} else if (lex->chr0 == '\r') {
				148	// CR is a new line
				149	++lex->line;
				150	lex->column = 1;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	151	if (lex->chr1 == '\n') {
				152	// CR LF is a single new line
				153	advance = 2;
				154	}
				155	} else if (lex->chr0 == '\t') {
				156	// a tab
				157	lex->column = (((lex->column - 1 + TAB_SIZE) / TAB_SIZE) * TAB_SIZE) + 1;
				158	} else {
				159	// a character worth one column
				160	++lex->column;
				161	}
				162
				163	for (; advance > 0; advance--) {
				164	lex->chr0 = lex->chr1;
				165	lex->chr1 = lex->chr2;
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	166	lex->chr2 = lex->stream_next_char(lex->stream_data);
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	167	if (lex->chr2 == MP_LEXER_CHAR_EOF) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	168	// EOF
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	169	if (lex->chr1 != MP_LEXER_CHAR_EOF && lex->chr1 != '\n' && lex->chr1 != '\r') {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	170	lex->chr2 = '\n'; // insert newline at end of file
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	171	}
				172	}
				173	}
				174	}
				175
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	176	void indent_push(mp_lexer_t *lex, uint indent) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	177	if (lex->num_indent_level >= lex->alloc_indent_level) {
Damien	732407f	2013-12-29 19:33:23 +0000	[diff] [blame]	178	lex->indent_level = m_renew(uint16_t, lex->indent_level, lex->alloc_indent_level, lex->alloc_indent_level * 2);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	179	lex->alloc_indent_level *= 2;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	180	}
				181	lex->indent_level[lex->num_indent_level++] = indent;
				182	}
				183
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	184	uint indent_top(mp_lexer_t *lex) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	185	return lex->indent_level[lex->num_indent_level - 1];
				186	}
				187
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	188	void indent_pop(mp_lexer_t *lex) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	189	lex->num_indent_level -= 1;
				190	}
				191
				192	// some tricky operator encoding:
				193	// <op> = begin with <op>, if this opchar matches then begin here
				194	// e<op> = end with <op>, if this opchar matches then end
				195	// E<op> = mandatory end with <op>, this opchar must match, then end
				196	// c<op> = continue with <op>, if this opchar matches then continue matching
				197	// this means if the start of two ops are the same then they are equal til the last char
				198
				199	static const char *tok_enc =
				200	"()[]{},:;@~" // singles
				201	"<e=c<e=" // < <= << <<=
				202	">e=c>e=" // > >= >> >>=
				203	"e=ce=" // * = * **=
				204	"+e=" // + +=
				205	"-e=e>" // - -= ->
				206	"&e=" // & &=
				207	"\|e=" // \| \|=
				208	"/e=c/e=" // / /= // //=
				209	"%e=" // % %=
				210	"^e=" // ^ ^=
				211	"=e=" // = ==
				212	"!E=" // !=
				213	".c.E."; // . ...
				214
				215	// TODO static assert that number of tokens is less than 256 so we can safely make this table with byte sized entries
				216	static const uint8_t tok_enc_kind[] = {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	217	MP_TOKEN_DEL_PAREN_OPEN, MP_TOKEN_DEL_PAREN_CLOSE,
				218	MP_TOKEN_DEL_BRACKET_OPEN, MP_TOKEN_DEL_BRACKET_CLOSE,
				219	MP_TOKEN_DEL_BRACE_OPEN, MP_TOKEN_DEL_BRACE_CLOSE,
				220	MP_TOKEN_DEL_COMMA, MP_TOKEN_DEL_COLON, MP_TOKEN_DEL_SEMICOLON, MP_TOKEN_DEL_AT, MP_TOKEN_OP_TILDE,
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	221
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	222	MP_TOKEN_OP_LESS, MP_TOKEN_OP_LESS_EQUAL, MP_TOKEN_OP_DBL_LESS, MP_TOKEN_DEL_DBL_LESS_EQUAL,
				223	MP_TOKEN_OP_MORE, MP_TOKEN_OP_MORE_EQUAL, MP_TOKEN_OP_DBL_MORE, MP_TOKEN_DEL_DBL_MORE_EQUAL,
				224	MP_TOKEN_OP_STAR, MP_TOKEN_DEL_STAR_EQUAL, MP_TOKEN_OP_DBL_STAR, MP_TOKEN_DEL_DBL_STAR_EQUAL,
				225	MP_TOKEN_OP_PLUS, MP_TOKEN_DEL_PLUS_EQUAL,
				226	MP_TOKEN_OP_MINUS, MP_TOKEN_DEL_MINUS_EQUAL, MP_TOKEN_DEL_MINUS_MORE,
				227	MP_TOKEN_OP_AMPERSAND, MP_TOKEN_DEL_AMPERSAND_EQUAL,
				228	MP_TOKEN_OP_PIPE, MP_TOKEN_DEL_PIPE_EQUAL,
				229	MP_TOKEN_OP_SLASH, MP_TOKEN_DEL_SLASH_EQUAL, MP_TOKEN_OP_DBL_SLASH, MP_TOKEN_DEL_DBL_SLASH_EQUAL,
				230	MP_TOKEN_OP_PERCENT, MP_TOKEN_DEL_PERCENT_EQUAL,
				231	MP_TOKEN_OP_CARET, MP_TOKEN_DEL_CARET_EQUAL,
				232	MP_TOKEN_DEL_EQUAL, MP_TOKEN_OP_DBL_EQUAL,
				233	MP_TOKEN_OP_NOT_EQUAL,
Damien George	e9906ac	2014-01-04 18:44:46 +0000	[diff] [blame]	234	MP_TOKEN_DEL_PERIOD, MP_TOKEN_ELLIPSIS,
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	235	};
				236
				237	// must have the same order as enum in lexer.h
				238	static const char *tok_kw[] = {
				239	"False",
				240	"None",
				241	"True",
				242	"and",
				243	"as",
				244	"assert",
				245	"break",
				246	"class",
				247	"continue",
				248	"def",
				249	"del",
				250	"elif",
				251	"else",
				252	"except",
				253	"finally",
				254	"for",
				255	"from",
				256	"global",
				257	"if",
				258	"import",
				259	"in",
				260	"is",
				261	"lambda",
				262	"nonlocal",
				263	"not",
				264	"or",
				265	"pass",
				266	"raise",
				267	"return",
				268	"try",
				269	"while",
				270	"with",
				271	"yield",
				272	NULL,
				273	};
				274
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	275	static void mp_lexer_next_token_into(mp_lexer_t lex, mp_token_t tok, bool first_token) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	276	// skip white space and comments
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	277	bool had_physical_newline = false;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	278	while (!is_end(lex)) {
				279	if (is_physical_newline(lex)) {
				280	had_physical_newline = true;
				281	next_char(lex);
				282	} else if (is_whitespace(lex)) {
				283	next_char(lex);
				284	} else if (is_char(lex, '#')) {
				285	next_char(lex);
				286	while (!is_end(lex) && !is_physical_newline(lex)) {
				287	next_char(lex);
				288	}
				289	// had_physical_newline will be set on next loop
				290	} else if (is_char(lex, '\\')) {
				291	// backslash (outside string literals) must appear just before a physical newline
				292	next_char(lex);
				293	if (!is_physical_newline(lex)) {
Damien George	69a818d	2014-01-12 13:55:24 +0000	[diff] [blame]	294	// SyntaxError: unexpected character after line continuation character
				295	tok->src_name = lex->name;
				296	tok->src_line = lex->line;
				297	tok->src_column = lex->column;
				298	tok->kind = MP_TOKEN_BAD_LINE_CONTINUATION;
				299	vstr_reset(&lex->vstr);
				300	tok->str = vstr_str(&lex->vstr);
				301	tok->len = 0;
				302	return;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	303	} else {
				304	next_char(lex);
				305	}
				306	} else {
				307	break;
				308	}
				309	}
				310
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	311	// set token source information
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	312	tok->src_name = lex->name;
				313	tok->src_line = lex->line;
				314	tok->src_column = lex->column;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	315
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	316	// start new token text
				317	vstr_reset(&lex->vstr);
				318
				319	if (first_token && lex->line == 1 && lex->column != 1) {
				320	// check that the first token is in the first column
				321	// if first token is not on first line, we get a physical newline and
				322	// this check is done as part of normal indent/dedent checking below
				323	// (done to get equivalence with CPython)
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	324	tok->kind = MP_TOKEN_INDENT;
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	325
				326	} else if (lex->emit_dent < 0) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	327	tok->kind = MP_TOKEN_DEDENT;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	328	lex->emit_dent += 1;
				329
				330	} else if (lex->emit_dent > 0) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	331	tok->kind = MP_TOKEN_INDENT;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	332	lex->emit_dent -= 1;
				333
Damien	91d387d	2013-10-09 15:09:52 +0100	[diff] [blame]	334	} else if (had_physical_newline && lex->nested_bracket_level == 0) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	335	tok->kind = MP_TOKEN_NEWLINE;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	336
				337	uint num_spaces = lex->column - 1;
				338	lex->emit_dent = 0;
				339	if (num_spaces == indent_top(lex)) {
				340	} else if (num_spaces > indent_top(lex)) {
				341	indent_push(lex, num_spaces);
				342	lex->emit_dent += 1;
				343	} else {
				344	while (num_spaces < indent_top(lex)) {
				345	indent_pop(lex);
				346	lex->emit_dent -= 1;
				347	}
				348	if (num_spaces != indent_top(lex)) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	349	tok->kind = MP_TOKEN_DEDENT_MISMATCH;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	350	}
				351	}
				352
				353	} else if (is_end(lex)) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	354	if (indent_top(lex) > 0) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	355	tok->kind = MP_TOKEN_NEWLINE;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	356	lex->emit_dent = 0;
				357	while (indent_top(lex) > 0) {
				358	indent_pop(lex);
				359	lex->emit_dent -= 1;
				360	}
				361	} else {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	362	tok->kind = MP_TOKEN_END;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	363	}
				364
				365	} else if (is_char_or(lex, '\'', '\"')
				366	\|\| (is_char_or3(lex, 'r', 'u', 'b') && is_char_following_or(lex, '\'', '\"'))
				367	\|\| ((is_char_and(lex, 'r', 'b') \|\| is_char_and(lex, 'b', 'r')) && is_char_following_following_or(lex, '\'', '\"'))) {
				368	// a string or bytes literal
				369
				370	// parse type codes
				371	bool is_raw = false;
				372	bool is_bytes = false;
				373	if (is_char(lex, 'u')) {
				374	next_char(lex);
				375	} else if (is_char(lex, 'b')) {
				376	is_bytes = true;
				377	next_char(lex);
				378	if (is_char(lex, 'r')) {
				379	is_raw = true;
				380	next_char(lex);
				381	}
				382	} else if (is_char(lex, 'r')) {
				383	is_raw = true;
				384	next_char(lex);
				385	if (is_char(lex, 'b')) {
				386	is_bytes = true;
				387	next_char(lex);
				388	}
				389	}
				390
				391	// set token kind
				392	if (is_bytes) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	393	tok->kind = MP_TOKEN_BYTES;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	394	} else {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	395	tok->kind = MP_TOKEN_STRING;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	396	}
				397
				398	// get first quoting character
				399	char quote_char = '\'';
				400	if (is_char(lex, '\"')) {
				401	quote_char = '\"';
				402	}
				403	next_char(lex);
				404
				405	// work out if it's a single or triple quoted literal
				406	int num_quotes;
				407	if (is_char_and(lex, quote_char, quote_char)) {
				408	// triple quotes
				409	next_char(lex);
				410	next_char(lex);
				411	num_quotes = 3;
				412	} else {
				413	// single quotes
				414	num_quotes = 1;
				415	}
				416
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	417	// parse the literal
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	418	int n_closing = 0;
				419	while (!is_end(lex) && (num_quotes > 1 \|\| !is_char(lex, '\n')) && n_closing < num_quotes) {
				420	if (is_char(lex, quote_char)) {
				421	n_closing += 1;
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	422	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	423	} else {
				424	n_closing = 0;
				425	if (!is_raw && is_char(lex, '\\')) {
				426	next_char(lex);
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	427	unichar c = CUR_CHAR(lex);
				428	switch (c) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	429	case MP_LEXER_CHAR_EOF: break; // TODO a proper error message?
				430	case '\n': c = MP_LEXER_CHAR_EOF; break; // TODO check this works correctly (we are supposed to ignore it
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	431	case '\\': break;
				432	case '\'': break;
				433	case '"': break;
				434	case 'a': c = 0x07; break;
				435	case 'b': c = 0x08; break;
				436	case 't': c = 0x09; break;
				437	case 'n': c = 0x0a; break;
				438	case 'v': c = 0x0b; break;
				439	case 'f': c = 0x0c; break;
				440	case 'r': c = 0x0d; break;
				441	// TODO \ooo octal
				442	case 'x': // TODO \xhh
				443	case 'N': // TODO \N{name} only in strings
				444	case 'u': // TODO \uxxxx only in strings
				445	case 'U': // TODO \Uxxxxxxxx only in strings
				446	default: break; // TODO error message
				447	}
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	448	if (c != MP_LEXER_CHAR_EOF) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	449	vstr_add_char(&lex->vstr, c);
				450	}
				451	} else {
				452	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	453	}
				454	}
				455	next_char(lex);
				456	}
				457
				458	// check we got the required end quotes
				459	if (n_closing < num_quotes) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	460	tok->kind = MP_TOKEN_LONELY_STRING_OPEN;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	461	}
				462
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	463	// cut off the end quotes from the token text
				464	vstr_cut_tail(&lex->vstr, n_closing);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	465
				466	} else if (is_head_of_identifier(lex)) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	467	tok->kind = MP_TOKEN_NAME;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	468
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	469	// get first char
				470	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	471	next_char(lex);
				472
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	473	// get tail chars
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	474	while (!is_end(lex) && is_tail_of_identifier(lex)) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	475	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	476	next_char(lex);
				477	}
				478
				479	} else if (is_digit(lex) \|\| (is_char(lex, '.') && is_following_digit(lex))) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	480	tok->kind = MP_TOKEN_NUMBER;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	481
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	482	// get first char
				483	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	484	next_char(lex);
				485
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	486	// get tail chars
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	487	while (!is_end(lex)) {
				488	if (is_char_or(lex, 'e', 'E')) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	489	vstr_add_char(&lex->vstr, 'e');
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	490	next_char(lex);
				491	if (is_char(lex, '+') \|\| is_char(lex, '-')) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	492	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	493	next_char(lex);
				494	}
				495	} else if (is_letter(lex) \|\| is_digit(lex) \|\| is_char_or(lex, '_', '.')) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	496	vstr_add_char(&lex->vstr, CUR_CHAR(lex));
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	497	next_char(lex);
				498	} else {
				499	break;
				500	}
				501	}
				502
				503	} else {
				504	// search for encoded delimiter or operator
				505
				506	const char *t = tok_enc;
				507	uint tok_enc_index = 0;
				508	for (; t != 0 && !is_char(lex, t); t += 1) {
				509	if (t == 'e' \|\| t == 'c') {
				510	t += 1;
				511	} else if (*t == 'E') {
				512	tok_enc_index -= 1;
				513	t += 1;
				514	}
				515	tok_enc_index += 1;
				516	}
				517
				518	next_char(lex);
				519
				520	if (*t == 0) {
				521	// didn't match any delimiter or operator characters
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	522	tok->kind = MP_TOKEN_INVALID;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	523
				524	} else {
				525	// matched a delimiter or operator character
				526
				527	// get the maximum characters for a valid token
				528	t += 1;
				529	uint t_index = tok_enc_index;
				530	for (;;) {
				531	for (; *t == 'e'; t += 1) {
				532	t += 1;
				533	t_index += 1;
				534	if (is_char(lex, *t)) {
				535	next_char(lex);
				536	tok_enc_index = t_index;
				537	break;
				538	}
				539	}
				540
				541	if (*t == 'E') {
				542	t += 1;
				543	if (is_char(lex, *t)) {
				544	next_char(lex);
				545	tok_enc_index = t_index;
				546	} else {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	547	tok->kind = MP_TOKEN_INVALID;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	548	}
				549	break;
				550	}
				551
				552	if (*t == 'c') {
				553	t += 1;
				554	t_index += 1;
				555	if (is_char(lex, *t)) {
				556	next_char(lex);
				557	tok_enc_index = t_index;
				558	t += 1;
				559	} else {
				560	break;
				561	}
				562	} else {
				563	break;
				564	}
				565	}
				566
				567	// set token kind
				568	tok->kind = tok_enc_kind[tok_enc_index];
				569
				570	// compute bracket level for implicit line joining
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	571	if (tok->kind == MP_TOKEN_DEL_PAREN_OPEN \|\| tok->kind == MP_TOKEN_DEL_BRACKET_OPEN \|\| tok->kind == MP_TOKEN_DEL_BRACE_OPEN) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	572	lex->nested_bracket_level += 1;
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	573	} else if (tok->kind == MP_TOKEN_DEL_PAREN_CLOSE \|\| tok->kind == MP_TOKEN_DEL_BRACKET_CLOSE \|\| tok->kind == MP_TOKEN_DEL_BRACE_CLOSE) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	574	lex->nested_bracket_level -= 1;
				575	}
				576	}
				577	}
				578
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	579	// point token text to vstr buffer
				580	tok->str = vstr_str(&lex->vstr);
				581	tok->len = vstr_len(&lex->vstr);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	582
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	583	// check for keywords
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	584	if (tok->kind == MP_TOKEN_NAME) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	585	for (int i = 0; tok_kw[i] != NULL; i++) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	586	if (str_strn_equal(tok_kw[i], tok->str, tok->len)) {
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	587	tok->kind = MP_TOKEN_KW_FALSE + i;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	588	break;
				589	}
				590	}
				591	}
				592	}
				593
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	594	mp_lexer_t mp_lexer_new(const char src_name, void *stream_data, mp_lexer_stream_next_char_t stream_next_char, mp_lexer_stream_close_t stream_close) {
				595	mp_lexer_t *lex = m_new(mp_lexer_t, 1);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	596
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	597	lex->name = src_name; // TODO do we need to strdup this?
				598	lex->stream_data = stream_data;
				599	lex->stream_next_char = stream_next_char;
Damien	fa2162b	2013-10-20 17:42:00 +0100	[diff] [blame]	600	lex->stream_close = stream_close;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	601	lex->line = 1;
				602	lex->column = 1;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	603	lex->emit_dent = 0;
				604	lex->nested_bracket_level = 0;
				605	lex->alloc_indent_level = 16;
				606	lex->num_indent_level = 1;
				607	lex->indent_level = m_new(uint16_t, lex->alloc_indent_level);
				608	lex->indent_level[0] = 0;
Paul Sokolovsky	5d2499c	2014-01-13 23:15:23 +0200	[diff] [blame]	609	vstr_init(&lex->vstr, 32);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	610
				611	// preload characters
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	612	lex->chr0 = stream_next_char(stream_data);
				613	lex->chr1 = stream_next_char(stream_data);
				614	lex->chr2 = stream_next_char(stream_data);
				615
				616	// if input stream is 0, 1 or 2 characters long and doesn't end in a newline, then insert a newline at the end
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	617	if (lex->chr0 == MP_LEXER_CHAR_EOF) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	618	lex->chr0 = '\n';
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	619	} else if (lex->chr1 == MP_LEXER_CHAR_EOF) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	620	if (lex->chr0 != '\n' && lex->chr0 != '\r') {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	621	lex->chr1 = '\n';
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	622	}
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	623	} else if (lex->chr2 == MP_LEXER_CHAR_EOF) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	624	if (lex->chr1 != '\n' && lex->chr1 != '\r') {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	625	lex->chr2 = '\n';
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	626	}
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	627	}
				628
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	629	// preload first token
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	630	mp_lexer_next_token_into(lex, &lex->tok_cur, true);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	631
				632	return lex;
				633	}
				634
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	635	void mp_lexer_free(mp_lexer_t *lex) {
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	636	if (lex) {
Damien	fa2162b	2013-10-20 17:42:00 +0100	[diff] [blame]	637	if (lex->stream_close) {
				638	lex->stream_close(lex->stream_data);
Damien	a5185f4	2013-10-20 14:41:27 +0100	[diff] [blame]	639	}
Damien	bb5316b	2013-10-22 21:12:29 +0100	[diff] [blame]	640	vstr_clear(&lex->vstr);
Damien	732407f	2013-12-29 19:33:23 +0000	[diff] [blame]	641	m_del_obj(mp_lexer_t, lex);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	642	}
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	643	}
				644
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	645	void mp_lexer_to_next(mp_lexer_t *lex) {
				646	mp_lexer_next_token_into(lex, &lex->tok_cur, false);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	647	}
				648
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	649	const mp_token_t mp_lexer_cur(const mp_lexer_t lex) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	650	return &lex->tok_cur;
				651	}
				652
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	653	bool mp_lexer_is_kind(mp_lexer_t *lex, mp_token_kind_t kind) {
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	654	return lex->tok_cur.kind == kind;
				655	}
				656
				657	/*
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	658	bool mp_lexer_is_str(mp_lexer_t lex, const char str) {
				659	return mp_token_is_str(&lex->tok_cur, str);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	660	}
				661
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	662	bool mp_lexer_opt_kind(mp_lexer_t *lex, mp_token_kind_t kind) {
				663	if (mp_lexer_is_kind(lex, kind)) {
				664	mp_lexer_to_next(lex);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	665	return true;
				666	}
				667	return false;
				668	}
				669
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	670	bool mp_lexer_opt_str(mp_lexer_t lex, const char str) {
				671	if (mp_lexer_is_str(lex, str)) {
				672	mp_lexer_to_next(lex);
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	673	return true;
				674	}
				675	return false;
				676	}
				677	*/
				678
Damien George	9528cd6	2014-01-15 21:23:31 +0000	[diff] [blame]	679	bool mp_lexer_show_error_pythonic_prefix(mp_lexer_t *lex) {
				680	printf(" File \"%s\", line %d column %d\n", lex->tok_cur.src_name, lex->tok_cur.src_line, lex->tok_cur.src_column);
				681	return false;
Damien	429d719	2013-10-04 19:53:11 +0100	[diff] [blame]	682	}
Damien	91d387d	2013-10-09 15:09:52 +0100	[diff] [blame]	683
Damien	d99b052	2013-12-21 18:17:45 +0000	[diff] [blame]	684	bool mp_lexer_show_error_pythonic(mp_lexer_t lex, const char msg) {
Damien	91d387d	2013-10-09 15:09:52 +0100	[diff] [blame]	685	printf(" File \"%s\", line %d column %d\n%s\n", lex->tok_cur.src_name, lex->tok_cur.src_line, lex->tok_cur.src_column, msg);
				686	return false;
				687	}