bb/pysh/pyshlex.py

*4882a593Smuzhiyun# pyshlex.py - PLY compatible lexer for pysh.
*4882a593Smuzhiyun#
*4882a593Smuzhiyun# Copyright 2007 Patrick Mezard
*4882a593Smuzhiyun#
*4882a593Smuzhiyun# This software may be used and distributed according to the terms
*4882a593Smuzhiyun# of the GNU General Public License, incorporated herein by reference.
*4882a593Smuzhiyun
*4882a593Smuzhiyun# TODO:
*4882a593Smuzhiyun# - review all "char in 'abc'" snippets: the empty string can be matched
*4882a593Smuzhiyun# - test line continuations within quoted/expansion strings
*4882a593Smuzhiyun# - eof is buggy wrt sublexers
*4882a593Smuzhiyun# - the lexer cannot really work in pull mode as it would be required to run
*4882a593Smuzhiyun# PLY in pull mode. It was designed to work incrementally and it would not be
*4882a593Smuzhiyun# that hard to enable pull mode.
*4882a593Smuzhiyunimport re
*4882a593Smuzhiyun
*4882a593Smuzhiyunfrom ply import lex
*4882a593Smuzhiyunfrom bb.pysh.sherrors import *
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass NeedMore(Exception):
*4882a593Smuzhiyun    pass
*4882a593Smuzhiyun
*4882a593Smuzhiyundef is_blank(c):
*4882a593Smuzhiyun    return c in (' ', '\t')
*4882a593Smuzhiyun
*4882a593Smuzhiyun_RE_DIGITS = re.compile(r'^\d+$')
*4882a593Smuzhiyun
*4882a593Smuzhiyundef are_digits(s):
*4882a593Smuzhiyun    return _RE_DIGITS.search(s) is not None
*4882a593Smuzhiyun
*4882a593Smuzhiyun_OPERATORS = dict([
*4882a593Smuzhiyun    ('&&', 'AND_IF'),
*4882a593Smuzhiyun    ('||', 'OR_IF'),
*4882a593Smuzhiyun    (';;', 'DSEMI'),
*4882a593Smuzhiyun    ('<<', 'DLESS'),
*4882a593Smuzhiyun    ('>>', 'DGREAT'),
*4882a593Smuzhiyun    ('<&', 'LESSAND'),
*4882a593Smuzhiyun    ('>&', 'GREATAND'),
*4882a593Smuzhiyun    ('<>', 'LESSGREAT'),
*4882a593Smuzhiyun    ('<<-', 'DLESSDASH'),
*4882a593Smuzhiyun    ('>|', 'CLOBBER'),
*4882a593Smuzhiyun    ('&', 'AMP'),
*4882a593Smuzhiyun    (';', 'COMMA'),
*4882a593Smuzhiyun    ('<', 'LESS'),
*4882a593Smuzhiyun    ('>', 'GREATER'),
*4882a593Smuzhiyun    ('(', 'LPARENS'),
*4882a593Smuzhiyun    (')', 'RPARENS'),
*4882a593Smuzhiyun])
*4882a593Smuzhiyun
*4882a593Smuzhiyun#Make a function to silence pychecker "Local variable shadows global"
*4882a593Smuzhiyundef make_partial_ops():
*4882a593Smuzhiyun    partials = {}
*4882a593Smuzhiyun    for k in _OPERATORS:
*4882a593Smuzhiyun        for i in range(1, len(k)+1):
*4882a593Smuzhiyun            partials[k[:i]] = None
*4882a593Smuzhiyun    return partials
*4882a593Smuzhiyun
*4882a593Smuzhiyun_PARTIAL_OPERATORS = make_partial_ops()
*4882a593Smuzhiyun
*4882a593Smuzhiyundef is_partial_op(s):
*4882a593Smuzhiyun    """Return True if s matches a non-empty subpart of an operator starting
*4882a593Smuzhiyun    at its first character.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    return s in _PARTIAL_OPERATORS
*4882a593Smuzhiyun
*4882a593Smuzhiyundef is_op(s):
*4882a593Smuzhiyun    """If s matches an operator, returns the operator identifier. Return None
*4882a593Smuzhiyun    otherwise.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    return _OPERATORS.get(s)
*4882a593Smuzhiyun
*4882a593Smuzhiyun_RESERVEDS = dict([
*4882a593Smuzhiyun    ('if', 'If'),
*4882a593Smuzhiyun    ('then', 'Then'),
*4882a593Smuzhiyun    ('else', 'Else'),
*4882a593Smuzhiyun    ('elif', 'Elif'),
*4882a593Smuzhiyun    ('fi', 'Fi'),
*4882a593Smuzhiyun    ('do', 'Do'),
*4882a593Smuzhiyun    ('done', 'Done'),
*4882a593Smuzhiyun    ('case', 'Case'),
*4882a593Smuzhiyun    ('esac', 'Esac'),
*4882a593Smuzhiyun    ('while', 'While'),
*4882a593Smuzhiyun    ('until', 'Until'),
*4882a593Smuzhiyun    ('for', 'For'),
*4882a593Smuzhiyun    ('{', 'Lbrace'),
*4882a593Smuzhiyun    ('}', 'Rbrace'),
*4882a593Smuzhiyun    ('!', 'Bang'),
*4882a593Smuzhiyun    ('in', 'In'),
*4882a593Smuzhiyun    ('|', 'PIPE'),
*4882a593Smuzhiyun])
*4882a593Smuzhiyun
*4882a593Smuzhiyundef get_reserved(s):
*4882a593Smuzhiyun    return _RESERVEDS.get(s)
*4882a593Smuzhiyun
*4882a593Smuzhiyun_RE_NAME = re.compile(r'^[0-9a-zA-Z_]+$')
*4882a593Smuzhiyun
*4882a593Smuzhiyundef is_name(s):
*4882a593Smuzhiyun    return _RE_NAME.search(s) is not None
*4882a593Smuzhiyun
*4882a593Smuzhiyundef find_chars(seq, chars):
*4882a593Smuzhiyun    for i,v in enumerate(seq):
*4882a593Smuzhiyun        if v in chars:
*4882a593Smuzhiyun            return i,v
*4882a593Smuzhiyun    return -1, None
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass WordLexer:
*4882a593Smuzhiyun    """WordLexer parse quoted or expansion expressions and return an expression
*4882a593Smuzhiyun    tree. The input string can be any well formed sequence beginning with quoting
*4882a593Smuzhiyun    or expansion character. Embedded expressions are handled recursively. The
*4882a593Smuzhiyun    resulting tree is made of lists and strings. Lists represent quoted or
*4882a593Smuzhiyun    expansion expressions. Each list first element is the opening separator,
*4882a593Smuzhiyun    the last one the closing separator. In-between can be any number of strings
*4882a593Smuzhiyun    or lists for sub-expressions. Non quoted/expansion expression can written as
*4882a593Smuzhiyun    strings or as lists with empty strings as starting and ending delimiters.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun
*4882a593Smuzhiyun    NAME_CHARSET = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789_'
*4882a593Smuzhiyun    NAME_CHARSET = dict(zip(NAME_CHARSET, NAME_CHARSET))
*4882a593Smuzhiyun
*4882a593Smuzhiyun    SPECIAL_CHARSET = '@*#?-$!0'
*4882a593Smuzhiyun
*4882a593Smuzhiyun    #Characters which can be escaped depends on the current delimiters
*4882a593Smuzhiyun    ESCAPABLE = {
*4882a593Smuzhiyun        '`': set(['$', '\\', '`']),
*4882a593Smuzhiyun        '"': set(['$', '\\', '`', '"']),
*4882a593Smuzhiyun        "'": set(),
*4882a593Smuzhiyun    }
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def __init__(self, heredoc = False):
*4882a593Smuzhiyun        # _buffer is the unprocessed input characters buffer
*4882a593Smuzhiyun        self._buffer = []
*4882a593Smuzhiyun        # _stack is empty or contains a quoted list being processed
*4882a593Smuzhiyun        # (this is the DFS path to the quoted expression being evaluated).
*4882a593Smuzhiyun        self._stack = []
*4882a593Smuzhiyun        self._escapable = None
*4882a593Smuzhiyun        # True when parsing unquoted here documents
*4882a593Smuzhiyun        self._heredoc = heredoc
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def add(self, data, eof=False):
*4882a593Smuzhiyun        """Feed the lexer with more data. If the quoted expression can be
*4882a593Smuzhiyun        delimited, return a tuple (expr, remaining) containing the expression
*4882a593Smuzhiyun        tree and the unconsumed data.
*4882a593Smuzhiyun        Otherwise, raise NeedMore.
*4882a593Smuzhiyun        """
*4882a593Smuzhiyun        self._buffer += list(data)
*4882a593Smuzhiyun        self._parse(eof)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        result = self._stack[0]
*4882a593Smuzhiyun        remaining = ''.join(self._buffer)
*4882a593Smuzhiyun        self._stack = []
*4882a593Smuzhiyun        self._buffer = []
*4882a593Smuzhiyun        return result, remaining
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _is_escapable(self, c, delim=None):
*4882a593Smuzhiyun        if delim is None:
*4882a593Smuzhiyun            if self._heredoc:
*4882a593Smuzhiyun                # Backslashes works as if they were double quoted in unquoted
*4882a593Smuzhiyun                # here-documents
*4882a593Smuzhiyun                delim = '"'
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                if len(self._stack)<=1:
*4882a593Smuzhiyun                    return True
*4882a593Smuzhiyun                delim = self._stack[-2][0]
*4882a593Smuzhiyun
*4882a593Smuzhiyun        escapables = self.ESCAPABLE.get(delim, None)
*4882a593Smuzhiyun        return escapables is None or c in escapables
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_squote(self, buf, result, eof):
*4882a593Smuzhiyun        if not buf:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun        try:
*4882a593Smuzhiyun            pos = buf.index("'")
*4882a593Smuzhiyun        except ValueError:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun        result[-1] += ''.join(buf[:pos])
*4882a593Smuzhiyun        result += ["'"]
*4882a593Smuzhiyun        return pos+1, True
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_bquote(self, buf, result, eof):
*4882a593Smuzhiyun        if not buf:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if buf[0]=='\n':
*4882a593Smuzhiyun            #Remove line continuations
*4882a593Smuzhiyun            result[:] = ['', '', '']
*4882a593Smuzhiyun        elif self._is_escapable(buf[0]):
*4882a593Smuzhiyun            result[-1] += buf[0]
*4882a593Smuzhiyun            result += ['']
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            #Keep as such
*4882a593Smuzhiyun            result[:] = ['', '\\'+buf[0], '']
*4882a593Smuzhiyun
*4882a593Smuzhiyun        return 1, True
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_dquote(self, buf, result, eof):
*4882a593Smuzhiyun        if not buf:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun        pos, sep = find_chars(buf, '$\\`"')
*4882a593Smuzhiyun        if pos==-1:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        result[-1] += ''.join(buf[:pos])
*4882a593Smuzhiyun        if sep=='"':
*4882a593Smuzhiyun            result += ['"']
*4882a593Smuzhiyun            return pos+1, True
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            #Keep everything until the separator and defer processing
*4882a593Smuzhiyun            return pos, False
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_command(self, buf, result, eof):
*4882a593Smuzhiyun        if not buf:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        chars = '$\\`"\''
*4882a593Smuzhiyun        if result[0] == '$(':
*4882a593Smuzhiyun            chars += ')'
*4882a593Smuzhiyun        pos, sep = find_chars(buf, chars)
*4882a593Smuzhiyun        if pos == -1:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        result[-1] += ''.join(buf[:pos])
*4882a593Smuzhiyun        if (result[0]=='$(' and sep==')') or (result[0]=='`' and sep=='`'):
*4882a593Smuzhiyun            result += [sep]
*4882a593Smuzhiyun            return pos+1, True
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            return pos, False
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_parameter(self, buf, result, eof):
*4882a593Smuzhiyun        if not buf:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        pos, sep = find_chars(buf, '$\\`"\'}')
*4882a593Smuzhiyun        if pos==-1:
*4882a593Smuzhiyun            raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        result[-1] += ''.join(buf[:pos])
*4882a593Smuzhiyun        if sep=='}':
*4882a593Smuzhiyun            result += [sep]
*4882a593Smuzhiyun            return pos+1, True
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            return pos, False
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_dollar(self, buf, result, eof):
*4882a593Smuzhiyun        sep = result[0]
*4882a593Smuzhiyun        if sep=='$':
*4882a593Smuzhiyun            if not buf:
*4882a593Smuzhiyun                #TODO: handle empty $
*4882a593Smuzhiyun                raise NeedMore()
*4882a593Smuzhiyun            if buf[0]=='(':
*4882a593Smuzhiyun                if len(buf)==1:
*4882a593Smuzhiyun                    raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun                if buf[1]=='(':
*4882a593Smuzhiyun                    result[0] = '$(('
*4882a593Smuzhiyun                    buf[:2] = []
*4882a593Smuzhiyun                else:
*4882a593Smuzhiyun                    result[0] = '$('
*4882a593Smuzhiyun                    buf[:1] = []
*4882a593Smuzhiyun
*4882a593Smuzhiyun            elif buf[0]=='{':
*4882a593Smuzhiyun                result[0] = '${'
*4882a593Smuzhiyun                buf[:1] = []
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                if buf[0] in self.SPECIAL_CHARSET:
*4882a593Smuzhiyun                    result[-1] = buf[0]
*4882a593Smuzhiyun                    read = 1
*4882a593Smuzhiyun                else:
*4882a593Smuzhiyun                    for read,c in enumerate(buf):
*4882a593Smuzhiyun                        if c not in self.NAME_CHARSET:
*4882a593Smuzhiyun                            break
*4882a593Smuzhiyun                    else:
*4882a593Smuzhiyun                        if not eof:
*4882a593Smuzhiyun                            raise NeedMore()
*4882a593Smuzhiyun                        read += 1
*4882a593Smuzhiyun
*4882a593Smuzhiyun                    result[-1] += ''.join(buf[0:read])
*4882a593Smuzhiyun
*4882a593Smuzhiyun                if not result[-1]:
*4882a593Smuzhiyun                    result[:] = ['', result[0], '']
*4882a593Smuzhiyun                else:
*4882a593Smuzhiyun                    result += ['']
*4882a593Smuzhiyun                return read,True
*4882a593Smuzhiyun
*4882a593Smuzhiyun        sep = result[0]
*4882a593Smuzhiyun        if sep=='$(':
*4882a593Smuzhiyun            parsefunc = self._parse_command
*4882a593Smuzhiyun        elif sep=='${':
*4882a593Smuzhiyun            parsefunc = self._parse_parameter
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            raise NotImplementedError(sep)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        pos, closed = parsefunc(buf, result, eof)
*4882a593Smuzhiyun        return pos, closed
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse(self, eof):
*4882a593Smuzhiyun        buf = self._buffer
*4882a593Smuzhiyun        stack = self._stack
*4882a593Smuzhiyun        recurse = False
*4882a593Smuzhiyun
*4882a593Smuzhiyun        while 1:
*4882a593Smuzhiyun            if not stack or recurse:
*4882a593Smuzhiyun                if not buf:
*4882a593Smuzhiyun                    raise NeedMore()
*4882a593Smuzhiyun                if buf[0] not in ('"\\`$\''):
*4882a593Smuzhiyun                    raise ShellSyntaxError('Invalid quoted string sequence')
*4882a593Smuzhiyun                stack.append([buf[0], ''])
*4882a593Smuzhiyun                buf[:1] = []
*4882a593Smuzhiyun                recurse = False
*4882a593Smuzhiyun
*4882a593Smuzhiyun            result = stack[-1]
*4882a593Smuzhiyun            if result[0]=="'":
*4882a593Smuzhiyun                parsefunc = self._parse_squote
*4882a593Smuzhiyun            elif result[0]=='\\':
*4882a593Smuzhiyun                parsefunc = self._parse_bquote
*4882a593Smuzhiyun            elif result[0]=='"':
*4882a593Smuzhiyun                parsefunc = self._parse_dquote
*4882a593Smuzhiyun            elif result[0]=='`':
*4882a593Smuzhiyun                parsefunc = self._parse_command
*4882a593Smuzhiyun            elif result[0][0]=='$':
*4882a593Smuzhiyun                parsefunc = self._parse_dollar
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                raise NotImplementedError()
*4882a593Smuzhiyun
*4882a593Smuzhiyun            read, closed = parsefunc(buf, result, eof)
*4882a593Smuzhiyun
*4882a593Smuzhiyun            buf[:read] = []
*4882a593Smuzhiyun            if closed:
*4882a593Smuzhiyun                if len(stack)>1:
*4882a593Smuzhiyun                    #Merge in parent expression
*4882a593Smuzhiyun                    parsed = stack.pop()
*4882a593Smuzhiyun                    stack[-1] += [parsed]
*4882a593Smuzhiyun                    stack[-1] += ['']
*4882a593Smuzhiyun                else:
*4882a593Smuzhiyun                    break
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                recurse = True
*4882a593Smuzhiyun
*4882a593Smuzhiyundef normalize_wordtree(wtree):
*4882a593Smuzhiyun    """Fold back every literal sequence (delimited with empty strings) into
*4882a593Smuzhiyun    parent sequence.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    def normalize(wtree):
*4882a593Smuzhiyun        result = []
*4882a593Smuzhiyun        for part in wtree[1:-1]:
*4882a593Smuzhiyun            if isinstance(part, list):
*4882a593Smuzhiyun                part = normalize(part)
*4882a593Smuzhiyun                if part[0]=='':
*4882a593Smuzhiyun                    #Move the part content back at current level
*4882a593Smuzhiyun                    result += part[1:-1]
*4882a593Smuzhiyun                    continue
*4882a593Smuzhiyun            elif not part:
*4882a593Smuzhiyun                #Remove empty strings
*4882a593Smuzhiyun                continue
*4882a593Smuzhiyun            result.append(part)
*4882a593Smuzhiyun        if not result:
*4882a593Smuzhiyun            result = ['']
*4882a593Smuzhiyun        return [wtree[0]] + result + [wtree[-1]]
*4882a593Smuzhiyun
*4882a593Smuzhiyun    return normalize(wtree)
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyundef make_wordtree(token, here_document=False):
*4882a593Smuzhiyun    """Parse a delimited token and return a tree similar to the ones returned by
*4882a593Smuzhiyun    WordLexer. token may contain any combinations of expansion/quoted fields and
*4882a593Smuzhiyun    non-ones.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    tree = ['']
*4882a593Smuzhiyun    remaining = token
*4882a593Smuzhiyun    delimiters = '\\$`'
*4882a593Smuzhiyun    if not here_document:
*4882a593Smuzhiyun        delimiters += '\'"'
*4882a593Smuzhiyun
*4882a593Smuzhiyun    while 1:
*4882a593Smuzhiyun        pos, sep = find_chars(remaining, delimiters)
*4882a593Smuzhiyun        if pos==-1:
*4882a593Smuzhiyun            tree += [remaining, '']
*4882a593Smuzhiyun            return normalize_wordtree(tree)
*4882a593Smuzhiyun        tree.append(remaining[:pos])
*4882a593Smuzhiyun        remaining = remaining[pos:]
*4882a593Smuzhiyun
*4882a593Smuzhiyun        try:
*4882a593Smuzhiyun            result, remaining = WordLexer(heredoc = here_document).add(remaining, True)
*4882a593Smuzhiyun        except NeedMore:
*4882a593Smuzhiyun            raise ShellSyntaxError('Invalid token "%s"')
*4882a593Smuzhiyun        tree.append(result)
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyundef wordtree_as_string(wtree):
*4882a593Smuzhiyun    """Rewrite an expression tree generated by make_wordtree as string."""
*4882a593Smuzhiyun    def visit(node, output):
*4882a593Smuzhiyun        for child in node:
*4882a593Smuzhiyun            if isinstance(child, list):
*4882a593Smuzhiyun                visit(child, output)
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                output.append(child)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    output = []
*4882a593Smuzhiyun    visit(wtree, output)
*4882a593Smuzhiyun    return ''.join(output)
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyundef unquote_wordtree(wtree):
*4882a593Smuzhiyun    """Fold the word tree while removing quotes everywhere. Other expansion
*4882a593Smuzhiyun    sequences are joined as such.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    def unquote(wtree):
*4882a593Smuzhiyun        unquoted = []
*4882a593Smuzhiyun        if wtree[0] in ('', "'", '"', '\\'):
*4882a593Smuzhiyun            wtree = wtree[1:-1]
*4882a593Smuzhiyun
*4882a593Smuzhiyun        for part in wtree:
*4882a593Smuzhiyun            if isinstance(part, list):
*4882a593Smuzhiyun                part = unquote(part)
*4882a593Smuzhiyun            unquoted.append(part)
*4882a593Smuzhiyun        return ''.join(unquoted)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    return unquote(wtree)
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass HereDocLexer:
*4882a593Smuzhiyun    """HereDocLexer delimits whatever comes from the here-document starting newline
*4882a593Smuzhiyun    not included to the closing delimiter line included.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    def __init__(self, op, delim):
*4882a593Smuzhiyun        assert op in ('<<', '<<-')
*4882a593Smuzhiyun        if not delim:
*4882a593Smuzhiyun            raise ShellSyntaxError('invalid here document delimiter %s' % str(delim))
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self._op = op
*4882a593Smuzhiyun        self._delim = delim
*4882a593Smuzhiyun        self._buffer = []
*4882a593Smuzhiyun        self._token = []
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def add(self, data, eof):
*4882a593Smuzhiyun        """If the here-document was delimited, return a tuple (content, remaining).
*4882a593Smuzhiyun        Raise NeedMore() otherwise.
*4882a593Smuzhiyun        """
*4882a593Smuzhiyun        self._buffer += list(data)
*4882a593Smuzhiyun        self._parse(eof)
*4882a593Smuzhiyun        token = ''.join(self._token)
*4882a593Smuzhiyun        remaining = ''.join(self._buffer)
*4882a593Smuzhiyun        self._token, self._remaining = [], []
*4882a593Smuzhiyun        return token, remaining
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse(self, eof):
*4882a593Smuzhiyun        while 1:
*4882a593Smuzhiyun            #Look for first unescaped newline. Quotes may be ignored
*4882a593Smuzhiyun            escaped = False
*4882a593Smuzhiyun            for i,c in enumerate(self._buffer):
*4882a593Smuzhiyun                if escaped:
*4882a593Smuzhiyun                    escaped = False
*4882a593Smuzhiyun                elif c=='\\':
*4882a593Smuzhiyun                    escaped = True
*4882a593Smuzhiyun                elif c=='\n':
*4882a593Smuzhiyun                    break
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                i = -1
*4882a593Smuzhiyun
*4882a593Smuzhiyun            if i==-1 or self._buffer[i]!='\n':
*4882a593Smuzhiyun                if not eof:
*4882a593Smuzhiyun                    raise NeedMore()
*4882a593Smuzhiyun                #No more data, maybe the last line is closing delimiter
*4882a593Smuzhiyun                line = ''.join(self._buffer)
*4882a593Smuzhiyun                eol = ''
*4882a593Smuzhiyun                self._buffer[:] = []
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                line = ''.join(self._buffer[:i])
*4882a593Smuzhiyun                eol = self._buffer[i]
*4882a593Smuzhiyun                self._buffer[:i+1] = []
*4882a593Smuzhiyun
*4882a593Smuzhiyun            if self._op=='<<-':
*4882a593Smuzhiyun                line = line.lstrip('\t')
*4882a593Smuzhiyun
*4882a593Smuzhiyun            if line==self._delim:
*4882a593Smuzhiyun                break
*4882a593Smuzhiyun
*4882a593Smuzhiyun            self._token += [line, eol]
*4882a593Smuzhiyun            if i==-1:
*4882a593Smuzhiyun                break
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass Token:
*4882a593Smuzhiyun    #TODO: check this is still in use
*4882a593Smuzhiyun    OPERATOR = 'OPERATOR'
*4882a593Smuzhiyun    WORD = 'WORD'
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def __init__(self):
*4882a593Smuzhiyun        self.value = ''
*4882a593Smuzhiyun        self.type = None
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def __getitem__(self, key):
*4882a593Smuzhiyun        #Behave like a two elements tuple
*4882a593Smuzhiyun        if key==0:
*4882a593Smuzhiyun            return self.type
*4882a593Smuzhiyun        if key==1:
*4882a593Smuzhiyun            return self.value
*4882a593Smuzhiyun        raise IndexError(key)
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass HereDoc:
*4882a593Smuzhiyun    def __init__(self, op, name=None):
*4882a593Smuzhiyun        self.op = op
*4882a593Smuzhiyun        self.name = name
*4882a593Smuzhiyun        self.pendings = []
*4882a593Smuzhiyun
*4882a593SmuzhiyunTK_COMMA        = 'COMMA'
*4882a593SmuzhiyunTK_AMPERSAND    = 'AMP'
*4882a593SmuzhiyunTK_OP           = 'OP'
*4882a593SmuzhiyunTK_TOKEN        = 'TOKEN'
*4882a593SmuzhiyunTK_COMMENT      = 'COMMENT'
*4882a593SmuzhiyunTK_NEWLINE      = 'NEWLINE'
*4882a593SmuzhiyunTK_IONUMBER     = 'IO_NUMBER'
*4882a593SmuzhiyunTK_ASSIGNMENT   = 'ASSIGNMENT_WORD'
*4882a593SmuzhiyunTK_HERENAME     = 'HERENAME'
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass Lexer:
*4882a593Smuzhiyun    """Main lexer.
*4882a593Smuzhiyun
*4882a593Smuzhiyun    Call add() until the script AST is returned.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    # Here-document handling makes the whole thing more complex because they basically
*4882a593Smuzhiyun    # force tokens to be reordered: here-content must come right after the operator
*4882a593Smuzhiyun    # and the here-document name, while some other tokens might be following the
*4882a593Smuzhiyun    # here-document expression on the same line.
*4882a593Smuzhiyun    #
*4882a593Smuzhiyun    # So, here-doc states are basically:
*4882a593Smuzhiyun    #   *self._state==ST_NORMAL
*4882a593Smuzhiyun    #       - self._heredoc.op is None: no here-document
*4882a593Smuzhiyun    #       - self._heredoc.op is not None but name is: here-document operator matched,
*4882a593Smuzhiyun    #           waiting for the document name/delimiter
*4882a593Smuzhiyun    #       - self._heredoc.op and name are not None: here-document is ready, following
*4882a593Smuzhiyun    #           tokens are being stored and will be pushed again when the document is
*4882a593Smuzhiyun    #           completely parsed.
*4882a593Smuzhiyun    #   *self._state==ST_HEREDOC
*4882a593Smuzhiyun    #       - The here-document is being delimited by self._herelexer. Once it is done
*4882a593Smuzhiyun    #           the content is pushed in front of the pending token list then all these
*4882a593Smuzhiyun    #           tokens are pushed once again.
*4882a593Smuzhiyun    ST_NORMAL       = 'ST_NORMAL'
*4882a593Smuzhiyun    ST_OP           = 'ST_OP'
*4882a593Smuzhiyun    ST_BACKSLASH    = 'ST_BACKSLASH'
*4882a593Smuzhiyun    ST_QUOTED       = 'ST_QUOTED'
*4882a593Smuzhiyun    ST_COMMENT      = 'ST_COMMENT'
*4882a593Smuzhiyun    ST_HEREDOC      = 'ST_HEREDOC'
*4882a593Smuzhiyun
*4882a593Smuzhiyun    #Match end of backquote strings
*4882a593Smuzhiyun    RE_BACKQUOTE_END = re.compile(r'(?<!\\)(`)')
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def __init__(self, parent_state = None):
*4882a593Smuzhiyun        self._input = []
*4882a593Smuzhiyun        self._pos = 0
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self._token = ''
*4882a593Smuzhiyun        self._type = TK_TOKEN
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self._state = self.ST_NORMAL
*4882a593Smuzhiyun        self._parent_state = parent_state
*4882a593Smuzhiyun        self._wordlexer = None
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self._heredoc = HereDoc(None)
*4882a593Smuzhiyun        self._herelexer = None
*4882a593Smuzhiyun
*4882a593Smuzhiyun        ### Following attributes are not used for delimiting token and can safely
*4882a593Smuzhiyun        ### be changed after here-document detection (see _push_toke)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        # Count the number of tokens following a 'For' reserved word. Needed to
*4882a593Smuzhiyun        # return an 'In' reserved word if it comes in third place.
*4882a593Smuzhiyun        self._for_count = None
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def add(self, data, eof=False):
*4882a593Smuzhiyun        """Feed the lexer with data.
*4882a593Smuzhiyun
*4882a593Smuzhiyun        When eof is set to True, returns unconsumed data or raise if the lexer
*4882a593Smuzhiyun        is in the middle of a delimiting operation.
*4882a593Smuzhiyun        Raise NeedMore otherwise.
*4882a593Smuzhiyun        """
*4882a593Smuzhiyun        self._input += list(data)
*4882a593Smuzhiyun        self._parse(eof)
*4882a593Smuzhiyun        self._input[:self._pos] = []
*4882a593Smuzhiyun        return ''.join(self._input)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse(self, eof):
*4882a593Smuzhiyun        while self._state:
*4882a593Smuzhiyun            if self._pos>=len(self._input):
*4882a593Smuzhiyun                if not eof:
*4882a593Smuzhiyun                    raise NeedMore()
*4882a593Smuzhiyun                elif self._state not in (self.ST_OP, self.ST_QUOTED, self.ST_HEREDOC):
*4882a593Smuzhiyun                    #Delimit the current token and leave cleanly
*4882a593Smuzhiyun                    self._push_token('')
*4882a593Smuzhiyun                    break
*4882a593Smuzhiyun                else:
*4882a593Smuzhiyun                    #Let the sublexer handle the eof themselves
*4882a593Smuzhiyun                    pass
*4882a593Smuzhiyun
*4882a593Smuzhiyun            if self._state==self.ST_NORMAL:
*4882a593Smuzhiyun                self._parse_normal()
*4882a593Smuzhiyun            elif self._state==self.ST_COMMENT:
*4882a593Smuzhiyun                self._parse_comment()
*4882a593Smuzhiyun            elif self._state==self.ST_OP:
*4882a593Smuzhiyun                self._parse_op(eof)
*4882a593Smuzhiyun            elif self._state==self.ST_QUOTED:
*4882a593Smuzhiyun                self._parse_quoted(eof)
*4882a593Smuzhiyun            elif self._state==self.ST_HEREDOC:
*4882a593Smuzhiyun                self._parse_heredoc(eof)
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                assert False, "Unknown state " + str(self._state)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._heredoc.op is not None:
*4882a593Smuzhiyun            raise ShellSyntaxError('missing here-document delimiter')
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_normal(self):
*4882a593Smuzhiyun        c = self._input[self._pos]
*4882a593Smuzhiyun        if c=='\n':
*4882a593Smuzhiyun            self._push_token(c)
*4882a593Smuzhiyun            self._token = c
*4882a593Smuzhiyun            self._type = TK_NEWLINE
*4882a593Smuzhiyun            self._push_token('')
*4882a593Smuzhiyun            self._pos += 1
*4882a593Smuzhiyun        elif c in ('\\', '\'', '"', '`', '$'):
*4882a593Smuzhiyun            self._state = self.ST_QUOTED
*4882a593Smuzhiyun        elif is_partial_op(c):
*4882a593Smuzhiyun            self._push_token(c)
*4882a593Smuzhiyun
*4882a593Smuzhiyun            self._type = TK_OP
*4882a593Smuzhiyun            self._token += c
*4882a593Smuzhiyun            self._pos += 1
*4882a593Smuzhiyun            self._state = self.ST_OP
*4882a593Smuzhiyun        elif is_blank(c):
*4882a593Smuzhiyun            self._push_token(c)
*4882a593Smuzhiyun
*4882a593Smuzhiyun            #Discard blanks
*4882a593Smuzhiyun            self._pos += 1
*4882a593Smuzhiyun        elif self._token:
*4882a593Smuzhiyun            self._token += c
*4882a593Smuzhiyun            self._pos += 1
*4882a593Smuzhiyun        elif c=='#':
*4882a593Smuzhiyun            self._state = self.ST_COMMENT
*4882a593Smuzhiyun            self._type = TK_COMMENT
*4882a593Smuzhiyun            self._pos += 1
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            self._pos += 1
*4882a593Smuzhiyun            self._token += c
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_op(self, eof):
*4882a593Smuzhiyun        assert self._token
*4882a593Smuzhiyun
*4882a593Smuzhiyun        while 1:
*4882a593Smuzhiyun            if self._pos>=len(self._input):
*4882a593Smuzhiyun                if not eof:
*4882a593Smuzhiyun                    raise NeedMore()
*4882a593Smuzhiyun                c = ''
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                c = self._input[self._pos]
*4882a593Smuzhiyun
*4882a593Smuzhiyun            op = self._token + c
*4882a593Smuzhiyun            if c and is_partial_op(op):
*4882a593Smuzhiyun                #Still parsing an operator
*4882a593Smuzhiyun                self._token = op
*4882a593Smuzhiyun                self._pos += 1
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                #End of operator
*4882a593Smuzhiyun                self._push_token(c)
*4882a593Smuzhiyun                self._state = self.ST_NORMAL
*4882a593Smuzhiyun                break
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_comment(self):
*4882a593Smuzhiyun        while 1:
*4882a593Smuzhiyun            if self._pos>=len(self._input):
*4882a593Smuzhiyun                raise NeedMore()
*4882a593Smuzhiyun
*4882a593Smuzhiyun            c = self._input[self._pos]
*4882a593Smuzhiyun            if c=='\n':
*4882a593Smuzhiyun                #End of comment, do not consume the end of line
*4882a593Smuzhiyun                self._state = self.ST_NORMAL
*4882a593Smuzhiyun                break
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                self._token += c
*4882a593Smuzhiyun                self._pos += 1
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_quoted(self, eof):
*4882a593Smuzhiyun        """Precondition: the starting backquote/dollar is still in the input queue."""
*4882a593Smuzhiyun        if not self._wordlexer:
*4882a593Smuzhiyun            self._wordlexer = WordLexer()
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._pos<len(self._input):
*4882a593Smuzhiyun             #Transfer input queue character into the subparser
*4882a593Smuzhiyun            input = self._input[self._pos:]
*4882a593Smuzhiyun            self._pos += len(input)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        wtree, remaining = self._wordlexer.add(input, eof)
*4882a593Smuzhiyun        self._wordlexer = None
*4882a593Smuzhiyun        self._token += wordtree_as_string(wtree)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        #Put unparsed character back in the input queue
*4882a593Smuzhiyun        if remaining:
*4882a593Smuzhiyun            self._input[self._pos:self._pos] = list(remaining)
*4882a593Smuzhiyun        self._state = self.ST_NORMAL
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _parse_heredoc(self, eof):
*4882a593Smuzhiyun        assert not self._token
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._herelexer is None:
*4882a593Smuzhiyun            self._herelexer = HereDocLexer(self._heredoc.op, self._heredoc.name)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._pos<len(self._input):
*4882a593Smuzhiyun             #Transfer input queue character into the subparser
*4882a593Smuzhiyun            input = self._input[self._pos:]
*4882a593Smuzhiyun            self._pos += len(input)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self._token, remaining = self._herelexer.add(input, eof)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        #Reset here-document state
*4882a593Smuzhiyun        self._herelexer = None
*4882a593Smuzhiyun        heredoc, self._heredoc = self._heredoc, HereDoc(None)
*4882a593Smuzhiyun        if remaining:
*4882a593Smuzhiyun            self._input[self._pos:self._pos] = list(remaining)
*4882a593Smuzhiyun        self._state = self.ST_NORMAL
*4882a593Smuzhiyun
*4882a593Smuzhiyun        #Push pending tokens
*4882a593Smuzhiyun        heredoc.pendings[:0] = [(self._token, self._type, heredoc.name)]
*4882a593Smuzhiyun        for token, type, delim in heredoc.pendings:
*4882a593Smuzhiyun            self._token = token
*4882a593Smuzhiyun            self._type = type
*4882a593Smuzhiyun            self._push_token(delim)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _push_token(self, delim):
*4882a593Smuzhiyun        if not self._token:
*4882a593Smuzhiyun            return 0
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._heredoc.op is not None:
*4882a593Smuzhiyun            if self._heredoc.name is None:
*4882a593Smuzhiyun                #Here-document name
*4882a593Smuzhiyun                if self._type!=TK_TOKEN:
*4882a593Smuzhiyun                    raise ShellSyntaxError("expecting here-document name, got '%s'" % self._token)
*4882a593Smuzhiyun                self._heredoc.name = unquote_wordtree(make_wordtree(self._token))
*4882a593Smuzhiyun                self._type = TK_HERENAME
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                #Capture all tokens until the newline starting the here-document
*4882a593Smuzhiyun                if self._type==TK_NEWLINE:
*4882a593Smuzhiyun                    assert self._state==self.ST_NORMAL
*4882a593Smuzhiyun                    self._state = self.ST_HEREDOC
*4882a593Smuzhiyun
*4882a593Smuzhiyun                self._heredoc.pendings.append((self._token, self._type, delim))
*4882a593Smuzhiyun                self._token = ''
*4882a593Smuzhiyun                self._type = TK_TOKEN
*4882a593Smuzhiyun                return 1
*4882a593Smuzhiyun
*4882a593Smuzhiyun        # BEWARE: do not change parser state from here to the end of the function:
*4882a593Smuzhiyun        # when parsing between an here-document operator to the end of the line
*4882a593Smuzhiyun        # tokens are stored in self._heredoc.pendings. Therefore, they will not
*4882a593Smuzhiyun        # reach the section below.
*4882a593Smuzhiyun
*4882a593Smuzhiyun        #Check operators
*4882a593Smuzhiyun        if self._type==TK_OP:
*4882a593Smuzhiyun            #False positive because of partial op matching
*4882a593Smuzhiyun            op = is_op(self._token)
*4882a593Smuzhiyun            if not op:
*4882a593Smuzhiyun                self._type = TK_TOKEN
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                #Map to the specific operator
*4882a593Smuzhiyun                self._type = op
*4882a593Smuzhiyun                if self._token in ('<<', '<<-'):
*4882a593Smuzhiyun                    #Done here rather than in _parse_op because there is no need
*4882a593Smuzhiyun                    #to change the parser state since we are still waiting for
*4882a593Smuzhiyun                    #the here-document name
*4882a593Smuzhiyun                    if self._heredoc.op is not None:
*4882a593Smuzhiyun                        raise ShellSyntaxError("syntax error near token '%s'" % self._token)
*4882a593Smuzhiyun                    assert self._heredoc.op is None
*4882a593Smuzhiyun                    self._heredoc.op = self._token
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._type==TK_TOKEN:
*4882a593Smuzhiyun            if '=' in self._token and not delim:
*4882a593Smuzhiyun                if self._token.startswith('='):
*4882a593Smuzhiyun                    #Token is a WORD... a TOKEN that is.
*4882a593Smuzhiyun                    pass
*4882a593Smuzhiyun                else:
*4882a593Smuzhiyun                    prev = self._token[:self._token.find('=')]
*4882a593Smuzhiyun                    if is_name(prev):
*4882a593Smuzhiyun                        self._type = TK_ASSIGNMENT
*4882a593Smuzhiyun                    else:
*4882a593Smuzhiyun                        #Just a token (unspecified)
*4882a593Smuzhiyun                        pass
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                reserved = get_reserved(self._token)
*4882a593Smuzhiyun                if reserved is not None:
*4882a593Smuzhiyun                    if reserved=='In' and self._for_count!=2:
*4882a593Smuzhiyun                        #Sorry, not a reserved word after all
*4882a593Smuzhiyun                        pass
*4882a593Smuzhiyun                    else:
*4882a593Smuzhiyun                        self._type = reserved
*4882a593Smuzhiyun                        if reserved in ('For', 'Case'):
*4882a593Smuzhiyun                            self._for_count = 0
*4882a593Smuzhiyun                elif are_digits(self._token) and delim in ('<', '>'):
*4882a593Smuzhiyun                    #Detect IO_NUMBER
*4882a593Smuzhiyun                    self._type = TK_IONUMBER
*4882a593Smuzhiyun                elif self._token==';':
*4882a593Smuzhiyun                    self._type = TK_COMMA
*4882a593Smuzhiyun                elif self._token=='&':
*4882a593Smuzhiyun                    self._type = TK_AMPERSAND
*4882a593Smuzhiyun        elif self._type==TK_COMMENT:
*4882a593Smuzhiyun            #Comments are not part of sh grammar, ignore them
*4882a593Smuzhiyun            self._token = ''
*4882a593Smuzhiyun            self._type = TK_TOKEN
*4882a593Smuzhiyun            return 0
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if self._for_count is not None:
*4882a593Smuzhiyun            #Track token count in 'For' expression to detect 'In' reserved words.
*4882a593Smuzhiyun            #Can only be in third position, no need to go beyond
*4882a593Smuzhiyun            self._for_count += 1
*4882a593Smuzhiyun            if self._for_count==3:
*4882a593Smuzhiyun                self._for_count = None
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self.on_token((self._token, self._type))
*4882a593Smuzhiyun        self._token = ''
*4882a593Smuzhiyun        self._type = TK_TOKEN
*4882a593Smuzhiyun        return 1
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def on_token(self, token):
*4882a593Smuzhiyun        raise NotImplementedError
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyuntokens = [
*4882a593Smuzhiyun    TK_TOKEN,
*4882a593Smuzhiyun# To silence yacc unused token warnings
*4882a593Smuzhiyun#    TK_COMMENT,
*4882a593Smuzhiyun    TK_NEWLINE,
*4882a593Smuzhiyun    TK_IONUMBER,
*4882a593Smuzhiyun    TK_ASSIGNMENT,
*4882a593Smuzhiyun    TK_HERENAME,
*4882a593Smuzhiyun]
*4882a593Smuzhiyun
*4882a593Smuzhiyun#Add specific operators
*4882a593Smuzhiyuntokens += _OPERATORS.values()
*4882a593Smuzhiyun#Add reserved words
*4882a593Smuzhiyuntokens += _RESERVEDS.values()
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass PLYLexer(Lexer):
*4882a593Smuzhiyun    """Bridge Lexer and PLY lexer interface."""
*4882a593Smuzhiyun    def __init__(self):
*4882a593Smuzhiyun        Lexer.__init__(self)
*4882a593Smuzhiyun        self._tokens = []
*4882a593Smuzhiyun        self._current = 0
*4882a593Smuzhiyun        self.lineno = 0
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def on_token(self, token):
*4882a593Smuzhiyun        value, type = token
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self.lineno = 0
*4882a593Smuzhiyun        t = lex.LexToken()
*4882a593Smuzhiyun        t.value = value
*4882a593Smuzhiyun        t.type = type
*4882a593Smuzhiyun        t.lexer = self
*4882a593Smuzhiyun        t.lexpos = 0
*4882a593Smuzhiyun        t.lineno = 0
*4882a593Smuzhiyun
*4882a593Smuzhiyun        self._tokens.append(t)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def is_empty(self):
*4882a593Smuzhiyun        return not bool(self._tokens)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    #PLY compliant interface
*4882a593Smuzhiyun    def token(self):
*4882a593Smuzhiyun        if self._current>=len(self._tokens):
*4882a593Smuzhiyun            return None
*4882a593Smuzhiyun        t = self._tokens[self._current]
*4882a593Smuzhiyun        self._current += 1
*4882a593Smuzhiyun        return t
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyundef get_tokens(s):
*4882a593Smuzhiyun    """Parse the input string and return a tuple (tokens, unprocessed) where
*4882a593Smuzhiyun    tokens is a list of parsed tokens and unprocessed is the part of the input
*4882a593Smuzhiyun    string left untouched by the lexer.
*4882a593Smuzhiyun    """
*4882a593Smuzhiyun    lexer = PLYLexer()
*4882a593Smuzhiyun    untouched = lexer.add(s, True)
*4882a593Smuzhiyun    tokens = []
*4882a593Smuzhiyun    while 1:
*4882a593Smuzhiyun        token = lexer.token()
*4882a593Smuzhiyun        if token is None:
*4882a593Smuzhiyun            break
*4882a593Smuzhiyun        tokens.append(token)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    tokens = [(t.value, t.type) for t in tokens]
*4882a593Smuzhiyun    return tokens, untouched