bs4/builder/_lxml.py

*4882a593Smuzhiyun__all__ = [
*4882a593Smuzhiyun    'LXMLTreeBuilderForXML',
*4882a593Smuzhiyun    'LXMLTreeBuilder',
*4882a593Smuzhiyun    ]
*4882a593Smuzhiyun
*4882a593Smuzhiyunfrom io import BytesIO
*4882a593Smuzhiyunfrom io import StringIO
*4882a593Smuzhiyunimport collections
*4882a593Smuzhiyunfrom lxml import etree
*4882a593Smuzhiyunfrom bs4.element import (
*4882a593Smuzhiyun    Comment,
*4882a593Smuzhiyun    Doctype,
*4882a593Smuzhiyun    NamespacedAttribute,
*4882a593Smuzhiyun    ProcessingInstruction,
*4882a593Smuzhiyun)
*4882a593Smuzhiyunfrom bs4.builder import (
*4882a593Smuzhiyun    FAST,
*4882a593Smuzhiyun    HTML,
*4882a593Smuzhiyun    HTMLTreeBuilder,
*4882a593Smuzhiyun    PERMISSIVE,
*4882a593Smuzhiyun    ParserRejectedMarkup,
*4882a593Smuzhiyun    TreeBuilder,
*4882a593Smuzhiyun    XML)
*4882a593Smuzhiyunfrom bs4.dammit import EncodingDetector
*4882a593Smuzhiyun
*4882a593SmuzhiyunLXML = 'lxml'
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass LXMLTreeBuilderForXML(TreeBuilder):
*4882a593Smuzhiyun    DEFAULT_PARSER_CLASS = etree.XMLParser
*4882a593Smuzhiyun
*4882a593Smuzhiyun    is_xml = True
*4882a593Smuzhiyun
*4882a593Smuzhiyun    NAME = "lxml-xml"
*4882a593Smuzhiyun    ALTERNATE_NAMES = ["xml"]
*4882a593Smuzhiyun
*4882a593Smuzhiyun    # Well, it's permissive by XML parser standards.
*4882a593Smuzhiyun    features = [NAME, LXML, XML, FAST, PERMISSIVE]
*4882a593Smuzhiyun
*4882a593Smuzhiyun    CHUNK_SIZE = 512
*4882a593Smuzhiyun
*4882a593Smuzhiyun    # This namespace mapping is specified in the XML Namespace
*4882a593Smuzhiyun    # standard.
*4882a593Smuzhiyun    DEFAULT_NSMAPS = {'http://www.w3.org/XML/1998/namespace' : "xml"}
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def default_parser(self, encoding):
*4882a593Smuzhiyun        # This can either return a parser object or a class, which
*4882a593Smuzhiyun        # will be instantiated with default arguments.
*4882a593Smuzhiyun        if self._default_parser is not None:
*4882a593Smuzhiyun            return self._default_parser
*4882a593Smuzhiyun        return etree.XMLParser(
*4882a593Smuzhiyun            target=self, strip_cdata=False, recover=True, encoding=encoding)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def parser_for(self, encoding):
*4882a593Smuzhiyun        # Use the default parser.
*4882a593Smuzhiyun        parser = self.default_parser(encoding)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if isinstance(parser, collections.Callable):
*4882a593Smuzhiyun            # Instantiate the parser with default arguments
*4882a593Smuzhiyun            parser = parser(target=self, strip_cdata=False, encoding=encoding)
*4882a593Smuzhiyun        return parser
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def __init__(self, parser=None, empty_element_tags=None):
*4882a593Smuzhiyun        # TODO: Issue a warning if parser is present but not a
*4882a593Smuzhiyun        # callable, since that means there's no way to create new
*4882a593Smuzhiyun        # parsers for different encodings.
*4882a593Smuzhiyun        self._default_parser = parser
*4882a593Smuzhiyun        if empty_element_tags is not None:
*4882a593Smuzhiyun            self.empty_element_tags = set(empty_element_tags)
*4882a593Smuzhiyun        self.soup = None
*4882a593Smuzhiyun        self.nsmaps = [self.DEFAULT_NSMAPS]
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _getNsTag(self, tag):
*4882a593Smuzhiyun        # Split the namespace URL out of a fully-qualified lxml tag
*4882a593Smuzhiyun        # name. Copied from lxml's src/lxml/sax.py.
*4882a593Smuzhiyun        if tag[0] == '{':
*4882a593Smuzhiyun            return tuple(tag[1:].split('}', 1))
*4882a593Smuzhiyun        else:
*4882a593Smuzhiyun            return (None, tag)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def prepare_markup(self, markup, user_specified_encoding=None,
*4882a593Smuzhiyun                       exclude_encodings=None,
*4882a593Smuzhiyun                       document_declared_encoding=None):
*4882a593Smuzhiyun        """
*4882a593Smuzhiyun        :yield: A series of 4-tuples.
*4882a593Smuzhiyun         (markup, encoding, declared encoding,
*4882a593Smuzhiyun          has undergone character replacement)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        Each 4-tuple represents a strategy for parsing the document.
*4882a593Smuzhiyun        """
*4882a593Smuzhiyun        if isinstance(markup, str):
*4882a593Smuzhiyun            # We were given Unicode. Maybe lxml can parse Unicode on
*4882a593Smuzhiyun            # this system?
*4882a593Smuzhiyun            yield markup, None, document_declared_encoding, False
*4882a593Smuzhiyun
*4882a593Smuzhiyun        if isinstance(markup, str):
*4882a593Smuzhiyun            # No, apparently not. Convert the Unicode to UTF-8 and
*4882a593Smuzhiyun            # tell lxml to parse it as UTF-8.
*4882a593Smuzhiyun            yield (markup.encode("utf8"), "utf8",
*4882a593Smuzhiyun                   document_declared_encoding, False)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        # Instead of using UnicodeDammit to convert the bytestring to
*4882a593Smuzhiyun        # Unicode using different encodings, use EncodingDetector to
*4882a593Smuzhiyun        # iterate over the encodings, and tell lxml to try to parse
*4882a593Smuzhiyun        # the document as each one in turn.
*4882a593Smuzhiyun        is_html = not self.is_xml
*4882a593Smuzhiyun        try_encodings = [user_specified_encoding, document_declared_encoding]
*4882a593Smuzhiyun        detector = EncodingDetector(
*4882a593Smuzhiyun            markup, try_encodings, is_html, exclude_encodings)
*4882a593Smuzhiyun        for encoding in detector.encodings:
*4882a593Smuzhiyun            yield (detector.markup, encoding, document_declared_encoding, False)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def feed(self, markup):
*4882a593Smuzhiyun        if isinstance(markup, bytes):
*4882a593Smuzhiyun            markup = BytesIO(markup)
*4882a593Smuzhiyun        elif isinstance(markup, str):
*4882a593Smuzhiyun            markup = StringIO(markup)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        # Call feed() at least once, even if the markup is empty,
*4882a593Smuzhiyun        # or the parser won't be initialized.
*4882a593Smuzhiyun        data = markup.read(self.CHUNK_SIZE)
*4882a593Smuzhiyun        try:
*4882a593Smuzhiyun            self.parser = self.parser_for(self.soup.original_encoding)
*4882a593Smuzhiyun            self.parser.feed(data)
*4882a593Smuzhiyun            while len(data) != 0:
*4882a593Smuzhiyun                # Now call feed() on the rest of the data, chunk by chunk.
*4882a593Smuzhiyun                data = markup.read(self.CHUNK_SIZE)
*4882a593Smuzhiyun                if len(data) != 0:
*4882a593Smuzhiyun                    self.parser.feed(data)
*4882a593Smuzhiyun            self.parser.close()
*4882a593Smuzhiyun        except (UnicodeDecodeError, LookupError, etree.ParserError) as e:
*4882a593Smuzhiyun            raise ParserRejectedMarkup(str(e))
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def close(self):
*4882a593Smuzhiyun        self.nsmaps = [self.DEFAULT_NSMAPS]
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def start(self, name, attrs, nsmap={}):
*4882a593Smuzhiyun        # Make sure attrs is a mutable dict--lxml may send an immutable dictproxy.
*4882a593Smuzhiyun        attrs = dict(attrs)
*4882a593Smuzhiyun        nsprefix = None
*4882a593Smuzhiyun        # Invert each namespace map as it comes in.
*4882a593Smuzhiyun        if len(self.nsmaps) > 1:
*4882a593Smuzhiyun            # There are no new namespaces for this tag, but
*4882a593Smuzhiyun            # non-default namespaces are in play, so we need a
*4882a593Smuzhiyun            # separate tag stack to know when they end.
*4882a593Smuzhiyun            self.nsmaps.append(None)
*4882a593Smuzhiyun        elif len(nsmap) > 0:
*4882a593Smuzhiyun            # A new namespace mapping has come into play.
*4882a593Smuzhiyun            inverted_nsmap = dict((value, key) for key, value in list(nsmap.items()))
*4882a593Smuzhiyun            self.nsmaps.append(inverted_nsmap)
*4882a593Smuzhiyun            # Also treat the namespace mapping as a set of attributes on the
*4882a593Smuzhiyun            # tag, so we can recreate it later.
*4882a593Smuzhiyun            attrs = attrs.copy()
*4882a593Smuzhiyun            for prefix, namespace in list(nsmap.items()):
*4882a593Smuzhiyun                attribute = NamespacedAttribute(
*4882a593Smuzhiyun                    "xmlns", prefix, "http://www.w3.org/2000/xmlns/")
*4882a593Smuzhiyun                attrs[attribute] = namespace
*4882a593Smuzhiyun
*4882a593Smuzhiyun        # Namespaces are in play. Find any attributes that came in
*4882a593Smuzhiyun        # from lxml with namespaces attached to their names, and
*4882a593Smuzhiyun        # turn then into NamespacedAttribute objects.
*4882a593Smuzhiyun        new_attrs = {}
*4882a593Smuzhiyun        for attr, value in list(attrs.items()):
*4882a593Smuzhiyun            namespace, attr = self._getNsTag(attr)
*4882a593Smuzhiyun            if namespace is None:
*4882a593Smuzhiyun                new_attrs[attr] = value
*4882a593Smuzhiyun            else:
*4882a593Smuzhiyun                nsprefix = self._prefix_for_namespace(namespace)
*4882a593Smuzhiyun                attr = NamespacedAttribute(nsprefix, attr, namespace)
*4882a593Smuzhiyun                new_attrs[attr] = value
*4882a593Smuzhiyun        attrs = new_attrs
*4882a593Smuzhiyun
*4882a593Smuzhiyun        namespace, name = self._getNsTag(name)
*4882a593Smuzhiyun        nsprefix = self._prefix_for_namespace(namespace)
*4882a593Smuzhiyun        self.soup.handle_starttag(name, namespace, nsprefix, attrs)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def _prefix_for_namespace(self, namespace):
*4882a593Smuzhiyun        """Find the currently active prefix for the given namespace."""
*4882a593Smuzhiyun        if namespace is None:
*4882a593Smuzhiyun            return None
*4882a593Smuzhiyun        for inverted_nsmap in reversed(self.nsmaps):
*4882a593Smuzhiyun            if inverted_nsmap is not None and namespace in inverted_nsmap:
*4882a593Smuzhiyun                return inverted_nsmap[namespace]
*4882a593Smuzhiyun        return None
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def end(self, name):
*4882a593Smuzhiyun        self.soup.endData()
*4882a593Smuzhiyun        completed_tag = self.soup.tagStack[-1]
*4882a593Smuzhiyun        namespace, name = self._getNsTag(name)
*4882a593Smuzhiyun        nsprefix = None
*4882a593Smuzhiyun        if namespace is not None:
*4882a593Smuzhiyun            for inverted_nsmap in reversed(self.nsmaps):
*4882a593Smuzhiyun                if inverted_nsmap is not None and namespace in inverted_nsmap:
*4882a593Smuzhiyun                    nsprefix = inverted_nsmap[namespace]
*4882a593Smuzhiyun                    break
*4882a593Smuzhiyun        self.soup.handle_endtag(name, nsprefix)
*4882a593Smuzhiyun        if len(self.nsmaps) > 1:
*4882a593Smuzhiyun            # This tag, or one of its parents, introduced a namespace
*4882a593Smuzhiyun            # mapping, so pop it off the stack.
*4882a593Smuzhiyun            self.nsmaps.pop()
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def pi(self, target, data):
*4882a593Smuzhiyun        self.soup.endData()
*4882a593Smuzhiyun        self.soup.handle_data(target + ' ' + data)
*4882a593Smuzhiyun        self.soup.endData(ProcessingInstruction)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def data(self, content):
*4882a593Smuzhiyun        self.soup.handle_data(content)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def doctype(self, name, pubid, system):
*4882a593Smuzhiyun        self.soup.endData()
*4882a593Smuzhiyun        doctype = Doctype.for_name_and_ids(name, pubid, system)
*4882a593Smuzhiyun        self.soup.object_was_parsed(doctype)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def comment(self, content):
*4882a593Smuzhiyun        "Handle comments as Comment objects."
*4882a593Smuzhiyun        self.soup.endData()
*4882a593Smuzhiyun        self.soup.handle_data(content)
*4882a593Smuzhiyun        self.soup.endData(Comment)
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def test_fragment_to_document(self, fragment):
*4882a593Smuzhiyun        """See `TreeBuilder`."""
*4882a593Smuzhiyun        return '<?xml version="1.0" encoding="utf-8"?>\n%s' % fragment
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyunclass LXMLTreeBuilder(HTMLTreeBuilder, LXMLTreeBuilderForXML):
*4882a593Smuzhiyun
*4882a593Smuzhiyun    NAME = LXML
*4882a593Smuzhiyun    ALTERNATE_NAMES = ["lxml-html"]
*4882a593Smuzhiyun
*4882a593Smuzhiyun    features = ALTERNATE_NAMES + [NAME, HTML, FAST, PERMISSIVE]
*4882a593Smuzhiyun    is_xml = False
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def default_parser(self, encoding):
*4882a593Smuzhiyun        return etree.HTMLParser
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def feed(self, markup):
*4882a593Smuzhiyun        encoding = self.soup.original_encoding
*4882a593Smuzhiyun        try:
*4882a593Smuzhiyun            self.parser = self.parser_for(encoding)
*4882a593Smuzhiyun            self.parser.feed(markup)
*4882a593Smuzhiyun            self.parser.close()
*4882a593Smuzhiyun        except (UnicodeDecodeError, LookupError, etree.ParserError) as e:
*4882a593Smuzhiyun            raise ParserRejectedMarkup(str(e))
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun    def test_fragment_to_document(self, fragment):
*4882a593Smuzhiyun        """See `TreeBuilder`."""
*4882a593Smuzhiyun        return '<html><body>%s</body></html>' % fragment