feat(01-02): create email body parser for multipart MIME messages

- Implemented parse_email_body function for RFC822 email parsing - Uses stdlib email.message_from_bytes with modern EmailMessage API - Extracts text and HTML bodies using get_body() method - Prefers plain text over HTML for "preferred" field - Converts HTML to text using html2text when text body missing - Extracts all metadata: subject, from, to, date, message_id - Uses parsedate_to_datetime for proper date parsing - Handles UnicodeDecodeError gracefully with partial data return - Follows async patterns and logging conventions from existing codebase
2026-02-08 09:34:47 -05:00
parent 6e4ee6c75e
commit e4084276d8
1 changed files with 123 additions and 0 deletions
@@ -0,0 +1,123 @@
 """Email body parsing service for multipart MIME messages.
 Extracts text and HTML bodies from RFC822 email format, converts HTML to text
 when needed, and extracts email metadata (subject, from, to, date, message-id).
 """
 import logging
 from email import message_from_bytes
 from email.policy import default
 from email.utils import parsedate_to_datetime
 import html2text
 # Configure logging
 logger = logging.getLogger(__name__)
 def parse_email_body(raw_email_bytes: bytes) -> dict:
    """
    Extract text and HTML bodies from RFC822 email bytes.
    Args:
        raw_email_bytes: Raw email message bytes from IMAP FETCH
    Returns:
        Dictionary with keys:
        - "text": Plain text body (None if not present)
        - "html": HTML body (None if not present)
        - "preferred": Best available body (text preferred, HTML converted if text missing)
        - "subject": Email subject
        - "from": Sender address
        - "to": Recipient address(es)
        - "date": Parsed datetime object (None if missing/invalid)
        - "message_id": RFC822 Message-ID header
    Note:
        Uses modern EmailMessage API with email.policy.default for proper
        encoding handling. Prefers plain text over HTML for RAG indexing.
    """
    logger.info("[EMAIL PARSER] Parsing email message")
    try:
        # Parse with modern EmailMessage API and default policy
        msg = message_from_bytes(raw_email_bytes, policy=default)
        result = {
            "text": None,
            "html": None,
            "preferred": None,
            "subject": "",
            "from": "",
            "to": "",
            "date": None,
            "message_id": "",
        }
        # Extract plain text body
        text_part = msg.get_body(preferencelist=("plain",))
        if text_part:
            # Use get_content() for proper decoding (not get_payload())
            result["text"] = text_part.get_content()
            logger.debug("[EMAIL PARSER] Found plain text body")
        # Extract HTML body
        html_part = msg.get_body(preferencelist=("html",))
        if html_part:
            result["html"] = html_part.get_content()
            logger.debug("[EMAIL PARSER] Found HTML body")
        # Determine preferred version (text preferred for RAG)
        if result["text"]:
            result["preferred"] = result["text"]
            logger.debug("[EMAIL PARSER] Using plain text as preferred")
        elif result["html"]:
            # Convert HTML to text using html2text
            h = html2text.HTML2Text()
            h.ignore_links = False  # Keep links for context
            result["preferred"] = h.handle(result["html"])
            logger.debug("[EMAIL PARSER] Converted HTML to text for preferred")
        else:
            logger.warning(
                "[EMAIL PARSER] No body content found (neither text nor HTML)"
            )
        # Extract metadata
        result["subject"] = msg.get("subject", "")
        result["from"] = msg.get("from", "")
        result["to"] = msg.get("to", "")
        result["message_id"] = msg.get("message-id", "")
        # Parse date header
        date_header = msg.get("date")
        if date_header:
            try:
                result["date"] = parsedate_to_datetime(date_header)
            except Exception as date_error:
                logger.warning(
                    f"[EMAIL PARSER] Failed to parse date header '{date_header}': {date_error}"
                )
        logger.info(
            f"[EMAIL PARSER] Successfully parsed email: subject='{result['subject']}', from='{result['from']}'"
        )
        return result
    except UnicodeDecodeError as e:
        logger.error(f"[EMAIL PARSER] Unicode decode error: {str(e)}")
        # Return partial data with error indication
        return {
            "text": None,
            "html": None,
            "preferred": None,
            "subject": "[Encoding Error]",
            "from": "",
            "to": "",
            "date": None,
            "message_id": "",
            "error": str(e),
        }
    except Exception as e:
        logger.error(f"[EMAIL PARSER] Unexpected error: {type(e).__name__}: {str(e)}")
        logger.exception("[EMAIL PARSER] Full traceback:")
        raise