1 месяц назад · 231d8b15b2
--- a/services/knowledge-service/app/api/routes.py
+++ b/services/knowledge-service/app/api/routes.py
@@ -4,6 +4,7 @@ from sqlalchemy.orm import Session
 
															 from core_domain import ServiceHealth
														
 
															+from app.application.document_parsers import DocumentParseError
														
 
															 from app.application.services import KnowledgeApplicationService
														
 
															 from app.bootstrap.settings import KnowledgeServiceSettings
														
 
															 from app.db.session import get_db
														
@@ -19,6 +20,8 @@ from app.schemas.knowledge import (
 
															     KnowledgeChunkResponse,
														
 
															     KnowledgeDocumentCreateRequest,
														
 
															     KnowledgeDocumentIngestResponse,
														
 
															+    KnowledgeDocumentParseRequest,
														
 
															+    KnowledgeDocumentParseResponse,
														
 
															     KnowledgeDocumentResponse,
														
 
															     KnowledgeSearchRequest,
														
 
															     KnowledgeSearchResultResponse,
														
@@ -101,6 +104,22 @@ def create_document(
 
															     )
														
 
															+@router.post("/documents/parse", response_model=KnowledgeDocumentParseResponse)
														
 
															+def parse_document(
														
 
															+    payload: KnowledgeDocumentParseRequest,
														
 
															+    service: KnowledgeApplicationService = Depends(get_knowledge_application_service),
														
 
															+) -> KnowledgeDocumentParseResponse:
														
 
															+    try:
														
 
															+        parsed = service.parse_document(payload)
														
 
															+    except DocumentParseError as exc:
														
 
															+        raise HTTPException(status_code=422, detail=str(exc)) from exc
														
 
															+    return KnowledgeDocumentParseResponse(
														
 
															+        content_text=parsed.content_text,
														
 
															+        source_type=parsed.source_type,
														
 
															+        metadata_json=parsed.metadata_json,
														
 
															+    )
														
 
															+
														
 
															+
														
 
															 @router.get("/documents", response_model=list[KnowledgeDocumentResponse])
														
 
															 def list_documents(
														
 
															     tenant_id: str = Query(...),
														
--- a/services/knowledge-service/app/application/document_parsers.py
+++ b/services/knowledge-service/app/application/document_parsers.py
@@ -0,0 +1,200 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import base64
														
 
															+import csv
														
 
															+import io
														
 
															+import json
														
 
															+import re
														
 
															+from dataclasses import dataclass, field
														
 
															+from html.parser import HTMLParser
														
 
															+from pathlib import Path
														
 
															+
														
 
															+from core_shared import JSONValue
														
 
															+
														
 
															+
														
 
															+@dataclass(frozen=True, slots=True)
														
 
															+class ParsedDocument:
														
 
															+    content_text: str
														
 
															+    source_type: str
														
 
															+    metadata_json: dict[str, JSONValue] = field(default_factory=dict)
														
 
															+
														
 
															+
														
 
															+class DocumentParseError(ValueError):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+class _HTMLTextExtractor(HTMLParser):
														
 
															+    def __init__(self) -> None:
														
 
															+        super().__init__()
														
 
															+        self._parts: list[str] = []
														
 
															+        self._skip_depth = 0
														
 
															+
														
 
															+    def handle_starttag(self, tag: str, attrs: list[tuple[str, str | None]]) -> None:
														
 
															+        if tag.lower() in {"script", "style", "noscript"}:
														
 
															+            self._skip_depth += 1
														
 
															+        if tag.lower() in {"p", "br", "div", "section", "article", "li", "tr", "h1", "h2", "h3"}:
														
 
															+            self._parts.append("\n")
														
 
															+
														
 
															+    def handle_endtag(self, tag: str) -> None:
														
 
															+        if tag.lower() in {"script", "style", "noscript"} and self._skip_depth > 0:
														
 
															+            self._skip_depth -= 1
														
 
															+        if tag.lower() in {"p", "div", "section", "article", "li", "tr"}:
														
 
															+            self._parts.append("\n")
														
 
															+
														
 
															+    def handle_data(self, data: str) -> None:
														
 
															+        if self._skip_depth == 0:
														
 
															+            self._parts.append(data)
														
 
															+
														
 
															+    def text(self) -> str:
														
 
															+        return normalize_text(" ".join(self._parts))
														
 
															+
														
 
															+
														
 
															+def parse_document_content(
														
 
															+    *,
														
 
															+    source_type: str,
														
 
															+    content_text: str | None = None,
														
 
															+    content_base64: str | None = None,
														
 
															+    source_uri: str | None = None,
														
 
															+) -> ParsedDocument:
														
 
															+    normalized_source_type = normalize_source_type(source_type=source_type, source_uri=source_uri)
														
 
															+    text = content_text if content_text is not None else _decode_content_base64(content_base64)
														
 
															+    if not text.strip():
														
 
															+        raise DocumentParseError("document content is empty")
														
 
															+
														
 
															+    if normalized_source_type in {"text", "txt"}:
														
 
															+        parsed_text = normalize_text(text)
														
 
															+    elif normalized_source_type in {"markdown", "md"}:
														
 
															+        parsed_text = parse_markdown(text)
														
 
															+    elif normalized_source_type in {"html", "htm"}:
														
 
															+        parsed_text = parse_html(text)
														
 
															+    elif normalized_source_type == "json":
														
 
															+        parsed_text = parse_json(text)
														
 
															+    elif normalized_source_type == "csv":
														
 
															+        parsed_text = parse_csv(text)
														
 
															+    elif normalized_source_type == "pdf":
														
 
															+        parsed_text = parse_pdf(content_text=text, content_base64=content_base64)
														
 
															+    elif normalized_source_type in {"docx", "word"}:
														
 
															+        parsed_text = parse_docx(content_text=text, content_base64=content_base64)
														
 
															+    else:
														
 
															+        parsed_text = normalize_text(text)
														
 
															+
														
 
															+    if not parsed_text:
														
 
															+        raise DocumentParseError("parsed document content is empty")
														
 
															+    return ParsedDocument(
														
 
															+        content_text=parsed_text,
														
 
															+        source_type=normalized_source_type,
														
 
															+        metadata_json={
														
 
															+            "parser": "knowledge-document-parser-v1",
														
 
															+            "original_source_type": source_type,
														
 
															+            "normalized_source_type": normalized_source_type,
														
 
															+            "content_length": len(parsed_text),
														
 
															+        },
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+def normalize_source_type(*, source_type: str, source_uri: str | None = None) -> str:
														
 
															+    value = source_type.strip().lower() if source_type else ""
														
 
															+    if value and value != "auto":
														
 
															+        return value.removeprefix(".")
														
 
															+    if source_uri:
														
 
															+        suffix = Path(source_uri).suffix.lower().removeprefix(".")
														
 
															+        if suffix:
														
 
															+            return suffix
														
 
															+    return "text"
														
 
															+
														
 
															+
														
 
															+def parse_markdown(content: str) -> str:
														
 
															+    text = re.sub(r"```[\s\S]*?```", " ", content)
														
 
															+    text = re.sub(r"`([^`]+)`", r"\1", text)
														
 
															+    text = re.sub(r"!\[[^\]]*\]\([^)]+\)", " ", text)
														
 
															+    text = re.sub(r"\[([^\]]+)\]\([^)]+\)", r"\1", text)
														
 
															+    text = re.sub(r"^\s{0,3}#{1,6}\s*", "", text, flags=re.MULTILINE)
														
 
															+    text = re.sub(r"^\s{0,3}>\s?", "", text, flags=re.MULTILINE)
														
 
															+    text = re.sub(r"^\s*[-*+]\s+", "", text, flags=re.MULTILINE)
														
 
															+    return normalize_text(text)
														
 
															+
														
 
															+
														
 
															+def parse_html(content: str) -> str:
														
 
															+    parser = _HTMLTextExtractor()
														
 
															+    parser.feed(content)
														
 
															+    parser.close()
														
 
															+    return parser.text()
														
 
															+
														
 
															+
														
 
															+def parse_json(content: str) -> str:
														
 
															+    try:
														
 
															+        payload = json.loads(content)
														
 
															+    except json.JSONDecodeError as exc:
														
 
															+        raise DocumentParseError(f"invalid json document: {exc}") from exc
														
 
															+    lines: list[str] = []
														
 
															+    _flatten_json(value=payload, path="", lines=lines)
														
 
															+    return normalize_text("\n".join(lines))
														
 
															+
														
 
															+
														
 
															+def parse_csv(content: str) -> str:
														
 
															+    reader = csv.DictReader(io.StringIO(content))
														
 
															+    if reader.fieldnames:
														
 
															+        rows = []
														
 
															+        for index, row in enumerate(reader, start=1):
														
 
															+            values = [
														
 
															+                f"{field}: {row.get(field, '')}"
														
 
															+                for field in reader.fieldnames
														
 
															+                if field is not None
														
 
															+            ]
														
 
															+            rows.append(f"row {index}: " + "; ".join(values))
														
 
															+        return normalize_text("\n".join(rows))
														
 
															+    fallback_reader = csv.reader(io.StringIO(content))
														
 
															+    return normalize_text("\n".join(" | ".join(row) for row in fallback_reader))
														
 
															+
														
 
															+
														
 
															+def parse_pdf(*, content_text: str, content_base64: str | None) -> str:
														
 
															+    try:
														
 
															+        import pypdf
														
 
															+    except Exception:
														
 
															+        return normalize_text(content_text)
														
 
															+    raw_bytes = _decode_content_bytes(content_base64)
														
 
															+    reader = pypdf.PdfReader(io.BytesIO(raw_bytes))
														
 
															+    return normalize_text("\n".join(page.extract_text() or "" for page in reader.pages))
														
 
															+
														
 
															+
														
 
															+def parse_docx(*, content_text: str, content_base64: str | None) -> str:
														
 
															+    try:
														
 
															+        import docx
														
 
															+    except Exception:
														
 
															+        return normalize_text(content_text)
														
 
															+    raw_bytes = _decode_content_bytes(content_base64)
														
 
															+    document = docx.Document(io.BytesIO(raw_bytes))
														
 
															+    return normalize_text("\n".join(paragraph.text for paragraph in document.paragraphs))
														
 
															+
														
 
															+
														
 
															+def normalize_text(content: str) -> str:
														
 
															+    lines = [re.sub(r"\s+", " ", line).strip() for line in content.splitlines()]
														
 
															+    return "\n".join(line for line in lines if line).strip()
														
 
															+
														
 
															+
														
 
															+def _decode_content_base64(content_base64: str | None) -> str:
														
 
															+    raw_bytes = _decode_content_bytes(content_base64)
														
 
															+    return raw_bytes.decode("utf-8", errors="replace")
														
 
															+
														
 
															+
														
 
															+def _decode_content_bytes(content_base64: str | None) -> bytes:
														
 
															+    if not content_base64:
														
 
															+        raise DocumentParseError("content_text or content_base64 is required")
														
 
															+    try:
														
 
															+        return base64.b64decode(content_base64, validate=True)
														
 
															+    except Exception as exc:
														
 
															+        raise DocumentParseError("invalid base64 document content") from exc
														
 
															+
														
 
															+
														
 
															+def _flatten_json(*, value: JSONValue, path: str, lines: list[str]) -> None:
														
 
															+    if isinstance(value, dict):
														
 
															+        for key, item in value.items():
														
 
															+            next_path = f"{path}.{key}" if path else str(key)
														
 
															+            _flatten_json(value=item, path=next_path, lines=lines)
														
 
															+        return
														
 
															+    if isinstance(value, list):
														
 
															+        for index, item in enumerate(value):
														
 
															+            next_path = f"{path}[{index}]" if path else f"[{index}]"
														
 
															+            _flatten_json(value=item, path=next_path, lines=lines)
														
 
															+        return
														
 
															+    lines.append(f"{path}: {value}")
														
--- a/services/knowledge-service/app/application/services.py
+++ b/services/knowledge-service/app/application/services.py
@@ -1,5 +1,10 @@
 
															 from core_shared import JSONValue
														
 
															+from app.application.document_parsers import (
														
 
															+    DocumentParseError,
														
 
															+    ParsedDocument,
														
 
															+    parse_document_content,
														
 
															+)
														
 
															 from app.application.embeddings import EmbeddingService
														
 
															 from app.application.retrieval import (
														
 
															     build_chunk_payloads,
														
@@ -18,6 +23,7 @@ from app.schemas.knowledge import (
 
															     KnowledgeBaseCreateRequest,
														
 
															     KnowledgeBaseStatusUpdateRequest,
														
 
															     KnowledgeDocumentCreateRequest,
														
 
															+    KnowledgeDocumentParseRequest,
														
 
															     KnowledgeSearchRequest,
														
 
															 )
														
@@ -72,23 +78,51 @@ class KnowledgeApplicationService:
 
															         if knowledge_base is None:
														
 
															             raise ValueError(f"knowledge base not found: {payload.knowledge_base_id}")
														
 
															+        parsed = self.parse_document(
														
 
															+            KnowledgeDocumentParseRequest(
														
 
															+                source_type=payload.source_type,
														
 
															+                source_uri=payload.source_uri,
														
 
															+                content_text=payload.content_text,
														
 
															+                content_base64=payload.content_base64,
														
 
															+            )
														
 
															+        )
														
 
															+        metadata_json = {
														
 
															+            **payload.metadata_json,
														
 
															+            "parser_metadata": parsed.metadata_json,
														
 
															+        }
														
 
															         document = self.document_repository.create(
														
 
															             tenant_id=payload.tenant_id,
														
 
															             knowledge_base_id=payload.knowledge_base_id,
														
 
															             title=payload.title,
														
 
															-            source_type=payload.source_type,
														
 
															+            source_type=parsed.source_type,
														
 
															             source_uri=payload.source_uri,
														
 
															-            content_text=payload.content_text,
														
 
															-            content_hash=stable_content_hash(payload.content_text),
														
 
															-            metadata_json=payload.metadata_json,
														
 
															+            content_text=parsed.content_text,
														
 
															+            content_hash=stable_content_hash(parsed.content_text),
														
 
															+            metadata_json=metadata_json,
														
 
															+        )
														
 
															+        chunks = self._index_document(
														
 
															+            document=document,
														
 
															+            content_text=parsed.content_text,
														
 
															+            chunk_size=payload.chunk_size,
														
 
															+            chunk_overlap=payload.chunk_overlap,
														
 
															         )
														
 
															-        chunks = self._index_document(document=document, payload=payload)
														
 
															         indexed_document = self.document_repository.update_status(
														
 
															             document_id=document.id,
														
 
															             status="indexed",
														
 
															         )
														
 
															         return indexed_document or document, chunks
														
 
															+    def parse_document(self, payload: KnowledgeDocumentParseRequest) -> ParsedDocument:
														
 
															+        try:
														
 
															+            return parse_document_content(
														
 
															+                source_type=payload.source_type,
														
 
															+                content_text=payload.content_text,
														
 
															+                content_base64=payload.content_base64,
														
 
															+                source_uri=payload.source_uri,
														
 
															+            )
														
 
															+        except DocumentParseError:
														
 
															+            raise
														
 
															+
														
 
															     def list_documents(
														
 
															         self,
														
 
															         *,
														
@@ -164,12 +198,14 @@ class KnowledgeApplicationService:
 
															         self,
														
 
															         *,
														
 
															         document: KnowledgeDocument,
														
 
															-        payload: KnowledgeDocumentCreateRequest,
														
 
															+        content_text: str,
														
 
															+        chunk_size: int | None,
														
 
															+        chunk_overlap: int | None,
														
 
															     ) -> list[KnowledgeChunk]:
														
 
															         chunk_payloads = build_chunk_payloads(
														
 
															-            content_text=payload.content_text,
														
 
															-            chunk_size=payload.chunk_size or self.settings.default_chunk_size,
														
 
															-            chunk_overlap=payload.chunk_overlap or self.settings.default_chunk_overlap,
														
 
															+            content_text=content_text,
														
 
															+            chunk_size=chunk_size or self.settings.default_chunk_size,
														
 
															+            chunk_overlap=chunk_overlap or self.settings.default_chunk_overlap,
														
 
															         )
														
 
															         for chunk_payload in chunk_payloads:
														
 
															             content_text = self._read_chunk_content(chunk_payload)
														
--- a/services/knowledge-service/app/schemas/knowledge.py
+++ b/services/knowledge-service/app/schemas/knowledge.py
@@ -39,7 +39,8 @@ class KnowledgeDocumentCreateRequest(BaseModel):
 
															     tenant_id: str
														
 
															     knowledge_base_id: str
														
 
															     title: str
														
 
															-    content_text: str
														
 
															+    content_text: str | None = None
														
 
															+    content_base64: str | None = None
														
 
															     source_type: str = "text"
														
 
															     source_uri: str | None = None
														
 
															     metadata_json: dict[str, JSONValue] = Field(default_factory=dict)
														
@@ -64,6 +65,19 @@ class KnowledgeDocumentIngestResponse(BaseModel):
 
															     chunks: list[KnowledgeChunkResponse]
														
 
															+class KnowledgeDocumentParseRequest(BaseModel):
														
 
															+    source_type: str = "auto"
														
 
															+    source_uri: str | None = None
														
 
															+    content_text: str | None = None
														
 
															+    content_base64: str | None = None
														
 
															+
														
 
															+
														
 
															+class KnowledgeDocumentParseResponse(BaseModel):
														
 
															+    content_text: str
														
 
															+    source_type: str
														
 
															+    metadata_json: dict[str, JSONValue] = Field(default_factory=dict)
														
 
															+
														
 
															+
														
 
															 class KnowledgeSearchRequest(KnowledgeSearchRequestContract):
														
 
															     pass
														
--- a/tests/test_knowledge_document_parsers.py
+++ b/tests/test_knowledge_document_parsers.py
@@ -0,0 +1,43 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import sys
														
 
															+from pathlib import Path
														
 
															+
														
 
															+
														
 
															+REPO_ROOT = Path(__file__).resolve().parents[1]
														
 
															+for module_name in list(sys.modules):
														
 
															+    if module_name == "app" or module_name.startswith("app."):
														
 
															+        del sys.modules[module_name]
														
 
															+for path in [
														
 
															+    REPO_ROOT / "libs" / "core-shared" / "src",
														
 
															+    REPO_ROOT / "services" / "knowledge-service",
														
 
															+]:
														
 
															+    sys.path.insert(0, str(path))
														
 
															+
														
 
															+from app.application.document_parsers import parse_document_content
														
 
															+
														
 
															+
														
 
															+def test_parse_markdown_html_json_csv_documents() -> None:
														
 
															+    markdown = parse_document_content(
														
 
															+        source_type="markdown",
														
 
															+        content_text="# Title\n\nUse [docs](https://example.com) and `code`.",
														
 
															+    )
														
 
															+    html = parse_document_content(
														
 
															+        source_type="html",
														
 
															+        content_text="<h1>Title</h1><script>hidden()</script><p>Hello <b>world</b></p>",
														
 
															+    )
														
 
															+    json_doc = parse_document_content(
														
 
															+        source_type="json",
														
 
															+        content_text='{"order":{"id":"A1","status":"paid"}}',
														
 
															+    )
														
 
															+    csv_doc = parse_document_content(
														
 
															+        source_type="csv",
														
 
															+        content_text="id,status\nA1,paid\nA2,refunded\n",
														
 
															+    )
														
 
															+
														
 
															+    assert "Title" in markdown.content_text
														
 
															+    assert "docs" in markdown.content_text
														
 
															+    assert "hidden" not in html.content_text
														
 
															+    assert "Hello world" in html.content_text
														
 
															+    assert "order.id: A1" in json_doc.content_text
														
 
															+    assert "row 2: id: A2; status: refunded" in csv_doc.content_text
														
--- a/tests/test_knowledge_pgvector_fallback.py
+++ b/tests/test_knowledge_pgvector_fallback.py
@@ -1,6 +1,7 @@
 
															 from __future__ import annotations
														
 
															 import sys
														
 
															+import base64
														
 
															 from pathlib import Path
														
@@ -75,3 +76,47 @@ def test_knowledge_search_falls_back_without_pgvector(tmp_path: Path) -> None:
 
															         assert results
														
 
															         assert results[0][3]["retrieval_mode"] == "hybrid"
														
 
															     session_factory.kw["bind"].dispose()
														
 
															+
														
 
															+
														
 
															+def test_create_document_parses_base64_markdown_before_indexing(tmp_path: Path) -> None:
														
 
															+    settings = KnowledgeServiceSettings(
														
 
															+        database_url=f"sqlite:///{tmp_path / 'knowledge_service.db'}",
														
 
															+        embedding_provider="local",
														
 
															+    )
														
 
															+    session_factory = build_session_factory(settings)
														
 
															+    Base.metadata.create_all(bind=session_factory.kw["bind"])
														
 
															+
														
 
															+    with session_factory() as db:
														
 
															+        service = KnowledgeApplicationService(
														
 
															+            settings=settings,
														
 
															+            base_repository=KnowledgeBaseRepository(db),
														
 
															+            document_repository=KnowledgeDocumentRepository(db),
														
 
															+            chunk_repository=KnowledgeChunkRepository(db),
														
 
															+        )
														
 
															+        base = service.create_base(
														
 
															+            KnowledgeBaseCreateRequest(tenant_id="t1", code="kb", name="KB")
														
 
															+        )
														
 
															+        encoded = base64.b64encode(
														
 
															+            "# Refund Policy\nRefunds are available within seven days.".encode("utf-8")
														
 
															+        ).decode("ascii")
														
 
															+
														
 
															+        document, chunks = service.create_document(
														
 
															+            KnowledgeDocumentCreateRequest(
														
 
															+                tenant_id="t1",
														
 
															+                knowledge_base_id=base.id,
														
 
															+                title="Refund Policy",
														
 
															+                source_type="markdown",
														
 
															+                content_base64=encoded,
														
 
															+                chunk_size=80,
														
 
															+                chunk_overlap=0,
														
 
															+            )
														
 
															+        )
														
 
															+
														
 
															+        assert document.source_type == "markdown"
														
 
															+        assert document.content_text.startswith("Refund Policy")
														
 
															+        assert document.metadata_json is not None
														
 
															+        assert document.metadata_json["parser_metadata"]["parser"] == "knowledge-document-parser-v1"
														
 
															+        assert chunks
														
 
															+        assert chunks[0].content_text.startswith("Refund Policy")
														
 
															+    session_factory.kw["bind"].dispose()
														
 
															+    Base.metadata.clear()