KnowledgeBase.git

提交次数
对比

2 天以前

lyg

docx文档切割，表格转json，图片内容识别为文本。

HEAD master

494637

对比 | 目录

2 天以前

文档解析，获取章节结构，并获取图片转换为base64

b2bef1

对比 | 目录

1个文件已修改

6个文件已添加

	.gitignore	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	knowledgebase/doc/docx_split.py	201 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	knowledgebase/doc/image_to_text.py	44 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	knowledgebase/llm.py	17 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	static/doc/ZL格式(公开).docx	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	static/images/test.png	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	vision_test.py	42 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 .gitignore

@@ -4,4 +4,6 @@
/datas
/.conda
/docs
/out*
/out*
/packages
__pycache__

 knowledgebase/doc/docx_split.py

New file
@@ -0,0 +1,201 @@
# -*- coding: utf-8 -*-
# 
# @author: lyg, ym
# @date: 2025-5-8
# @version: 1
# @description: docxææ¡£æåå¨ï¼æ ¹æ®æ®µè½æåï¼å°å¾çåè¡¨æ ¼è½¬æ¢ä¸ºjsonæ°æ®ã
import docx
import docx.table
import json
from dataclasses import dataclass
from PIL import Image
import io
import re

from knowledgebase.doc.image_to_text import ImageToText


@dataclass
class ParagraphInfo:
    """
    æ®µè½ä¿¡æ¯
    :param text: str - æ®µè½ææ¬
    :param level: int - æ®µè½çº§å«ï¼1-9çº§æ é¢ï¼0è¡¨ç¤ºæ£æ
    :param title_no: str - æ é¢ç¼å·ï¼å¦1.1ã1.1.1ç
    """
    text: str
    level: int
    title_no: str

    @property
    def full_text(self):
        """
        è·åæ®µè½å®æ´ææ¬ï¼åå«æ é¢ç¼å·
        :return: str - æ®µè½å®æ´ææ¬
        """
        return f"{self.title_no} {self.text}"

    def __init__(self, text: str, level: int):
        """
        æ®µè½ä¿¡æ¯
        :param text: str - æ®µè½ææ¬
        :param level: int - æ®µè½çº§å«ï¼1-9çº§æ é¢ï¼0è¡¨ç¤ºæ£æ
        """
        self.text = text
        self.level = level
        self.title_no = ''


class DocSplit:
    """
    docxææ¡£æåå¨ï¼æ ¹æ®æ®µè½æåï¼å°å¾çåè¡¨æ ¼è½¬æ¢ä¸ºjsonæ°æ®ã
    1.å°è£æ®µè½ä¿¡æ¯
    2.å°å¾çåè¡¨æ ¼è½¬æ¢ä¸ºjson
    3.å°æ®µè½æç§ææ¡£æ é¢çº§å«ç»åææ å½¢ç»æ

    """

    def __init__(self, doc_file):
        self.doc_file = doc_file
        self.image_to_text = ImageToText()
        self.paragraphs:list[ParagraphInfo] = []

    def table_to_json(self, table: docx.table.Table):
        """
           å°è¡¨æ ¼è½¬æ¢ä¸º JSON æ ¼å¼

           :param table: docx.table.Table - è¦è½¬æ¢çè¡¨æ ¼å¯¹è±¡
           :return list - è¡¨æ ¼æ°æ®ï¼ä»¥ JSON æ ¼å¼è¡¨ç¤º
        """
        table_data = []
        headers = []
        first_row = True
        row: docx.table._Row
        for row in table.rows:
            if first_row:
                for cell in row.cells:
                    headers.append(cell.text)
                first_row = False
                continue
            row_data = {}
            row_idx = 0
            for cell in row.cells:
                if cell.tables:
                    # åµå¥è¡¨æ ¼å¤ç
                    if len(cell.tables) == 1:
                        text = self.table_to_json(cell.tables[0])
                    else:
                        text = []
                        for tbl in cell.tables:
                            tbl_json = self.table_to_json(tbl)
                            text.append(tbl_json)
                else:
                    # ååæ ¼ææ¬è·å
                    text = cell.text
                row_data[headers[row_idx]] = text
                row_idx += 1

            table_data.append(row_data)
        return table_data

    def split(self):
        """
        å°ææ¡£æåææ®µè½ï¼å¹¶è¿åæ®µè½åè¡¨

        :return: list[ParagraphInfo] - æ®µè½åè¡¨
        """
        document = docx.Document(self.doc_file)
        table_cnt = 0
        paragraph_cnt = 0

        for element in document.element.body:
            if element.tag.endswith('p'):  # æ®µè½
                # è·åæ é¢å¤çº§ç¼å·
                paragraph = document.paragraphs[paragraph_cnt]
                paragraph_text = paragraph.text
                if paragraph_text:
                    self.paragraphs.append(ParagraphInfo(paragraph_text, self.get_header_level(paragraph)))
                # æ£æ¥æ¯å¦æ¯å¾çï¼å¦ææ¯å¾çåè½¬æ¢ä¸ºææ¬
                img_data = self.get_image_blob(paragraph)
                if img_data:
                    text = self.gen_text_from_img(img_data)
                    self.paragraphs.append(ParagraphInfo(text, 0))
                paragraph_cnt += 1
            elif element.tag.endswith('tbl'):  # è¡¨æ ¼
                table = document.tables[table_cnt]  # è·åå½åè¡¨æ ¼å¯¹è±¡
                table_cnt += 1
                table_data = self.table_to_json(table)
                self.paragraphs.append(ParagraphInfo(json.dumps(table_data, indent=4, ensure_ascii=False), 0))
            else:
                continue
        # çææ é¢ç¼å·
        self.gen_title_no(self.paragraphs)

    @staticmethod
    def get_image_blob(paragraph):
        # éåæ®µè½ä¸çææRunå¯¹è±¡ï¼å¾çéå¸¸å¨åç¬çRunä¸ï¼
        for run in paragraph.runs:
            xml = run._element.xml
            if xml.find('v:imagedata') != -1:
                # ä½¿ç¨æ£åè¡¨è¾¾å¼æ¥æ¾r:idå±æ§
                match = re.search(r'r:id="([^"]+)"', xml)
                if match:
                    r_id = match.group(1)
                    if r_id:
                        # è·åå¾çä¿¡æ¯
                        image_part = paragraph.part.rels[r_id].target_part
                        return DocSplit.image_convert(image_part.blob, "png")
            if xml.find('wp:inline') != -1 or xml.find('wp:anchor') != -1:
                # ä½¿ç¨æ£åè¡¨è¾¾å¼æ¥æ¾r:embedå±æ§
                match = re.search(r'r:embed="([^"]+)"', xml)
                if match:
                    r_id = match.group(1)
                    if r_id:
                        # è·åå¾çä¿¡æ¯
                        image_part = paragraph.part.rels[r_id].target_part
                        return DocSplit.image_convert(image_part.blob, "png")
        return None

    @staticmethod
    def gen_title_no(paragraphs: list[ParagraphInfo]):
        title_levels = [1, 1, 1, 1, 1, 1, 1, 1, 1]
        for i in range(len(paragraphs)):
            if paragraphs[i].level > 0:
                for j in range(paragraphs[i].level - 1):
                    title_levels[j] = 1
                paragraphs[i].title_no = '.'.join([str(x) for x in title_levels[0:paragraphs[i].level]])
                title_levels[paragraphs[i].level - 1] += 1
            else:
                title_levels = [1, 1, 1, 1, 1, 1, 1, 1, 1]

    @staticmethod
    def get_header_level(paragraph) -> int:
        if paragraph.style.base_style:
            style = paragraph.style.base_style
        else:
            style = paragraph.style
        if style and style.name.startswith('Heading'):
            # è·åæ é¢çº§å«
            level = int(style.name.split(' ')[1])
            return level
        else:
            return 0

    @staticmethod
    def image_convert(_in: bytes, _out_format: str) -> bytes:
        in_io = io.BytesIO()
        in_io.write(_in)
        img = Image.open(in_io, "r")
        out_io = io.BytesIO()
        img.save(out_io, "png")
        out_io.seek(0)
        return out_io.read()

    def gen_text_from_img(self, img_data:bytes):
        return self.image_to_text.gen_text_from_img(img_data)

if __name__ == '__main__':
    doc_file = r'D:\workspace\PythonProjects\KnowledgeBase\doc\ZLæ ¼å¼(å¬å¼).docx'
    doc_split = DocSplit(doc_file)
    doc_split.split()
    print("\n".join([x.full_text for x in doc_split.paragraphs]))

 knowledgebase/doc/image_to_text.py

New file
@@ -0,0 +1,44 @@
# -*- coding: utf-8 -*-
# 
# @author: lyg
# @date: 2025-5-8
# @version: 1
# @description: å©ç¨LLMå°å¾çè½¬ä¸ºææ¬ã

from langchain_core.prompts import HumanMessagePromptTemplate, ChatPromptTemplate
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_core.output_parsers import JsonOutputParser
import json
import base64

from knowledgebase.llm import vision_llm


class ImageToText:
    def __init__(self):
        self.llm = vision_llm
        self.prompt = ChatPromptTemplate.from_messages([
            ("system", "ä½ æ¯ä¸ä¸ªèµæ·±è½¯ä»¶å·¥ç¨å¸ï¼è¯·åæå¾çä¸çåå®¹ã"),
            (
                "user",
                [
                    {"type": "text", "text": "{msg}"},
                    {
                        "type": "image_url",
                        "image_url": {"url": "data:image/jpeg;base64,{image}"},
                    }
                ],
            )
        ])

    def gen_text_from_img(self, image: bytes) -> str:
        """
        ä»å¾ççæææ¬ã

        :param image:  å¾çæ°æ®
        :return: ææ¬
        """
        image = base64.b64encode(image).decode()
        chain = self.prompt | self.llm
        resp = chain.invoke({"msg": "ä½¿ç¨èªç¶è¯è¨è¾åºå¾çä¸çåå®¹ï¼ä¸è¦åè¿å¤çè§£éãè¾åºæ ¼å¼ä¸ºçº¯ææ¬ã", "image": image})
        return resp.content

 knowledgebase/llm.py

New file
@@ -0,0 +1,17 @@
# -*- coding: utf-8 -*-
# 
# @author: lyg
# @date: 2025-5-8
# @version: 1
# @description: å¬å±langchain LLM å®ä¾
from langchain_openai.chat_models import ChatOpenAI

llm = ChatOpenAI(temperature=0,
                              model="qwen2.5-72b-instruct",
                              base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
                              api_key="sk-15ecf7e273ad4b729c7f7f42b542749e")

vision_llm = ChatOpenAI(temperature=0,
                              model="qwen2.5-vl-32b-instruct",
                              base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
                              api_key="sk-15ecf7e273ad4b729c7f7f42b542749e")

 static/doc/ZL¸ñÊ½(¹«¿ª).docx

Binary files differ

 static/images/test.png


 vision_test.py

New file
@@ -0,0 +1,42 @@
# -*- coding: utf-8 -*-
# 
# @author: lyg
# @date: 2025-5-7
# @version: 1
# @description:è§è§è¯å«ææ¡£åå®¹

from langchain_openai.chat_models import ChatOpenAI
from langchain_core.prompts import HumanMessagePromptTemplate, ChatPromptTemplate
from langchain_core.messages import HumanMessage,SystemMessage
from langchain_core.output_parsers import JsonOutputParser
import json
import base64


class VisionTest:
    def __init__(self,file):
        self.llm = ChatOpenAI(temperature=0,
                              model="qwen2.5-72b-instruct",
                              base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
                              api_key="sk-15ecf7e273ad4b729c7f7f42b542749e")

        image = base64.b64encode(open(file, 'rb').read()).decode()
        self.prompt = ChatPromptTemplate.from_messages([
            SystemMessage("ä½ æ¯ä¸ä¸ªèµæ·±è½¯ä»¶å·¥ç¨å¸ï¼è¯·åæå¾çåçé®é¢ã"),
            HumanMessage(content=[
                {"type": "text", "text": "describe the weather in this image"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image}"},
                }
            ])
        ])

    def run(self,msg):
        chain = self.prompt | self.llm
        resp = chain.invoke({"msg": msg})
        print(resp.content)

if __name__ == '__main__':
    vision = VisionTest("image_path")
    vision.run("é®é¢")

			@@ -4,4 +4,6 @@
			/datas
			/.conda
			/docs
			/out*
			/out*
			/packages
			__pycache__

New file
			@@ -0,0 +1,201 @@
			# -- coding: utf-8 --
			#
			# @author: lyg, ym
			# @date: 2025-5-8
			# @version: 1
			# @description: docxææ¡£æåå¨ï¼æ ¹æ®æ®µè½æåï¼å°å¾çåè¡¨æ ¼è½¬æ¢ä¸ºjsonæ°æ®ã
			import docx
			import docx.table
			import json
			from dataclasses import dataclass
			from PIL import Image
			import io
			import re

			from knowledgebase.doc.image_to_text import ImageToText


			@dataclass
			class ParagraphInfo:
			"""
			æ®µè½ä¿¡æ¯
			:param text: str - æ®µè½ææ¬
			:param level: int - æ®µè½çº§å«ï¼1-9çº§æ é¢ï¼0è¡¨ç¤ºæ£æ
			:param title_no: str - æ é¢ç¼å·ï¼å¦1.1ã1.1.1ç
			"""
			text: str
			level: int
			title_no: str

			@property
			def full_text(self):
			"""
			è·åæ®µè½å®æ´ææ¬ï¼åå«æ é¢ç¼å·
			:return: str - æ®µè½å®æ´ææ¬
			"""
			return f"{self.title_no} {self.text}"

			def __init__(self, text: str, level: int):
			"""
			æ®µè½ä¿¡æ¯
			:param text: str - æ®µè½ææ¬
			:param level: int - æ®µè½çº§å«ï¼1-9çº§æ é¢ï¼0è¡¨ç¤ºæ£æ
			"""
			self.text = text
			self.level = level
			self.title_no = ''


			class DocSplit:
			"""
			docxææ¡£æåå¨ï¼æ ¹æ®æ®µè½æåï¼å°å¾çåè¡¨æ ¼è½¬æ¢ä¸ºjsonæ°æ®ã
			1.å°è£æ®µè½ä¿¡æ¯
			2.å°å¾çåè¡¨æ ¼è½¬æ¢ä¸ºjson
			3.å°æ®µè½æç§ææ¡£æ é¢çº§å«ç»åææ å½¢ç»æ

			"""

			def __init__(self, doc_file):
			self.doc_file = doc_file
			self.image_to_text = ImageToText()
			self.paragraphs:list[ParagraphInfo] = []

			def table_to_json(self, table: docx.table.Table):
			"""
			å°è¡¨æ ¼è½¬æ¢ä¸º JSON æ ¼å¼

			:param table: docx.table.Table - è¦è½¬æ¢çè¡¨æ ¼å¯¹è±¡
			:return list - è¡¨æ ¼æ°æ®ï¼ä»¥ JSON æ ¼å¼è¡¨ç¤º
			"""
			table_data = []
			headers = []
			first_row = True
			row: docx.table._Row
			for row in table.rows:
			if first_row:
			for cell in row.cells:
			headers.append(cell.text)
			first_row = False
			continue
			row_data = {}
			row_idx = 0
			for cell in row.cells:
			if cell.tables:
			# åµå¥è¡¨æ ¼å¤ç
			if len(cell.tables) == 1:
			text = self.table_to_json(cell.tables[0])
			else:
			text = []
			for tbl in cell.tables:
			tbl_json = self.table_to_json(tbl)
			text.append(tbl_json)
			else:
			# ååæ ¼ææ¬è·å
			text = cell.text
			row_data[headers[row_idx]] = text
			row_idx += 1

			table_data.append(row_data)
			return table_data

			def split(self):
			"""
			å°ææ¡£æåææ®µè½ï¼å¹¶è¿åæ®µè½åè¡¨

			:return: list[ParagraphInfo] - æ®µè½åè¡¨
			"""
			document = docx.Document(self.doc_file)
			table_cnt = 0
			paragraph_cnt = 0

			for element in document.element.body:
			if element.tag.endswith('p'): # æ®µè½
			# è·åæ é¢å¤çº§ç¼å·
			paragraph = document.paragraphs[paragraph_cnt]
			paragraph_text = paragraph.text
			if paragraph_text:
			self.paragraphs.append(ParagraphInfo(paragraph_text, self.get_header_level(paragraph)))
			# æ£æ¥æ¯å¦æ¯å¾çï¼å¦ææ¯å¾çåè½¬æ¢ä¸ºææ¬
			img_data = self.get_image_blob(paragraph)
			if img_data:
			text = self.gen_text_from_img(img_data)
			self.paragraphs.append(ParagraphInfo(text, 0))
			paragraph_cnt += 1
			elif element.tag.endswith('tbl'): # è¡¨æ ¼
			table = document.tables[table_cnt] # è·åå½åè¡¨æ ¼å¯¹è±¡
			table_cnt += 1
			table_data = self.table_to_json(table)
			self.paragraphs.append(ParagraphInfo(json.dumps(table_data, indent=4, ensure_ascii=False), 0))
			else:
			continue
			# çææ é¢ç¼å·
			self.gen_title_no(self.paragraphs)

			@staticmethod
			def get_image_blob(paragraph):
			# éåæ®µè½ä¸çææRunå¯¹è±¡ï¼å¾çéå¸¸å¨åç¬çRunä¸ï¼
			for run in paragraph.runs:
			xml = run._element.xml
			if xml.find('v:imagedata') != -1:
			# ä½¿ç¨æ£åè¡¨è¾¾å¼æ¥æ¾r:idå±æ§
			match = re.search(r'r:id="([^"]+)"', xml)
			if match:
			r_id = match.group(1)
			if r_id:
			# è·åå¾çä¿¡æ¯
			image_part = paragraph.part.rels[r_id].target_part
			return DocSplit.image_convert(image_part.blob, "png")
			if xml.find('wp:inline') != -1 or xml.find('wp:anchor') != -1:
			# ä½¿ç¨æ£åè¡¨è¾¾å¼æ¥æ¾r:embedå±æ§
			match = re.search(r'r:embed="([^"]+)"', xml)
			if match:
			r_id = match.group(1)
			if r_id:
			# è·åå¾çä¿¡æ¯
			image_part = paragraph.part.rels[r_id].target_part
			return DocSplit.image_convert(image_part.blob, "png")
			return None

			@staticmethod
			def gen_title_no(paragraphs: list[ParagraphInfo]):
			title_levels = [1, 1, 1, 1, 1, 1, 1, 1, 1]
			for i in range(len(paragraphs)):
			if paragraphs[i].level > 0:
			for j in range(paragraphs[i].level - 1):
			title_levels[j] = 1
			paragraphs[i].title_no = '.'.join([str(x) for x in title_levels[0:paragraphs[i].level]])
			title_levels[paragraphs[i].level - 1] += 1
			else:
			title_levels = [1, 1, 1, 1, 1, 1, 1, 1, 1]

			@staticmethod
			def get_header_level(paragraph) -> int:
			if paragraph.style.base_style:
			style = paragraph.style.base_style
			else:
			style = paragraph.style
			if style and style.name.startswith('Heading'):
			# è·åæ é¢çº§å«
			level = int(style.name.split(' ')[1])
			return level
			else:
			return 0

			@staticmethod
			def image_convert(_in: bytes, _out_format: str) -> bytes:
			in_io = io.BytesIO()
			in_io.write(_in)
			img = Image.open(in_io, "r")
			out_io = io.BytesIO()
			img.save(out_io, "png")
			out_io.seek(0)
			return out_io.read()

			def gen_text_from_img(self, img_data:bytes):
			return self.image_to_text.gen_text_from_img(img_data)

			if __name__ == '__main__':
			doc_file = r'D:\workspace\PythonProjects\KnowledgeBase\doc\ZLæ ¼å¼(å¬å¼).docx'
			doc_split = DocSplit(doc_file)
			doc_split.split()
			print("\n".join([x.full_text for x in doc_split.paragraphs]))

New file
			@@ -0,0 +1,44 @@
			# -- coding: utf-8 --
			#
			# @author: lyg
			# @date: 2025-5-8
			# @version: 1
			# @description: å©ç¨LLMå°å¾çè½¬ä¸ºææ¬ã

			from langchain_core.prompts import HumanMessagePromptTemplate, ChatPromptTemplate
			from langchain_core.messages import HumanMessage, SystemMessage
			from langchain_core.output_parsers import JsonOutputParser
			import json
			import base64

			from knowledgebase.llm import vision_llm


			class ImageToText:
			def __init__(self):
			self.llm = vision_llm
			self.prompt = ChatPromptTemplate.from_messages([
			("system", "ä½ æ¯ä¸ä¸ªèµæ·±è½¯ä»¶å·¥ç¨å¸ï¼è¯·åæå¾çä¸çåå®¹ã"),
			(
			"user",
			[
			{"type": "text", "text": "{msg}"},
			{
			"type": "image_url",
			"image_url": {"url": "data:image/jpeg;base64,{image}"},
			}
			],
			)
			])

			def gen_text_from_img(self, image: bytes) -> str:
			"""
			ä»å¾ççæææ¬ã

			:param image: å¾çæ°æ®
			:return: ææ¬
			"""
			image = base64.b64encode(image).decode()
			chain = self.prompt \| self.llm
			resp = chain.invoke({"msg": "ä½¿ç¨èªç¶è¯è¨è¾åºå¾çä¸çåå®¹ï¼ä¸è¦åè¿å¤çè§£éãè¾åºæ ¼å¼ä¸ºçº¯ææ¬ã", "image": image})
			return resp.content

New file
			@@ -0,0 +1,17 @@
			# -- coding: utf-8 --
			#
			# @author: lyg
			# @date: 2025-5-8
			# @version: 1
			# @description: å¬å±langchain LLM å®ä¾
			from langchain_openai.chat_models import ChatOpenAI

			llm = ChatOpenAI(temperature=0,
			model="qwen2.5-72b-instruct",
			base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
			api_key="sk-15ecf7e273ad4b729c7f7f42b542749e")

			vision_llm = ChatOpenAI(temperature=0,
			model="qwen2.5-vl-32b-instruct",
			base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
			api_key="sk-15ecf7e273ad4b729c7f7f42b542749e")

New file
			@@ -0,0 +1,42 @@
			# -- coding: utf-8 --
			#
			# @author: lyg
			# @date: 2025-5-7
			# @version: 1
			# @description:è§è§è¯å«ææ¡£åå®¹

			from langchain_openai.chat_models import ChatOpenAI
			from langchain_core.prompts import HumanMessagePromptTemplate, ChatPromptTemplate
			from langchain_core.messages import HumanMessage,SystemMessage
			from langchain_core.output_parsers import JsonOutputParser
			import json
			import base64


			class VisionTest:
			def __init__(self,file):
			self.llm = ChatOpenAI(temperature=0,
			model="qwen2.5-72b-instruct",
			base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
			api_key="sk-15ecf7e273ad4b729c7f7f42b542749e")

			image = base64.b64encode(open(file, 'rb').read()).decode()
			self.prompt = ChatPromptTemplate.from_messages([
			SystemMessage("ä½ æ¯ä¸ä¸ªèµæ·±è½¯ä»¶å·¥ç¨å¸ï¼è¯·åæå¾çåçé®é¢ã"),
			HumanMessage(content=[
			{"type": "text", "text": "describe the weather in this image"},
			{
			"type": "image_url",
			"image_url": {"url": f"data:image/jpeg;base64,{image}"},
			}
			])
			])

			def run(self,msg):
			chain = self.prompt \| self.llm
			resp = chain.invoke({"msg": msg})
			print(resp.content)

			if __name__ == '__main__':
			vision = VisionTest("image_path")
			vision.run("é®é¢")