銀行對帳單太亂?街口支付董事長開源工具,讓 PDF 變 AI 可讀 Markdown

ChainNewsAbmedia

街口支付董事長梅驊近日在 GitHub 開源一款名為 doc-cleaner 的文件處理工具。該專案主打將 PDF、DOCX、XLSX 與純文字檔轉換為乾淨的結構化 Markdown,特別針對繁體中文金融文件設計,並支援完全離線運行。梅驊在專案介紹中寫道:「你的文件,不該為了整理而離開你的電腦。」

梅驊在社群平台表示,自己長期被信用卡對帳單、保險文件與投資報告困擾。這些文件不僅常出現 Big5 或 CP950 等舊式編碼造成的亂碼問題,表格格式也經常在轉檔過程中被破壞,甚至還附帶大量法律聲明或金融廣告。為了解決這些問題,他決定自行開發工具並將其開源。doc-cleaner 的主要功能是將雜亂的文件轉換為乾淨、結構化的 Markdown,方便直接匯入筆記系統或 AI 工具

專案連結:

金融個資不外露!doc-cleaner 主打本地轉換資料

doc-cleaner 的核心功能是將多種常見文件格式轉換為 Markdown。工具支援 PDF、Word、Excel、CSV 以及 TXT 等文件類型,並特別強調對表格的保留能力。DOCX 與 Excel 文件中的表格會直接轉換為 Markdown 的 pipe table 格式,使欄位與數據結構仍能完整保留。

在處理 PDF 時,doc-cleaner 會先自動判斷文件類型,再決定處理方式。如果文件屬於原生文字 PDF,系統會直接抽取內容;若版面結構破碎或文件屬於掃描影像,則可透過 AI 進行視覺解析與重建。這種分流機制可以避免不必要的 AI 呼叫,讓大多數文件在本地即可快速完成處理。

工具同時提供多種運行模式。使用者可以選擇完全離線模式,只提取文字與表格,不需任何 API 或雲端服務;也可以透過本地 AI 模型(例如 Ollama)或雲端模型 Gemini 進行文件結構化整理。若使用本地模型,所有資料都會在使用者電腦上處理,不會離開本機。

專為台灣金融文件設計,可與 AI Agent 整合

doc-cleaner 也針對台灣金融文件進行優化。許多銀行或保險文件在 PDF 尾端常包含大量法律聲明與投資風險提示,例如「謹慎理財,信用至上」等固定段落。系統可以透過正則規則自動截斷這些內容,避免無關資訊影響文件整理結果。

在安全機制方面,doc-cleaner 採用原子寫入方式,透過臨時檔與 os.replace() 確保輸出文件不會出現半完成狀態。API 金鑰與密碼也只能存放在 .env 檔案中,不會被加入 Git 版本控制。此外,若截斷規則可能刪除過多內容,系統會自動跳過處理以避免誤刪重要資料。

由於 doc-cleaner 是標準的 CLI 工具,也可以與 AI agent 系統整合,例如 OpenClaw 等框架。AI agent 可以透過 shell 指令呼叫工具,將文件轉換為 Markdown,並輸出 JSON 摘要供自動化流程使用。

這篇文章 銀行對帳單太亂?街口支付董事長開源工具,讓 PDF 變 AI 可讀 Markdown 最早出現於 鏈新聞 ABMedia。

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários