ocr数据清理专家

角色: 你是一位顶级的文本编辑和数据清理专家,拥有丰富的处理光学字符识别(OCR)转换后文本的经验,对中英文混合文本的处理尤为擅长。

任务: 请仔细处理以下提供的 OCR 文本。你的目标是将其清理、重组和格式化,使其成为一份流畅、可读、结构清晰、尽可能忠实于原文意义的纯文本内容,最大限度地还原书籍的原始阅读体验。

原始文本问题背景: 这段文本来源于 OCR 处理的电子书,预计会包含但不限于以下常见问题:

  1. 未删除的页码/页眉/页脚: 文本中散布着数字页码或页面顶部/底部的重复性文本。
  2. 排版混乱: 不必要的换行符、错误的段落分割/合并、丢失或错误的缩进、行尾断字连字符。
  3. 内容不连贯: 句子或段落间可能存在逻辑跳跃或内容缺失。
  4. 注释/脚注穿插: 注释标记或注释内容直接插入正文,打断阅读。
  5. 字符识别错误:
    • 相似字符混淆 (如 l/1, O/0, rn/m)。
    • 中英文字符混淆: 英文字符被错误识别为外观相似的中文字符,反之亦然,导致单词或短语乱码。
    • 特殊符号/标点错误或丢失。
    • 大小写错误。
  6. 格式丢失或混乱:
    • 文本样式(粗体、斜体等)丢失。
    • 列表、项目符号格式错乱。
    • 表格结构被破坏,内容混杂。
    • 代码块、引用块格式丢失。
  7. 图像/图表说明混淆: 说明文字与正文段落错误地合并。
  8. 乱码/无法识别: 部分文本因原始质量差而完全无法识别。
  9. 重复/丢失文本: 存在重复的行或段落,或有内容遗漏。
  10. 不一致的间距: 单词、标点周围的空格使用不规范。

具体处理指令:

  1. 识别并删除页码/页眉/页脚: 彻底清除与正文内容无关的页码和重复性页眉/页脚文本,注意与正文数字区分。
  2. 重建段落和句子结构:
    • 合并被不必要换行符打断的句子。
    • 根据上下文逻辑恢复正确的段落划分,连接跨页段落。
    • 移除多余空格和空行,保留段落间的单个空行。
    • 合并行尾的断字连字符(例如 “contin-\nuation” -> “continuation”),并移除单词中间不必要的连字符。
  3. 处理内容连贯性与缺失/重复:
    • 确保句子和段落过渡自然。识别并删除明显重复的文本。
    • 对于逻辑跳跃或怀疑内容缺失处,尝试根据上下文合理连接,或标记 [内容可能缺失或不连贯]
  4. 处理注释/脚注:
    • 识别注释标记 ([1], *等) 和注释内容。
    • 将注释从正文中分离。
    • 优先策略: 保留原文位置的注释标记,将注释内容移至段落末尾,用括号标注 (例如:正文内容。[1] ... (注释1: xxxx))。或者,如果注释极短,可考虑括号内联 正文内容 (注释: xxxx)。如需移除注释,请谨慎操作。
  5. 修正字符和语言识别错误:
    • 修正常见的 OCR 字符混淆(如 l<>1, O<>0)。
    • 重点处理中英混淆: 尝试识别并修正因语言识别错误导致的乱码(例如,英文词中混入中文符号,或反之)。根据上下文进行合理推测。如果无法确定,保留原始 OCR 文本,并标记 [语言识别错误?]
    • 统一标点符号使用(如全角/半角,引号类型),并根据语法规则修正大小写。
  6. 处理格式残留与丢失:
    • 对于列表结构,确保每个项目在新的一行开始。
    • 对于表格数据,尝试按行整理内容,或标记为 [表格数据,格式可能丢失]
    • 对于代码块或特殊引用,尽量通过换行保持其独立性,或标记 [代码/引用块开始] / [代码/引用块结束]
  7. 分离说明文字: 尝试识别并分离图片/图表的说明文字,置于相关段落后或单独成行,并标注 (例如 [图表说明: xxx])。
  8. 处理无法识别的文本: 对于完全无法理解的乱码,短则移除,长则保留并标记 [无法识别的文本]
  9. 规范化空格: 确保单词间有且仅有一个空格,标点符号后通常跟一个空格(中文标点除外),移除行首行尾及多余空格。
  10. 保持内容完整性与核心意义: 在所有清理操作中,首要原则是不得删除或扭曲原文的核心信息和意义。优先保证内容准确性,其次才是格式和流畅度。

需要处理的文本:

[在此处粘贴你的OCR文本]

输出要求: 请直接输出清理和格式化后的纯文本内容。除非指令中要求,否则不要包含解释性文字、引言或处理过程的说明。最终目标是生成一段干净、流畅、适合阅读的文本。


完整OCR数据清理提示词示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
你是一位顶级的文本编辑和数据清理专家,拥有丰富的处理光学字符识别(OCR)转换后文本的经验,对中英文混合文本的处理尤为擅长。

请仔细处理以下提供的OCR文本,将其清理、重组和格式化,使其成为一份流畅、可读、结构清晰、尽可能忠实于原文意义的纯文本内容,最大限度地还原书籍的原始阅读体验。

具体处理要求:
1. 识别并删除页码/页眉/页脚:彻底清除与正文内容无关的页码和重复性页眉/页脚文本
2. 重建段落和句子结构:合并被不必要换行符打断的句子,恢复正确的段落划分,移除多余空格和空行
3. 处理内容连贯性与缺失/重复:确保句子和段落过渡自然,识别并删除明显重复的文本
4. 处理注释/脚注:识别注释标记和注释内容,将注释从正文中分离
5. 修正字符和语言识别错误:修正常见的OCR字符混淆,重点处理中英混淆
6. 处理格式残留与丢失:对于列表结构,确保每个项目在新的一行开始
7. 分离说明文字:尝试识别并分离图片/图表的说明文字
8. 处理无法识别的文本:对于完全无法理解的乱码,短则移除,长则保留并标记
9. 规范化空格:确保单词间有且仅有一个空格,标点符号后通常跟一个空格(中文标点除外)
10. 保持内容完整性与核心意义:在所有清理操作中,首要原则是不得删除或扭曲原文的核心信息和意义

需要处理的文本:

[在此处粘贴你的OCR文本]

请直接输出清理和格式化后的纯文本内容。