---
name: genek-split-figures
description: 识别科研论文 Figure 中子图(panel)的边界并裁剪。采用 LLM 语义分组 + 像素精修的混合方案，输出每个 panel 组的精确矩形坐标并生成可视化验证图。当用户提及"子图边界"、"panel 识别"、"figure 拆分"、"提取子图"、"split figure"时使用此技能。
---

# 科研 Figure 子图边界识别

支持两种模式：
- **自动模式**：LLM 看图自行判断分组，**限制为 2–3 组（不超过 3 个）**
- **用户指定模式**：用户给出分组方案（如 `A, DEFG, BCH`），LLM 据此定位，组数不受限制

采用混合方案：语义理解（确定每个 panel 位置）+ 像素级白色间隙分析（精确定位边界）。

## 目录约定

与 `genek-extract-figures` 共用 `papers/{Author}{Year}/` 结构：

- **输入**：`papers/{Author}{Year}/figures/fig{N}.png`（原图）
- **输出**：`papers/{Author}{Year}/figures/panels/fig{N}_{panels}.png`（拆分后的 panel）

```
papers/Li2022/
├── paper.pdf
├── figures/
│   ├── fig1.png                  ← 输入（extract-figures 产出）
│   ├── fig2.png
│   └── panels/                   ← 输出目录
│       ├── fig1_A.png            ← 单 panel
│       ├── fig1_DEFG.png         ← 多 panel 合并为一组
│       ├── fig2_BC.png
│       └── ...
```

Panel 文件命名：`fig{N}_{panels}.png`
- 单 panel：`fig1_A.png`
- 多 panel 合为一组：`fig1_BC.png`、`fig1_DEFG.png`（按原 panel 标签排列拼接）

**严格要求（禁止规避）**：
- 必须按下方流程**完整执行**：确定分组 → LLM 看图定位 → 像素精修 → 裁剪保存 → 验证图检查。不得仅将原图复制或重命名为「整图当一 panel」作为输出。
- **禁止**使用 `_whole`、`_full`、`_all` 等占位组名（如 `fig1_whole.png`）。输出文件的 `{panels}` 必须为论文图中**真实存在的 panel 标签**（如 A、B、BC、DEFG），与图中标注一致。

## 流程

```
1. 确定分组方案（用户指定 或 LLM 自动判断）
2. LLM 看图 → 定位每个 panel 的位置 + 给出每组粗坐标
3. 像素分析 → 运行 analyze_image，解读间隙输出，与粗坐标对齐确定精确裁剪坐标
4. 裁剪并保存到 papers/{Author}{Year}/figures/panels/
5. 生成带彩色边框的验证图 → Read 工具逐张查看
6. 如有偏差 → 调整坐标，重新裁剪 + 验证
7. 全部确认后删除验证图
```

## 第一步：确定分组 + LLM 定位

### 模式 A：用户指定分组

用户输入示例：`从 fig1.png 中提取 A, DEFG, BCH`

解析规则：
- 每个逗号分隔项为一组，组名即 panel 标签拼接（如 `BCH` = 面板 B + C + H）
- LLM 看图后定位每个**单独 panel** 的矩形范围
- 每组的边界 = 组内所有 panel 的最小外接矩形（min x1, min y1, max x2, max y2）

输出定位表：

```
单 panel 定位：
| Panel | 位置 (x1, y1, x2, y2) |
|-------|----------------------|
| A     | (0, 0, 545, 570)    |
| B     | (0, 580, 540, 940)   |
| C     | (540, 580, 1928, 940)|
| D     | (545, 0, 1240, 310)  |
| E     | (1240, 0, 1928, 310) |
| F     | (545, 310, 1240, 570) |
| G     | (1240, 310, 1928, 570)|
| H     | (0, 950, 1928, 1310) |

用户分组聚合：
| 组名  | 包含 panel | 聚合坐标              |
|-------|-----------|----------------------|
| A     | A         | (0, 0, 545, 570)     |
| DEFG  | D,E,F,G   | (545, 0, 1928, 570)  |
| BCH   | B,C,H     | (0, 580, 1928, 1310) |
```

### 模式 B：LLM 自动分组（2–3 组硬上限）

自动模式的核心约束：**每张 Figure 最终输出 2 或 3 个子图组，绝不超过 3 个。**

LLM 看图后按以下步骤输出分组表：

1. 识别 Figure 中所有 panel（A, B, C, D, …）
2. 将全部 panel 合并为 **2–3 个组**，优先合并而非拆分
3. 若 panel 数 ≤ 3，每个 panel 可单独成组
4. 若 panel 数 > 3，必须聚合到 ≤ 3 组（按下方合并策略）

```
| 组名  | 包含 panel  | 分组理由                    |
|-------|-----------|---------------------------|
| ABC   | A, B, C   | 上层行：系统发育树 + 质量条形图 + 表格  |
| DEFG  | D, E, F, G | 中层行：4 张相关散点图           |
| H     | H         | 底层行：独立 3D 建模图          |
```

**合并策略**（按优先级）：
1. **空间邻近**：同一水平行或垂直列的 panel 优先合并
2. **内容相似**：类型相近的图（如多张散点图、多张热图）合并
3. **共享元素**：共用图例、共用坐标轴、箭头连接的 panel 合并
4. **面积均衡**：避免组间面积差异过大（如一组占 80%，另一组占 20%）

**禁止**：
- 输出 > 3 个组（违反硬上限）
- 输出 1 个组（无意义拆分，至少 2 个）
- 将不相邻、不相关的 panel 强行合并仅为凑数

两种模式共同输出每组的粗坐标估计 `(left, top, right, bottom)`。

## 第二步：像素精修

用 Python + PIL + numpy，对图像做白色间隙检测。

### 核心算法

```python
from PIL import Image
import numpy as np

def find_gaps(arr_1d, min_len=10, thresh=252):
    """在一维亮度数组中找连续白色区段。"""
    gaps = []
    i, n = 0, len(arr_1d)
    while i < n:
        if arr_1d[i] > thresh:
            start = i
            while i < n and arr_1d[i] > thresh:
                i += 1
            if i - start >= min_len:
                gaps.append((start, i, i - start))
        else:
            i += 1
    return gaps

def analyze_image(img_path):
    gray = np.array(Image.open(img_path).convert('L'))
    h, w = gray.shape
    row_mean = gray.mean(axis=1)
    h_gaps = find_gaps(row_mean, min_len=12)
    # 过滤边缘间隙
    h_interior = [(s, e, l) for s, e, l in h_gaps if s > 10 and e < h - 10]

    # 按间隙大小排序，取前 4-5 个主要间隙定义水平分带
    h_interior.sort(key=lambda x: x[2], reverse=True)
    major_h = sorted(h_interior[:5], key=lambda x: x[0])

    # 对每个水平带做垂直间隙分析
    edges = [0]
    for s, e, _ in major_h:
        edges.extend([s, e])
    edges.append(h)

    bands = []
    for i in range(0, len(edges) - 1, 2):
        y1, y2 = edges[i], edges[i + 1]
        if y2 - y1 < 40:
            continue
        band_col = gray[y1:y2, :].mean(axis=0)
        v_gaps = find_gaps(band_col, min_len=8)
        v_interior = [(s, e, l) for s, e, l in v_gaps if s > 10 and e < w - 10]
        v_interior.sort(key=lambda x: x[2], reverse=True)
        bands.append({'y': (y1, y2), 'v_gaps': v_interior[:3]})

    return w, h, major_h, bands
```

### 精修策略

1. **水平分界**：取主要 H gap 的 `(start, end)` → 上方 panel 底边 = `start`，下方 panel 顶边 = `end`
2. **垂直分界**：在每个水平带内独立计算 → 取最大 V gap 的 `(start, end)`
3. **对齐粗坐标**：LLM 粗坐标用于选择"哪个间隙是真正的 panel 分界"（而非 panel 内部空白）

### 关键注意事项

- **panel 内部也有空白**（如 fig1 的 Contig N50 和 Scaffold N50 之间的 "//" 断裂），不能盲目选最大间隙
- **数字表格会产生大量假水平间隙**（如 fig4 的 CTCF 数值表），需要 LLM 判断哪些间隙是真实分界
- **不同水平带的垂直分界位置往往不同**（如 fig1 上半部分 A|DEFG 分界在 x=845，中间部分 B|C 分界完全不同）

### 实操流程

对每张 Figure 运行 `analyze_image`，输出格式如下：

```
=== fig1.png (1928x2000) ===
Top H gaps (y): [(951, 1007, 56), (1494, 1543, 49)]
Top V gaps (x): []
  Band y=[0:951] V gaps: [(866, 891, 25), (1419, 1437, 18)]
  Band y=[1007:1494] V gaps: [(511, 566, 55)]
  Band y=[1543:2000] V gaps: [(1107, 1168, 61), (730, 769, 39)]
```

解读方法：

1. **H gaps → 水平分带**：`(951, 1007)` 表示 y=951~1007 是白色间隙，将图像分成上 `[0:951]`、中 `[1007:1494]`、下 `[1543:2000]` 三个水平带
2. **每个带内的 V gaps → 垂直分界**：上层带 V gap `(866, 891)` 表示 x=866~891 是垂直白色间隙
3. **与 LLM 粗坐标对齐**：LLM 判断上层带左侧为 A、右侧为 DEFG → 精确边界为 A 右边 = x=866，DEFG 左边 = x=891
4. **确定裁剪坐标**：`A = (0, 0, 866, 951)`，`DEFG = (891, 0, 1928, 951)`

关键原则：
- 间隙的 `start` 是上/左 panel 的底/右边界，`end` 是下/右 panel 的顶/左边界
- 选择哪个间隙作为分界由 LLM 粗坐标决定（选最接近粗坐标的间隙）
- 如果一个带内没有 V gap，说明该带只有一个 panel 跨全宽

## 第三步：裁剪并保存

确定所有坐标后，批量裁剪：

```python
from PIL import Image
import os

def crop_panels(fig_dir, panel_dir, fig_num, panels):
    """
    panels: dict of {group_name: (x1, y1, x2, y2)}
    例如: {"A": (0, 0, 866, 951), "DEFG": (891, 0, 1928, 951)}
    """
    os.makedirs(panel_dir, exist_ok=True)
    img = Image.open(f"{fig_dir}/fig{fig_num}.png")
    for name, box in panels.items():
        cropped = img.crop(box)
        out = f"{panel_dir}/fig{fig_num}_{name}.png"
        cropped.save(out)
        size = os.path.getsize(out)
        print(f"  fig{fig_num}_{name}.png: {cropped.size[0]}x{cropped.size[1]} ({size} bytes)")
```

调用示例（以 Li2022 Fig 1 为例）：

```python
fig_dir = "papers/Li2022/figures"
panel_dir = "papers/Li2022/figures/panels"

crop_panels(fig_dir, panel_dir, 1, {
    "A":    (0,   0,    866, 951),
    "DEFG": (891, 0,    1928, 951),
    "B":    (0,   1007, 511, 1494),
    "C":    (566, 1007, 1928, 1494),
    "H":    (0,   1543, 1928, 2000),
})
```

## 第四步：可视化验证

```python
from PIL import Image, ImageDraw, ImageFont

COLORS = ["#E74C3C", "#2980B9", "#27AE60", "#8E44AD", "#E67E22", "#1ABC9C"]
LINE_W = 5

def draw_boundaries(img_path, panels, out_path):
    """panels: dict of {name: (x1, y1, x2, y2)}"""
    img = Image.open(img_path).convert('RGB')
    draw = ImageDraw.Draw(img)
    try:
        font = ImageFont.truetype("/System/Library/Fonts/Helvetica.ttc", 28)
    except Exception:
        font = ImageFont.load_default()

    for i, (name, box) in enumerate(panels.items()):
        c = COLORS[i % len(COLORS)]
        x1, y1, x2, y2 = box
        for j in range(LINE_W):
            draw.rectangle([x1 + j, y1 + j, x2 - j, y2 - j], outline=c)
        bb = draw.textbbox((0, 0), name, font=font)
        tw, th = bb[2] - bb[0], bb[3] - bb[1]
        tx, ty = x1 + 8, y1 + 8
        draw.rectangle([tx - 2, ty - 2, tx + tw + 4, ty + th + 4],
                        fill='white', outline=c)
        draw.text((tx, ty), name, fill=c, font=font)
    img.save(out_path)
```

### 验证流程

1. 对每张 Figure 调用 `draw_boundaries` 生成 `fig{N}_verify.png`
2. 用 Read 工具逐张查看验证图，确认彩色边框准确框住对应 panel
3. 如有问题：
   - 框太大（侵入相邻 panel）→ 缩小对应边
   - 框太小（截断内容）→ 检查是否选错了间隙，或 panel 内部有大空白被误判为分界
   - 框位置完全错误 → 重新看图修正 LLM 分组
4. 修正后重新裁剪（第三步）并重新验证
5. 全部确认后删除验证图：`rm papers/{Author}{Year}/figures/panels/*_verify.png`

## 经验教训（来自实测）

| 问题 | 原因 | 解决方法 |
|------|------|---------|
| Scaffold N50 柱状图被截断 | 内部边框线被误判为 panel 分界 | 在粗坐标附近多检查几个间隙候选 |
| fig4 被切成 11 块 | 数字表格的行间空白被当成 panel 间隙 | LLM 先确定"应该有几个分区" |
| OCR 漏检 panel 标签 | Tesseract 对粗体单字母识别率仅 60-70% | 不依赖 OCR，以 LLM 视觉为主 |
| 纯像素分析过度切分 | 无语义理解 | 必须 LLM 先定分组，再用像素精修 |