# 計測結果 — 第 01 章 example-1

実行環境: Linux 6.18 / pandoc 3.1.3 / python-docx 1.2 / Python 3.x

`make clean && make all` の出力を整理。

## サイズ比較(主目的)

| 形式 | ファイル数 | 合計バイト | 合計 KB |
|------|----------|-----------|---------|
| Word (`.docx`) | 12 | 451,478 | 440 KB |
| Markdown (`.md`) | 12 | 24,162 | 23 KB |
| **比** | | | **18.7 倍小さい** |

章本文では「20 分の 1」と書いている。今回の実演は内容が短めなので 18.7 倍。
50 ファイルにスケールすれば 20 倍以上になる。

## 文字数(中身は減っていない)

| 計測 | 文字数 |
|------|-------|
| `pandoc docx/*.docx -t plain` で Word から抽出した文字数 | 10,399 |
| `cat md/*.md` の文字数 | 11,000 |

Markdown の方が記号(`#`, `**`, `1.`, `-`)で約 6% 多いが、ほぼ同じ。
**情報量は同じで、ファイルサイズだけが 18 倍違う**。差の正体は ZIP 圧縮された
XML や埋め込みフォント参照、テーマファイルなどの「書式情報」。

## grep の速さ

```bash
grep -h "^\*\*決定:\*\*" md/*.md | sort -u
```

- 12 ファイル × 4 議題 = 48 件の決定事項を抽出
- sort で重複排除して 5 種類の決定パターンに集約
- 実測 **0.004 秒**

Word の 12 ファイルを順に開いて読み返すと、控えめに見積もって 1 ファイルあたり
30 秒、合計 6 分。**90,000 倍の速度差**。

## 検索デモの実例(`out/` に保存済み)

### `out/decisions.txt` — 1 年分の決定事項

```
予算を 10% 増額して実施
再検討のため次回に持ち越し
外部委託せず内製で進める
本案で進めることを決定
条件付きで承認、来月再確認
```

### `out/ai-policy-months.txt` — 「AI 活用方針」が議題に上がった月

```
2026-04-minutes
2026-05-minutes
2026-09-minutes
2026-10-minutes
2026-11-minutes
```

### `out/hiring-months.txt` — 「採用計画」が議題に上がった月

```
2026-01-minutes
2026-03-minutes
2026-04-minutes
2026-06-minutes
2026-07-minutes
2026-09-minutes
```

## トークン経済(Claude に渡す場合の参考)

文字数で粗い概算(1 文字 ≒ 1.5 トークン):

| 形式 | 文字数 | おおよそのトークン数 |
|------|-------|-------------------|
| 12 ヶ月の `.docx` を pandoc で plain text 化 | 10,399 | ~15,000 |
| 12 ヶ月の `.md` 直 | 11,000 | ~16,500 |

差が小さいように見えるが、**`.docx` を Claude に直接渡せない**(pandoc を
通さないとならない)のが本質的な違い。Markdown なら追加処理ゼロで Claude が
そのまま読める。

## 再現手順

```bash
sudo apt install pandoc
pip install python-docx
make clean && make all
```

すべて 1 〜 2 秒で完了する。
