什麼是 video-use？

video-use 是一個開源工具，讓您可以使用 Claude Code 等 AI 代理來編輯影片。它自動化常見的編輯任務，例如剪除填充詞、調色和新增字幕。

video-use 如何在不讓 LLM 觀看影片的情況下運作？

LLM 透過兩個層次來讀取影片：具有詞級時間戳和說話者區分的音訊轉錄，以及用於決策點的隨選視覺合成（膠卷條 + 波形 + 詞標籤 PNGs）。這種方法最小化了標記使用量，同時提供精確的編輯能力。

我可以使用 video-use 編輯哪些類型的影片？

video-use 設計用於處理任何內容類型，包括談話頭像、蒙太奇、教學、旅遊影片部落格和訪談。它能適應您的素材，無需預設或選單。

video-use 的核心功能有哪些？

主要功能包括剪除填充詞和靜默段落、自動調色、30 毫秒音訊淡變、燒錄可自訂字幕、產生動畫覆疊、自我評估渲染輸出，以及儲存工作階段記憶。

使用 video-use 我需要 ElevenLabs API 金鑰嗎？

是，需要 ElevenLabs API 金鑰來進行音訊轉錄和說話者區分，這對工具的功能至關重要。在設定過程中，系統會提示您提供。

我可以手動安裝 video-use 而不使用設定提示嗎？

可以，您可以透過複製儲存庫、將其符號連結到代理的技能目錄、安裝 FFmpeg 等依賴項，並在 .env 檔案中設定您的 ElevenLabs API 金鑰來進行手動安裝。

影片編輯代理技能

結果預覽

完整 Demo

觀看一段訪談影片如何被精煉成社群媒體短片，改善節奏、加上字幕，並增強音訊。

開始使用

完成第一個任務

01
步驟 1：安裝
將技能新增到您的代理中。
02
步驟 2：上傳您的影片
上傳訪談、教學或產品影片，並描述您想要的編輯。
03
步驟 3：檢視輸出
接收編輯後的版本，並驗證字幕、轉場和節奏。

關於

video-use 引入了一種創新的影片編輯方法，利用 Claude Code 這類 AI 代理來自動化繁瑣耗時的任務。這個開源工具讓使用者只需將原始素材放入資料夾，與 AI 代理互動，即可獲得精美的 `final.mp4` 輸出。它的設計旨在簡化各種內容類型的影片編輯流程，從談話頭像到蒙太奇，透過智慧化處理剪輯、調色和字幕燒錄。

該系統的運作方式是透過詳細的音訊轉錄和隨選視覺合成來讀取影片內容，而非處理每一幀畫面。這種方法為 AI 提供了詞邊界精準度的編輯能力，同時大幅降低運算開銷。主要功能包括自動移除填充詞和靜默段落、套用智慧調色、確保無縫的音訊轉場，以及將可自訂的字幕直接燒錄到影片中。

除了自動化，video-use 還包含一個強大的自我評估管線。在初始處理後，AI 會檢視每個剪輯點的渲染輸出，以檢測並修正視覺跳躍或音訊爆音等瑕疵。這確保了最終影片在呈現給使用者之前達到高製作標準。該工具還會保留工作階段記憶體，讓使用者能從上次離開處精確繼續編輯工作階段，提升工作流程效率和一致性。

核心功能

它的強大之處

自動填充詞移除
自動剪除填充詞，例如「嗯」、「呃」、話語起頭錯誤以及片段之間的靜默段落，以獲得更乾淨的音訊。
智慧調色
自動為每個影片段落調色，提供暖色電影感、中性衝擊感或自訂 FFmpeg 指令鏈等選項，以維持一致的視覺品質。
無縫音訊淡變
在每個剪輯處套用 30 毫秒的音訊淡變，以消除爆音並確保段落之間的平滑轉場。
可自訂字幕燒錄
以可自訂的風格將字幕直接燒錄到您的影片中，預設為 2 字大寫區塊，提升可及性和參與度。
AI 驅動的自我評估
系統在每個剪輯邊界自我評估渲染輸出，在顯示預覽前捕捉視覺跳躍、音訊爆音和隱藏字幕。

使用場景

什麼時候適合使用

製作專業談話頭像影片
透過移除停頓和填充詞，快速精煉談話頭像素材，確保簡潔且引人入勝的呈現。
建立動態影片蒙太奇
透過自動化剪輯、調色和動畫覆疊，輕鬆組合蒙太奇，呈現精緻專業的外觀。
簡化教學影片製作
透過自動化重複的編輯任務，加速教學影片的製作，讓創作者專注於內容。

SKILL.md

video-use

隆重介紹 video-use — 使用 Claude Code 編輯影片。100% 開源。

將原始素材放入資料夾，與 Claude Code 對話，即可獲得 final.mp4。適用於任何內容 — 談話頭像、蒙太奇、教學、旅遊、訪談 — 無需預設或選單。

功能特色

剪除填充詞 (umm、uh、話語起頭錯誤) 和片段間的靜默段落
自動調色每個段落（暖色電影感、中性衝擊感，或任何自訂的 ffmpeg 指令鏈）
每次剪輯處進行 30 毫秒的音訊淡變，讓您絕不會聽到爆音
依您風格燒錄字幕 — 預設為 2 字大寫區塊，完全可自訂
產生動畫覆疊透過 HyperFrames、Remotion、Manim 或 PIL — 在平行子代理中生成，每個動畫一個子代理
在顯示任何內容前，自我評估每個剪輯邊界的渲染輸出
在 project.md 中儲存工作階段記憶，下週的工作階段就能從上次離開處接續

設定提示

貼到 Claude Code、Codex、Hermes、Openclaw 或任何有 shell 權限的代理中：

幫我設定 https://github.com/browser-use/video-use。

請先閱讀 install.md 來安裝此儲存庫，連接 ffmpeg，向您正在執行的代理註冊技能，並設定 ElevenLabs API 金鑰 — 需要時請我貼上。然後閱讀 SKILL.md 了解日常使用，並且總是閱讀 helpers/ 因為那是編輯腳本所在位置。安裝完成後，請不要自行轉錄任何內容 — 只要告訴我準備好了，等我將素材放入資料夾。

代理會處理複製、依賴項、技能註冊，並提示您提供 ElevenLabs API 金鑰一次（可在 elevenlabs.io/app/settings/api-keys 取得）。

然後將您的代理指向原始片段的資料夾：

cd /path/to/your/videos
claude    # 或 codex、hermes 等

若要從您自己的 VPS 或 Telegram 進行持續編輯，可透過 Browser Use Box 執行代理。觀看 15 秒展示影片。

在會話中：

將這些編輯成發布影片

它會盤點來源，提出策略，等待您的確認，然後在您的來源旁邊產生 edit/final.mp4。所有輸出都存放在 <videos_dir>/edit/ — 技能目錄保持整潔。

手動安裝

如果您更想手動操作：

# 1. 複製並建立符號連結到您的代理技能目錄
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use        # Claude Code
# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use       # Codex

# 2. 安裝依賴項
cd ~/Developer/video-use
uv sync                         # 或：pip install -e .
brew install ffmpeg             # 必要
brew install yt-dlp             # 可選，用於下載線上來源

# 3. 新增您的 ElevenLabs API 金鑰
cp .env.example .env
$EDITOR .env                    # ELEVENLABS_API_KEY=...

運作原理

LLM 從不看影片。它閱讀影片 — 透過兩個層次，共同提供它精確到詞邊界剪輯所需的一切。

第一層 — 音訊轉錄（始終載入）。 每個來源呼叫一次 ElevenLabs Scribe，提供詞級時間戳、說話者區分和音訊事件（(笑聲)、(掌聲)、(嘆息)）。所有片段打包成一個約 12KB 的 takes_packed.md — 這是 LLM 的主要閱讀視圖。

## C0103  （時長：43.0 秒，8 個片語）
  [002.52-005.36] S0 網頁代理所做的九成都是完全浪費的。
  [006.08-006.74] S0 我們修正了這個問題。

第二層 — 視覺合成（隨選）。 timeline_view 為任何時間範圍產生膠卷條 + 波形 + 詞標籤的 PNG。僅在決策點呼叫 — 不清楚的暫停、重拍比較、剪輯點合理性檢查。

天真作法：30,000 幀 × 1,500 標記 = 4500 萬標記的雜訊。 Video Use：12KB 文字 + 少量 PNG。

與 browser-use 提供 LLM 結構化 DOM 而非螢幕截圖的概念相同 — 但適用於影片。

管線

轉錄 ──> 打包 ──> LLM 推論 ──> EDL ──> 渲染 ──> 自評
                                              │
                                              └─ 有問題？修正 + 重新渲染（最多 3 次）

自評迴圈在每個剪輯邊界對_已渲染輸出_執行 timeline_view — 捕捉視覺跳躍、音訊爆音、隱藏字幕。只有通過後才會顯示預覽。

設計原則

文字 + 隨選視覺。 不傾印幀。轉錄是表面。
音訊為主，視覺為輔。 剪輯源自話語邊界和靜默間隔。
詢問 → 確認 → 執行 → 自評 → 保留。 未經策略核准絕不觸及剪輯。
對內容類型零假設。 觀察、詢問，然後編輯。
12 條硬性規則，其餘藝術自由。 製作正確性不容妥協。品味則可。

請參閱 SKILL.md 了解完整的製作規則和編輯技藝。

完整 Demo

完成第一個任務

步驟 1：安裝

步驟 2：上傳您的影片

步驟 3：檢視輸出

關於

它的強大之處

自動填充詞移除

智慧調色

無縫音訊淡變

可自訂字幕燒錄

AI 驅動的自我評估