video-use
隆重介紹 video-use — 使用 Claude Code 編輯影片。100% 開源。
將原始素材放入資料夾,與 Claude Code 對話,即可獲得 final.mp4。適用於任何內容 — 談話頭像、蒙太奇、教學、旅遊、訪談 — 無需預設或選單。
功能特色
- 剪除填充詞 (
umm、uh、話語起頭錯誤) 和片段間的靜默段落 - 自動調色每個段落(暖色電影感、中性衝擊感,或任何自訂的 ffmpeg 指令鏈)
- 每次剪輯處進行 30 毫秒的音訊淡變,讓您絕不會聽到爆音
- 依您風格燒錄字幕 — 預設為 2 字大寫區塊,完全可自訂
- 產生動畫覆疊透過 HyperFrames、Remotion、Manim 或 PIL — 在平行子代理中生成,每個動畫一個子代理
- 在顯示任何內容前,自我評估每個剪輯邊界的渲染輸出
- 在
project.md中儲存工作階段記憶,下週的工作階段就能從上次離開處接續
設定提示
貼到 Claude Code、Codex、Hermes、Openclaw 或任何有 shell 權限的代理中:
幫我設定 https://github.com/browser-use/video-use。
請先閱讀 install.md 來安裝此儲存庫,連接 ffmpeg,向您正在執行的代理註冊技能,並設定 ElevenLabs API 金鑰 — 需要時請我貼上。然後閱讀 SKILL.md 了解日常使用,並且總是閱讀 helpers/ 因為那是編輯腳本所在位置。安裝完成後,請不要自行轉錄任何內容 — 只要告訴我準備好了,等我將素材放入資料夾。
代理會處理複製、依賴項、技能註冊,並提示您提供 ElevenLabs API 金鑰一次(可在 elevenlabs.io/app/settings/api-keys 取得)。
然後將您的代理指向原始片段的資料夾:
cd /path/to/your/videos
claude # 或 codex、hermes 等
若要從您自己的 VPS 或 Telegram 進行持續編輯,可透過 Browser Use Box 執行代理。觀看 15 秒展示影片。
在會話中:
將這些編輯成發布影片
它會盤點來源,提出策略,等待您的確認,然後在您的來源旁邊產生 edit/final.mp4。所有輸出都存放在 <videos_dir>/edit/ — 技能目錄保持整潔。
手動安裝
如果您更想手動操作:
# 1. 複製並建立符號連結到您的代理技能目錄
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # Claude Code
# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use # Codex
# 2. 安裝依賴項
cd ~/Developer/video-use
uv sync # 或:pip install -e .
brew install ffmpeg # 必要
brew install yt-dlp # 可選,用於下載線上來源
# 3. 新增您的 ElevenLabs API 金鑰
cp .env.example .env
$EDITOR .env # ELEVENLABS_API_KEY=...
運作原理
LLM 從不看影片。它閱讀影片 — 透過兩個層次,共同提供它精確到詞邊界剪輯所需的一切。
<p align="center"> <img src="https://file.nanoskill.ai/timeline-view.svg" alt="timeline_view 合成 — 膠卷條 + 說話者軌 + 波形 + 詞標籤 + 靜默間隔剪輯候選" width="100%"> </p>第一層 — 音訊轉錄(始終載入)。 每個來源呼叫一次 ElevenLabs Scribe,提供詞級時間戳、說話者區分和音訊事件((笑聲)、(掌聲)、(嘆息))。所有片段打包成一個約 12KB 的 takes_packed.md — 這是 LLM 的主要閱讀視圖。
## C0103 (時長:43.0 秒,8 個片語)
[002.52-005.36] S0 網頁代理所做的九成都是完全浪費的。
[006.08-006.74] S0 我們修正了這個問題。
第二層 — 視覺合成(隨選)。 timeline_view 為任何時間範圍產生膠卷條 + 波形 + 詞標籤的 PNG。僅在決策點呼叫 — 不清楚的暫停、重拍比較、剪輯點合理性檢查。
天真作法:30,000 幀 × 1,500 標記 = 4500 萬標記的雜訊。 Video Use:12KB 文字 + 少量 PNG。
與 browser-use 提供 LLM 結構化 DOM 而非螢幕截圖的概念相同 — 但適用於影片。
管線
轉錄 ──> 打包 ──> LLM 推論 ──> EDL ──> 渲染 ──> 自評
│
└─ 有問題?修正 + 重新渲染(最多 3 次)
自評迴圈在每個剪輯邊界對_已渲染輸出_執行 timeline_view — 捕捉視覺跳躍、音訊爆音、隱藏字幕。只有通過後才會顯示預覽。
設計原則
- 文字 + 隨選視覺。 不傾印幀。轉錄是表面。
- 音訊為主,視覺為輔。 剪輯源自話語邊界和靜默間隔。
- 詢問 → 確認 → 執行 → 自評 → 保留。 未經策略核准絕不觸及剪輯。
- 對內容類型零假設。 觀察、詢問,然後編輯。
- 12 條硬性規則,其餘藝術自由。 製作正確性不容妥協。品味則可。
請參閱 SKILL.md 了解完整的製作規則和編輯技藝。


