NanoSkill
提交你的 Skill

影片編輯代理技能

作者browser-use9KGitHub 星標GitHub

使用 Claude Code 的 AI 編輯影片,自動化剪除填充詞、調色和字幕燒錄等任務。簡化您的影片製作工作流程,獲得精美的最終 MP4 檔案。

影片安全掃描通過
結果預覽

完整 Demo

觀看一段訪談影片如何被精煉成社群媒體短片,改善節奏、加上字幕,並增強音訊。

開始使用

完成第一個任務

  1. 簡易示範使用影片編輯代理技能的第一步
    01

    步驟 1:安裝

    將技能新增到您的代理中。

  2. 使用影片編輯代理技能的第二步驟的簡單示範
    02

    步驟 2:上傳您的影片

    上傳訪談、教學或產品影片,並描述您想要的編輯。

  3. 影片編輯代理技能展示
    03

    步驟 3:檢視輸出

    接收編輯後的版本,並驗證字幕、轉場和節奏。

安裝指令

$ npx skills add https://github.com/browser-use/video-use

關於

video-use 引入了一種創新的影片編輯方法,利用 Claude Code 這類 AI 代理來自動化繁瑣耗時的任務。這個開源工具讓使用者只需將原始素材放入資料夾,與 AI 代理互動,即可獲得精美的 `final.mp4` 輸出。它的設計旨在簡化各種內容類型的影片編輯流程,從談話頭像到蒙太奇,透過智慧化處理剪輯、調色和字幕燒錄。

該系統的運作方式是透過詳細的音訊轉錄和隨選視覺合成來讀取影片內容,而非處理每一幀畫面。這種方法為 AI 提供了詞邊界精準度的編輯能力,同時大幅降低運算開銷。主要功能包括自動移除填充詞和靜默段落、套用智慧調色、確保無縫的音訊轉場,以及將可自訂的字幕直接燒錄到影片中。

除了自動化,video-use 還包含一個強大的自我評估管線。在初始處理後,AI 會檢視每個剪輯點的渲染輸出,以檢測並修正視覺跳躍或音訊爆音等瑕疵。這確保了最終影片在呈現給使用者之前達到高製作標準。該工具還會保留工作階段記憶體,讓使用者能從上次離開處精確繼續編輯工作階段,提升工作流程效率和一致性。

核心功能

它的強大之處

  • 自動填充詞移除

    自動剪除填充詞,例如「嗯」、「呃」、話語起頭錯誤以及片段之間的靜默段落,以獲得更乾淨的音訊。

  • 智慧調色

    自動為每個影片段落調色,提供暖色電影感、中性衝擊感或自訂 FFmpeg 指令鏈等選項,以維持一致的視覺品質。

  • 無縫音訊淡變

    在每個剪輯處套用 30 毫秒的音訊淡變,以消除爆音並確保段落之間的平滑轉場。

  • 可自訂字幕燒錄

    以可自訂的風格將字幕直接燒錄到您的影片中,預設為 2 字大寫區塊,提升可及性和參與度。

  • AI 驅動的自我評估

    系統在每個剪輯邊界自我評估渲染輸出,在顯示預覽前捕捉視覺跳躍、音訊爆音和隱藏字幕。

使用場景

什麼時候適合使用

  • 製作專業談話頭像影片

    透過移除停頓和填充詞,快速精煉談話頭像素材,確保簡潔且引人入勝的呈現。

  • 建立動態影片蒙太奇

    透過自動化剪輯、調色和動畫覆疊,輕鬆組合蒙太奇,呈現精緻專業的外觀。

  • 簡化教學影片製作

    透過自動化重複的編輯任務,加速教學影片的製作,讓創作者專注於內容。

SKILL.md

video-use

隆重介紹 video-use — 使用 Claude Code 編輯影片。100% 開源。

將原始素材放入資料夾,與 Claude Code 對話,即可獲得 final.mp4。適用於任何內容 — 談話頭像、蒙太奇、教學、旅遊、訪談 — 無需預設或選單。

功能特色

  • 剪除填充詞 (ummuh、話語起頭錯誤) 和片段間的靜默段落
  • 自動調色每個段落(暖色電影感、中性衝擊感,或任何自訂的 ffmpeg 指令鏈)
  • 每次剪輯處進行 30 毫秒的音訊淡變,讓您絕不會聽到爆音
  • 依您風格燒錄字幕 — 預設為 2 字大寫區塊,完全可自訂
  • 產生動畫覆疊透過 HyperFramesRemotionManim 或 PIL — 在平行子代理中生成,每個動畫一個子代理
  • 在顯示任何內容前,自我評估每個剪輯邊界的渲染輸出
  • project.md 中儲存工作階段記憶,下週的工作階段就能從上次離開處接續

設定提示

貼到 Claude Code、Codex、Hermes、Openclaw 或任何有 shell 權限的代理中:

幫我設定 https://github.com/browser-use/video-use。

請先閱讀 install.md 來安裝此儲存庫,連接 ffmpeg,向您正在執行的代理註冊技能,並設定 ElevenLabs API 金鑰 — 需要時請我貼上。然後閱讀 SKILL.md 了解日常使用,並且總是閱讀 helpers/ 因為那是編輯腳本所在位置。安裝完成後,請不要自行轉錄任何內容 — 只要告訴我準備好了,等我將素材放入資料夾。

代理會處理複製、依賴項、技能註冊,並提示您提供 ElevenLabs API 金鑰一次(可在 elevenlabs.io/app/settings/api-keys 取得)。

然後將您的代理指向原始片段的資料夾:

cd /path/to/your/videos
claude    # 或 codex、hermes 等

若要從您自己的 VPS 或 Telegram 進行持續編輯,可透過 Browser Use Box 執行代理。觀看 15 秒展示影片

在會話中:

將這些編輯成發布影片

它會盤點來源,提出策略,等待您的確認,然後在您的來源旁邊產生 edit/final.mp4。所有輸出都存放在 <videos_dir>/edit/ — 技能目錄保持整潔。

手動安裝

如果您更想手動操作:

# 1. 複製並建立符號連結到您的代理技能目錄
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use        # Claude Code
# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use       # Codex

# 2. 安裝依賴項
cd ~/Developer/video-use
uv sync                         # 或:pip install -e .
brew install ffmpeg             # 必要
brew install yt-dlp             # 可選,用於下載線上來源

# 3. 新增您的 ElevenLabs API 金鑰
cp .env.example .env
$EDITOR .env                    # ELEVENLABS_API_KEY=...

運作原理

LLM 從不看影片。它閱讀影片 — 透過兩個層次,共同提供它精確到詞邊界剪輯所需的一切。

<p align="center"> <img src="https://file.nanoskill.ai/timeline-view.svg" alt="timeline_view 合成 — 膠卷條 + 說話者軌 + 波形 + 詞標籤 + 靜默間隔剪輯候選" width="100%"> </p>

第一層 — 音訊轉錄(始終載入)。 每個來源呼叫一次 ElevenLabs Scribe,提供詞級時間戳、說話者區分和音訊事件((笑聲)(掌聲)(嘆息))。所有片段打包成一個約 12KB 的 takes_packed.md — 這是 LLM 的主要閱讀視圖。

## C0103  (時長:43.0 秒,8 個片語)
  [002.52-005.36] S0 網頁代理所做的九成都是完全浪費的。
  [006.08-006.74] S0 我們修正了這個問題。

第二層 — 視覺合成(隨選)。 timeline_view 為任何時間範圍產生膠卷條 + 波形 + 詞標籤的 PNG。僅在決策點呼叫 — 不清楚的暫停、重拍比較、剪輯點合理性檢查。

天真作法:30,000 幀 × 1,500 標記 = 4500 萬標記的雜訊。 Video Use:12KB 文字 + 少量 PNG

與 browser-use 提供 LLM 結構化 DOM 而非螢幕截圖的概念相同 — 但適用於影片。

管線

轉錄 ──> 打包 ──> LLM 推論 ──> EDL ──> 渲染 ──> 自評
                                              │
                                              └─ 有問題?修正 + 重新渲染(最多 3 次)

自評迴圈在每個剪輯邊界對_已渲染輸出_執行 timeline_view — 捕捉視覺跳躍、音訊爆音、隱藏字幕。只有通過後才會顯示預覽。

設計原則

  1. 文字 + 隨選視覺。 不傾印幀。轉錄是表面。
  2. 音訊為主,視覺為輔。 剪輯源自話語邊界和靜默間隔。
  3. 詢問 → 確認 → 執行 → 自評 → 保留。 未經策略核准絕不觸及剪輯。
  4. 對內容類型零假設。 觀察、詢問,然後編輯。
  5. 12 條硬性規則,其餘藝術自由。 製作正確性不容妥協。品味則可。

請參閱 SKILL.md 了解完整的製作規則和編輯技藝。

常見問題