Ho costruito una pipeline che processa video YouTube mentre dormo

Stamattina alle 7:07, mentre facevo colazione, il mio sistema ha processato 3 video YouTube che avevo salvato ieri sera.

Non li ho guardati. Non ho letto riassunti. Quando ho aperto Obsidian (la mia app di note in markdown locale) alle 8:00, c'erano già 3 note strutturate: idea centrale, applicabilità per ciascuno dei miei quattro business, un suggerimento di SOP, e un giudizio onesto: sì, vale il tuo tempo / scorri in diagonale / salta.

Il sistema gira ogni mattina alle 7:07. Nessuno lo guarda. Non costa niente in abbonamenti.

Il problema che stavo cercando di risolvere

Seguivo troppi canali YouTube. Non per FOMO — perché nel settore AI e automazione ogni settimana escono idee che potrebbero essere direttamente applicabili a Extension Lounge, a MAD UNITE, a PDP PROJECT, o ai sistemi che costruisco per i clienti.

Il collo di bottiglia era uno solo: per sapere se un video di 45 minuti conteneva un'idea utile, dovevo guardare il video di 45 minuti.

Oppure potevo costruire qualcosa che lo facesse per me.

Come funziona

Tre pezzi, ognuno fa una cosa sola.

Il notebook: ho un notebook su NotebookLM che si chiama "Video Inbox". Quando trovo un video che potrebbe valere, lo aggiungo lì come sorgente. 30 secondi, fatto. NotebookLM indicizza la trascrizione automaticamente via Gemini.

Il task schedulato: ogni mattina alle 7:07 parte un task in CoWork OS (il mio sistema operativo agentivo su Mac). Il task legge il notebook, confronta le sorgenti con un file locale chiamato processed.json, identifica i video non ancora analizzati, e per ognuno fa una query a NotebookLM tramite MCP (un connettore standard che fa parlare Claude con app esterne) con un filtro strutturato che ho costruito e testato.

Il vault Obsidian: l'output di ogni query diventa una nota markdown nel mio vault, con frontmatter completo (titolo, URL, data, ventures applicabili, priorità, verdict) e 7 sezioni fisse: idea centrale, applicabilità per venture, lente Work the System, automazione n8n, priorità e prima azione, citazioni, giudizio onesto.

Il task è autosufficiente. Non mi chiede conferme. Non mi manda notifiche. Quando arrivo al computer le note sono già lì.

La scelta che non ho fatto

Prima di costruire questo sistema, ho valutato uno stack più complesso: bradautomates/claude-video, uno strumento che scarica il video, estrae frame ogni N secondi, e analizza anche il contenuto visivo: grafici, slide, demo su schermo.

L'ho scartato. Il motivo è semplice: ha un limite di accuratezza sui video sopra i 10 minuti. La maggior parte dei video che voglio analizzare dura 20-40 minuti.

Quindi la scelta è stata: trascrizione-only con NotebookLM (che gestisce i video lunghi nativamente) invece di frame extraction con copertura parziale. Ho chiamato questa Fase 1. La Fase 2, con l'integrazione dei frame, è rimasta fuori scope: esplicitamente, per iscritto, nel brief del progetto.

Lo dico perché la tendenza naturale quando si progetta questo tipo di sistema è cercare la soluzione completa. Frame extraction, reader integrations, cross-notebook queries, automazione n8n... ogni aggiunta suona ragionevole. Ma ogni aggiunta ritarda l'avvio. La Fase 1 semplice è operativa da 3 giorni. La Fase 2 completa non sarebbe ancora pronta.

I numeri reali

Dal 10 maggio (tre giorni fa) il sistema ha processato 23 video in 5 run: uno manuale il primo giorno per testare la pipeline, poi quattro automatici alle 7:07 nei giorni successivi. 7 video il secondo giorno, 8 il terzo, 4 il quarto, 3 stamattina.

Una nota generata su "You're Missing YouTube's Biggest Opportunity Right Now" ha prodotto una SOP a 5 step per ingegnerizzare gli script dei video YouTube (combination method, tension engine ogni 60-90 secondi, end screen che reindirizza tutto verso un singolo Pillar Video). L'ho già aggiunta ai task del progetto MAD UNITE. Un'altra, su un video di sistema di memoria con Pinecone e RAG (una tecnica per far pescare le risposte al modello AI da documenti tuoi invece di inventarle), ha identificato un'architettura complementare al mio sistema Operativo di Vita che non avevo considerato.

Questi due soli output giustificano l'intera costruzione del sistema.

Quello che il sistema non fa ancora

Due limitazioni che ho documentato nella nota di ogni video:

Timestamp assenti. NotebookLM restituisce le citazioni dalla trascrizione come testo, senza il minuto e secondo corrispondente nel video. Il filtro v1 richiedeva [MM:SS]. Ma il MCP non li espone. Ogni nota ha un avviso esplicito: le citazioni sono testuali ma non verificate puntualmente. Prima di usarle in un contenuto pubblico, controlla.

Sources_used inaffidabile. In circa 3 query su 4, NotebookLM non restituisce i riferimenti alle sorgenti usate nella risposta. Non so se ha letto la trascrizione di quel video specifico o se ha interpolato da altri. Le note con questo problema hanno un flag low_confidence: true nel frontmatter. Non le ignoro: le leggo con più cautela.

Entrambi sono difetti del MCP, non del sistema. Li ho documentati invece di nasconderli perché sono rilevanti per chiunque costruisca qualcosa di simile.

Cosa viene dopo

Il filtro v2 del task schedulato è già scritto: aggiunge un retry automatico quando sources_used è vuoto e inserisce l'URL del video direttamente nella nota (in v1 era [TBD], in v2 viene recuperato via ricerca web con il titolo). Da applicare questa settimana.

La Fase 2 rimane futura: Reader e Readwise come inbox secondario per articoli e podcast, cross-notebook queries con i notebook esistenti (ho già indicizzato Work the System, Tiago Forte, n8n), integrazione con n8n per orchestrazione. Nessuna data: prima voglio 4-6 settimane di dati reali dalla Fase 1.

Il sistema che ho descritto non è un esperimento. Gira ogni mattina. Funziona.

Parti da qui se vuoi provarlo: apri NotebookLM, crea un notebook chiamato "Video Inbox", aggiungi un video YouTube come sorgente, poi fai questa query: "Dammi l'idea centrale del video, in cosa è applicabile al mio business, e se vale il mio tempo. Sii diretto." È la versione manuale di quello che oggi gira automatico. Funziona in 10 minuti. Una volta capito il pattern, l'automazione è il passo dopo.

Se vuoi approfondire come funziona il filtro strutturato, com'è costruito il task schedulato, o come ho scelto il MCP server tra le tre opzioni disponibili, scrivimi in risposta a questa email. Le prossime uscite del pillar AI & Automation le costruisco anche sulle domande che ricevo.

Venerdì torno con Build in Public.

Vuoi il prossimo articolo?
Iscriviti alla newsletter — 3 volte a settimana, lun/mer/ven.

Ho costruito una pipeline che processa video YouTube mentre dormo

Il problema che stavo cercando di risolvere

Come funziona

La scelta che non ho fatto

I numeri reali

Quello che il sistema non fa ancora

Cosa viene dopo

Keep reading

MAD ACADEMY

Home

(Per)Corsi