macOSpilot è un assistente Open Source per macOS basato sull’Intelligenza Artificiale e sulle API di OpenAI

macOSpilot è una piattaforma Open Source progettata per fornire risposte immediate alle domande degli utenti su qualsiasi argomento e all’interno di qualsiasi applicazione. Per accedere a questa funzionalità, basta utilizzare una scorciatoia da tastiera, senza la necessità di aprire nuove finestre, e attivare l’assistente. Una volta attivato, è possibile formulare domande direttamente nel contesto dell’applicazione in uso, ricevendo risposte sia visive che uditive in pochi secondi.

Al momento dell’attivazione, macOSpilot cattura uno screenshot della finestra attiva e lo invia insieme a una trascrizione della domanda a OpenAI GPT Vision. L’output generato viene poi visualizzato in formato testo e convertito in un’uscita audio attraverso il supporto al text-to-speech di OpenAI. Questo processo consente agli utenti di ottenere informazioni in modo rapido e intuitivo, integrando la risposta direttamente nell’applicazione in uso.

Le funzionalità di macOSPilot

macOSPilot è in grado di funzionare con qualsiasi applicazione presente su macOS, rendendola agnostica rispetto all’app specifica in uso. Le risposte fornite dall’assistente vengono visualizzate tramite una piccola finestra sovrapposta nella parte superiore della finestra attiva, e il contenuto viene anche restituito sotto forma di traccia audio.

La piattaforma si basa sul runtime JavaScript Node.JS e sfrutta Electron. L’installazione coinvolge l’installazione di Node.JS e delle dipendenze necessarie, seguita dalla configurazione del file “index.js” che gestisce il funzionamento dell’applicazione. Una volta completate queste fasi, è possibile eseguire yarn da terminale o utilizzare Electron per la pacchettizzazione, seguendo le istruzioni fornite nel repository.

È importante notare che, essendo una soluzione operante in background attraverso le API di OpenAI, l’utilizzo di macOSPilot richiede la disponibilità di una API key.

macOSpilot e API OpenAI

macOSpilot utilizza il microfono per trasmettere richieste vocali alla Whisper API di OpenAI. Le trascrizioni sono elaborate mediante la Vision API, gestita dal team guidato da Sam Altman, insieme a uno screenshot catturato. Le risposte, visualizzate in un overlay, sono generate attraverso la Vision API.

Il sistema conserva localmente screenshot, registrazioni audio e le più recenti risposte text-to-speech per scopi di debugging. I dati vengono salvati in un file con un nome costante, sempre sovrascritto, ma non eliminato automaticamente al termine o alla rimozione dell’applicazione.

La scorciatoia predefinita per avviare l’assistente è “Command+Shift+'”, ma può essere personalizzata.