
Jika anda berfikir untuk menubuhkan a Pembantu AI dengan Raspberry PiAnda berada di tempat yang betul: hari ini, gabungan model suara, penglihatan dan bahasa sudah berdaya maju dalam SBC kecil ini, kedua-duanya dengan Raspberry Pi 4 dan Raspberry Pi 5 yang lebih berkuasa. Terdapat projek sebenar yang menunjukkan perkara ini, dan terdapat juga aksesori rasmi yang membawa pecutan AI pada papan untuk mengambil langkah lebih jauh.
Dalam artikel ini anda akan menemui gambaran keseluruhan yang sangat lengkap: daripada pembantu rumah yang diaktifkan suara berdasarkan Pi 4 dan alatan seperti VOSK dan Ollama...sehingga Pi 5 yang menjalankan wake word, transkripsi dan inferens setempat dengan model padat seperti Qwen3:1.7bo dan Gemma3:1b. Anda juga akan melihat bagaimana AI Kit dengan Hailo-8L NPU sesuai dengan Pi 5, yang perpustakaan untuk digunakan untuk pengiktirafan dan TTS, dan mengapa penting untuk mengutamakan keselamatan di rumah dan di tempat kerja.
Mengapa membina pembantu AI dengan Raspberry Pi
Pembantu pintar pada Raspberry Pi membolehkan anda mengawal peranti, menjawab soalan dan mengautomasikan rutin pada kos yang rendah dan dengan penggunaan kuasa yang minimum; dalam erti kata lain, ia adalah platform yang sesuai untuk belajar, prototaip, dan gunakan fungsi suara dan bahasa tanpa sentiasa bergantung pada awan.
Dengan Raspberry Pi anda boleh menyepadukan mikrofon, kamera dan skrin kecil, serta program dalam Python, Java atau C++; ini membuka pintu kepada projek yang terdiri daripada panel status diaktifkan suara kepada sistem kawalan akses dengan pengecaman muka, dan juga bot rumah yang mendengar, mentafsir dan bertindak mengikut pesanan anda.
Raspberry Pi 4 vs Raspberry Pi 5: kuasa dan kemungkinan
Raspberry Pi 4 menunjukkan bahawa pembantu suara tempatan boleh dilakukan jika anda memilih timbunan yang betul; walau bagaimanapun, Raspberry Pi 5 bukan sahaja mempercepatkan CPU dan GPU, tetapi juga menambah sambungan PCIe untuk aksesori berprestasi tinggi dan menambah baik port dan lebar jalur, jadi pengalaman keseluruhan menjadi lebih lancar.
Antara spesifikasi Pi 5, ciri menonjolnya termasuk pemproses ARM Cortex-A76 sehingga 2,4 GHz, sehingga 8 GB RAM LPDDR4X, Wi-Fi 5, Bluetooth 5.0/BLE dan port dwi mikro-HDMI dengan output 4K pada 60 Hz. Digabungkan dengan set penderia yang mantap, ini membolehkan pembantu mengendalikan tugas serentak dengan lancar dan mengekalkan kependaman rendah dalam interaksi suara.
ASRAI: projek sebenar dengan Pi 4 yang memfokuskan pada privasi dan kawalan
Pembuat yang bijak mencipta ASRAI, pembantu diaktifkan suara yang dibina pada Raspberry Pi 4 Model B dengan paparan GPIO 3,5 inci dan kamera Sony PlayStation Eye. Permata sebenar ialah PlayStation Eye: ia termasuk susunan empat mikrofon yang boleh ditanggalkan dengan mudah untuk Pi dan, di pasaran terpakai, boleh didapati dengan harga yang sangat murah, menjadikannya murah. tawar-menawar untuk menangkap audio dengan pembentukan rasuk asas.
Dalam projek itu, Pi 4 menjalankan VOSK secara tempatan untuk pengecaman pertuturan luar talian dan menyambung melalui rangkaian ke LLM yang dihoskan pada PC pengarang sendiri melalui titik API serasi OpenAI melalui Ollama. Untuk menjadikan sambungan ini berfungsi dari mana-mana sahaja, pencipta mendayakan Meshnet NordVPN, dengan itu mencapai pautan peribadi dan di mana-mana tanpa mendedahkan perkhidmatan secara langsung kepada Internet.
Ideanya adalah untuk memuat turun tangkapan, kata bangun dan transkripsi tempatan ke Pi dengan VOSK, manakala penjanaan bahasa dikendalikan oleh model yang lebih berkuasa pada mesin lain menggunakan API jenis OpenAI yang didedahkan oleh Ollama dan boleh diakses terima kasih kepada Meshnet; dengan cara ini, prestasi dan privasi adalah seimbang.
Untuk sentuhan "manusia", projek itu termasuk imej untuk tidur atau mendengar pada skrin kecil. Jika anda berminat untuk menirunya, pencipta berkongsi sumber yang diperlukan dan adalah berguna untuk mempunyai... Pencetak 3D dan pengimpal untuk pemasangan dan pelarasan tatasusunan mikrofon.
Inisiatif ini diserlahkan oleh media khusus dan mengingatkan pendekatan lain seperti Rhasspy dalam falsafah reka bentuk: pengiktirafan tempatan dan orkestrasi modular. Malah ada menyebut tentang kolaborator rapat yang mengubah Pi mereka menjadi pembantu AI dan menganalisis prestasi AI yang berbeza pada Raspberry Pi 5 untuk membimbing mereka yang mempertimbangkan untuk membuat lonjakan generasi.
Kit AI Rasmi untuk Raspberry Pi 5: Laluan pantas untuk pecutan
Jika anda lebih suka untuk membawanya ke peringkat seterusnya, AI Kit untuk Raspberry Pi 5 menambah NPU Hailo-8L di atas M.2 2242 prapasang yang dipasang pada M.2 HAT+. Gabungan ini menyediakan sehingga 13 TOPS untuk inferens kelebihan yang cekap, membebaskan CPU daripada beban kerja yang intensif dan membenarkan pembantu menjalankan model penglihatan atau audio dengan kependaman dan penggunaan yang lebih rendah.
Pakej ini lengkap: pengepala GPIO boleh tindanan, pengatur jarak, skru, kabel reben fleksibel untuk menyambungkan papan AI ke bas PCIe Pi 5, dan penyejuk haba yang sesuai untuk mengekalkan suhu di bawah kawalan. Pemasangan fizikal adalah mudah, dan kemudian perisian itu digunakan. sesuai pada OS Raspberry Pi.
- Modul AI Hailo dengan NPU Hailo‑8L
- Raspberry Pi M.2 HAT+ untuk Raspberry Pi 5
- Pad terma pra-pasang antara modul dan HAT+
- Kit pemasangan dengan pengatur jarak dan skru
- Penyambung GPIO 16mm boleh disusun dan kabel PCIe rata
Penyepaduan peranti Hailo ke dalam persekitaran OS Raspberry Pi adalah matang: ia berfungsi dengan libcamera, rpicam‑apps dan picamera2 dan ekosistem perisian (pemacu Hailo, HailoRT, dan HailoTappas) dipasang terus melalui pengurus pakej. Dengan cara ini, asas untuk pembantu penglihatan komputer (cth., pengesanan muka atau gerak isyarat) sudah sedia. geseran minimum.
Kes penggunaan: daripada kawalan rumah kepada pembantu perbualan
Dengan Pi 5 dan Kit AI, anda boleh menyediakan apa sahaja daripada sistem kawalan akses pengecaman muka kepada pembantu rumah perbualan “Bebas tangan.” Robot ringkas dengan navigasi asas yang menerima arahan suara dan bertindak balas dengan sintesis ucapan melalui pembesar suara.
Jika anda tidak mahu pemecut, pendekatan hibrid seperti ASRAI (pemprosesan pertuturan tempatan dan LLM jauh) atau pendekatan setempat penuh dengan model kompak terkini juga berdaya maju. Perkara utama ialah memperhalusi saiz model, kuantisasi dan saluran paip audio untuk memastikan pengalaman yang lancar. tangkas dan stabil pada perkakasan yang tersedia.
Perisian utama untuk suara dan bahasa pada Raspberry Pi
Untuk pengecaman pertuturan luar talian, VOSK ialah pertaruhan selamat pada Raspberry Pi. Alternatif seperti PocketSphinx juga berguna, dan jika anda lebih suka perkhidmatan awan, terdapat penyepaduan dengan enjin seperti Google Speech Recognition; namun, banyak projek memberi keutamaan privasi dan kependaman rendahjadi transkripsi tempatan mendapat tempat.
Untuk sintesis pertuturan tempatan, pyttsx3 menyediakan TTS asas tanpa kebergantungan luaran. Berkenaan dengan komponen LLM, Ollama memudahkan penyajian model dengan titik akhir "serasi OpenAI", menjadikannya mudah untuk menyambungkan skrip tersuai atau pelanggan sedia ada. Dengan pendekatan ini, Pi anda boleh mengatur saluran paip dan mewakilkan penjanaan kepada [aplikasi/alat tertentu - konteks diperlukan]. pasukan paling berkuasa.
Ejen mini Pi 5 100%: wake word, transkripsi dan inferens setempat
Seorang peminat telah menunjukkan bahawa Raspberry Pi 5 dengan 16 GB RAM boleh menjalankan keseluruhan kitaran: mencetuskan pengesanan perkataan dengan VOSK, transkripsi dengan bisikan yang lebih pantas dan inferens dengan LLM padat seperti Qwen3:1.7 oleh Gemma3:1b, semuanya secara tempatan. Ini adalah cabaran pengoptimuman, tetapi ia boleh dilakukan; repositori dan catatan blog yang mendokumentasikannya adalah sumber yang hebat. saya untuk belajar mengenai penalaan halus dan pengurusan sumber.
Pengajaran daripada contoh ini adalah jelas: dengan model yang dipilih dengan baik, kuantisasi dan saluran paip yang diperkemas, Pi 5 bertindak balas dengan masa yang munasabah. Jika projek memerlukan lebih kuasa pemprosesan, sentiasa ada pilihan untuk menggunakan Hailo-8L untuk tugas persepsi (penglihatan, audio) dan mengekalkan LLM tempatan yang ringan atau bergantung pada Pelayan jauh serasi.
Bermula: sistem pengendalian, perpustakaan dan struktur projek
Untuk memaksimumkan sumber, banyak pembangun mengesyorkan Raspbian (Raspberry Pi OS) dalam varian Litenya, yang mengurangkan perkhidmatan dan penggunaan memori asas. Dari sana, pasang pustaka pertuturan, TTS dan orkestrasi yang anda perlukan; dengan Python, mudah untuk membina prototaip yang berfungsi dan berskala. modul yang diasingkan dengan baik.
Resipi untuk boot Yang biasa termasuk:
- Pasang Raspberry Pi OS Lite dan gunakan kemas kini sistem.
- Konfigurasikan audio (mikrofon dan pembesar suara), kamera jika berkenaan dan uji dengan arecord/aplay.
- Pasang pakej seperti Pengenalan suara (jika anda akan menggunakan perkhidmatan awan) atau VOSK/PocketSphinx untuk luar talian, dan pyttsx3 untuk TTS tempatan.
- Pilih bahagian belakang LLM anda: setempat dengan Ollama dan model kecil, atau alat kawalan jauh yang serasi.
- Kod gelung utama dalam Python: dengar, transkripsi, tafsir (NLP) dan laksanakan tindakan.
Dalam lapisan NLP, anda boleh bermula dengan niat dan peraturan yang mudah, dan menggabungkan LLM semasa anda maju. Untuk pelaksanaan arahan, tentukan penyesuai bagi setiap peranti atau perkhidmatan (contohnya, lampu, kawalan iklim, peringatan), supaya pembantu mengekalkan teras yang bersih dan boleh dikembangkan.
Ketersambungan dan orkestrasi: semuanya sesuai dengan rangkaian yang baik
Pi menampilkan Wi-Fi 5 dan Bluetooth 5.0/BLE, jadi ia boleh berkomunikasi secara wayarles dengan mentol lampu, pembesar suara dan penderia. Apabila perkhidmatan luaran atau berbilang mesin terlibat, rangkaian peribadi seperti Meshnet NordVPN memudahkan keupayaan Pi untuk "melihat" pelayan model luar tapak tanpa mendedahkan port kepada dunia, mengekalkan kawalan dan keselamatan.
Jika anda bercadang untuk menggunakan wizard merentasi persekitaran yang berbeza, pertimbangkan bekas untuk komponen inferens atau saluran paip multimedia. Struktur dengan perkhidmatan berasingan (ASR, TTS, LLM, orkestra) akan membolehkan anda menskala komponen dan memindahkan beban kerja ke nod lain. impak yang minimum dalam seluruh sistem.
Keselamatan: amalan terbaik dan kelemahan untuk dipantau
Seorang pembantu sentiasa mendengar persekitarannya dan berkomunikasi dengan peranti lain, jadi keselamatan siber adalah kritikal. Mulakan dengan memastikan sistem dan pustaka dikemas kini untuk mengurangkan eksploitasi yang diketahui, dan membolehkan penyulitan untuk semua komunikasi antara peranti; mengasingkan rangkaian IoT dari seluruh rumah adalah satu ukuran. murah dan berkesan.
Adalah wajar menyemak nasihat tentang IoT dan perisian tengah, dan mengambil perhatian tentang kelemahan awam seperti CVE‑2021‑22945 o CVE‑2021‑22946 Antara lain, ia berfungsi sebagai peringatan untuk mengaudit kebergantungan dan menggunakan tampalan dengan cepat. Matlamatnya adalah untuk pembantu anda membantu tanpa menjadi beban. vektor risiko.
Integrasi dengan penglihatan kamera dan komputer
Jika pembantu anda menyertakan kamera, Pi 5 berfungsi dengan baik dengan libcamera dan rpicam-apps; selain itu, picamera2 memudahkan capaian program kepada strim video. Dengan Hailo-8L, tugas seperti pengesanan objek dan pengecaman muka memperoleh kelajuan dan kecekapan, membolehkan senario kawalan akses atau automasi rumah sensitif konteks.
Pendekatan biasa adalah untuk mengekalkan penglihatan di Pi dan mewakilkan tafsiran peringkat tinggi kepada LLM ("jika anda mengenali X, tanya saya jika saya perlu membuka pintu"). Dengan hanya berkongsi metadata atau hasil, bukan imej mentah, anda meningkatkan privasi dan mengurangkan jalur lebar perlu.
Contoh praktikal yang berkesan
– ASRAI pada Pi 4: Mikrofon PlayStation Eye (4 mikrofon), paparan GPIO 3,5 inci, VOSK tempatan, LLM jauh melalui Ollama dan ketersambungan di mana-mana sahaja dengan Meshnet. Ia memerlukan percetakan 3D dan sedikit pematerian, tetapi hasilnya adalah pembantu tangkas dan bijaksana.
– Pi 5 "semua-dalam-satu": wake word dengan VOSK, transkripsi dengan bisikan yang lebih pantas dan inferens setempat dengan Qwen3:1.7 oleh Gemma3:1b. Kuncinya ialah pengoptimuman dan mengehadkan saiz model untuk mengekalkan kependaman yang munasabah; repositori yang berkaitan ialah a panduan hidup untuk menyesuaikan projek anda.
– Pi 5 dengan Kit AI: pengecaman muka untuk akses, tindak balas kontekstual dengan model penglihatan dipercepatkan dan LLM ringan untuk perbualan; Pemacu Hailo, HailoRT dan HailoTappas boleh dipasang melalui apt dan keserasian dengan libcamera dan picamera2 disepadukan ke dalam peranti itu sendiri Raspberry Pi OS.
Amalan pembangunan dan penyelenggaraan yang baik
Susun kod ke dalam modul: tangkapan audio, ASR, NLP, pelaksanaan, TTS dan, jika berkenaan, penglihatan. Tambahkan log berguna dan mod nyahpepijat untuk mengenal pasti kesesakan. Automatikkan ujian asas (cth., niat yang dipratentukan) untuk mengelakkan regresi pecah apabila menambah ciri baru.
Di bahagian perkakasan, beri perhatian kepada kuasa dan pengudaraan, terutamanya jika anda menambah NPU atau bekerja dengan beban berat. Sink haba yang baik dan aliran udara yang baik menghalang pendikit terma dan mengekalkan pengalaman yang stabil. perbualan berterusan.
Komuniti dan peraturan: Kongsi projek anda dengan betul
Jika anda akan menerbitkan pembantu anda dalam komuniti Raspberry Pi, ingat bahawa menerangkan cara anda melakukannya adalah dihargai, bukan hanya menunjukkan hasilnya. Elakkan spam dan sebarang tingkah laku kesat, dan sudah tentu, tiada amalan elektrik yang tidak selamat; selain mempelajari lebih lanjut, anda akan mengekalkan a persekitaran yang sihat dan berguna untuk semua orang.
Apabila anda berkongsi, dokumentasikan perkakasan anda, langkah utama, kebergantungan, tetapan audio dan model yang digunakan. Ini membantu orang lain meniru kerja anda dan memberikan maklum balas yang berharga; akhirnya, kerjasama ini mempercepatkan projek anda lebih daripada kaedah lain. muslihat terpencil.
Perkara yang diharapkan dalam prestasi dan cara memutuskan seni bina anda
– Jika anda mencari privasi dan kawalan sepenuhnya, pilih ASR dan TTS tempatan, dan LLM padat pada Pi 5 atau disediakan oleh Ollama pada rangkaian Meshnet peribadi anda. Dengan cara ini anda beroperasi diutamakan dan memastikan data suara selamat. di bawah bumbung anda.
– Jika anda memerlukan jawapan yang lebih kaya dan tidak kisah menggunakan awan, LLM jauh menghapuskan kesesakan. Pi kemudian bertindak sebagai otak yang mengatur, mengawal sensor dan penggerak dan menguruskan sesi suara dengan kependaman yang boleh diterima.
– Jika pembantu anda perlu "melihat", AI Kit dengan Hailo-8L ialah pilihan yang menang: 13 TOPS untuk penglihatan tepi, pemandu melalui apt, dan ekosistem yang disokong oleh Raspberry Pi OS. Gabungkan ini dengan LLM jarak pertengahan di luar Pi, dan anda akan mendapat pengalaman yang hebat. bulat dan seimbang.
– Jika anda memilih untuk persediaan setempat penuh, pilih model yang dioptimumkan (Qwen3:1.7b, Gemma3:1b, atau setara) dan perhatikan penghalaan audio; menggunakan Faster Whisper untuk transkripsi dan VOSK untuk pemprosesan perkataan bangun telah terbukti a jalan yang berdaya maju pada Pi 5 dengan 16 GB.
Akhirnya, membina pembantu AI dengan Raspberry Pi menggabungkan komponen yang sedia ada: perkakasan yang murah seperti PlayStation Eye yang digunakan semula, perisian seperti VOSK atau bisikan lebih pantas, titik akhir serasi OpenAI melalui Ollama, dan, jika perlu, faedah tambahan Hailo-8L pada Pi 5. Dengan perhatian kepada keselamatan (kemas kini, mengasingkan rangkaian, menyulitkan idea yang mudah daripada AI) kepada pendokumentasian yang mudah untuk digunakan. pembantu. pembantu berfungsi yang berfungsi dengan baik di ruang tamu atau di pejabat.