rabbit r1が届いた! さっそく日本語が使えるか試してみた
ども、米国在住のプログラマー、鈴木バスケです。ある日、散歩から帰ってきて郵便受けを開けてみると小包が届いてました。アレです。今年1月の「CES」で突然発表されたポケットに入るAIデバイス、オレンジ色の憎いやつ、そう、「rabbit r1」が届いたのです。
さて、ご存知ない人のためにrabbit r1とは何なのかを簡単に紹介します。一言でいえば、ポケットに入るChatGPT的なAI機能を備えたデバイスです。画面は2.88インチのタッチスクリーン、あとはコロコロ回るホイール入力と、右横にボタンが一つ。というわけで、入出力は基本的に音声です。ボタンを押して質問し、ボタンを離すと答えが返ってくるという方式。画面とホイールはあくまで補助的です。あと、カメラがついてて入力の補助になります。
大きさ7.8cm四方、厚さ1.25cmで、素材はプラスチックです。cmで語ると収まりが悪いですが、インチだと3×3×2分の1インチですね。スマホの幅程度、厚さは倍、折りたたみスマホと同じぐらいと考えてもらえれば。作りはしっかりしてて、雑にポケットに入れて使っても問題ない感じです。
外観で特徴的なのが筐体のデザイン。特にビビットなオレンジは目を惹きます。オレンジ色が好きな我が家にはいろいろオレンジなもので溢れているのですが、その中でも一際存在感を示すオレンジ色、ちょっと蛍光入ってそうな感じですね(ビデオでも色調整難しそうな)。
そして、これをデザインしたのがなんとTeenage Engineering、ポケットシンセのOP 1で有名なスェーデンの感謝です。いま一番勢いがあるデザインの会社といっても良いかもです。というかシンセメーカーと思っていたので、このところ立て続けにPanicのPlaydateとか外部のデザインを手掛けているのが続いててびっくりしてます。うまいです。
ボタンを押しながら「What the weather in Belmont?」。Belmontは、僕の住んでいる場所です。ボタンを離すと、処理が始まります。意外と早い、数秒後に結果が返ってきて画面が切り替わります。天気のような情報は決められたフォーマットで見やすく表示してくれます。同時に、結果も音声で返してくれます。いいですね。
日本の総理大臣のことも聞いてみましょう。
「Who is the prime minister of Japan? What the reputation?」。日本の総理大臣は誰か、そして評判はどうなのって聞いたところ、ちゃんと岸田総理の名前は出しましたが、いま米国訪問中だよって嘘の答えを返してきました。おいおい、とは思いましたが、確かに4月にきてましたし、意外と情報ソースはしっかりしてそうです。支持率26%と、評判は低いですね。自民党のお金のスキャンダルが影響していると。なるほど。もっともらしい感じですが、どうですか、合っていますか。
カメラも使ってみましょう。ボタンをダブルクリックすると、カメラが起動します。マルチモーダルで、見ているものに対して質問できます。ここにコーヒーカップがあるのでカメラを向けて聞いてみましょう。
「What's this?」。白いマグカップですね。漫画のキャラっぽいイラストが書いてあります。テーブルの上に乗っています、などなど。ちゃんと認識して答えてくれます。まぁ今の所、使い道は思いつきませんが、なんかの役に立つかもです。
「I don't understand」とも何も返さず、まさかの無視です。これはびっくり。英語と理解できないと無視する仕様なんですね。いろいろやってみましたが、日本語はどうやっても受け付けてくれません。通常の入力は英語でしゃべるしかなさそうです。
実はもう一つ、デモで見た機能で期待していたのが翻訳機能。この子は日本語が全く使えないわけではなく、いろんな言語を理解して翻訳できるということなのでやってみましょう。
「Please translate with Japanese and English」。すると、画面が切り替わって翻訳モードになります。この場合、英語と日本語を指定しましたが何でも良さそうです。
このモードに入ると、入力した言葉は即座に翻訳されて出力されます。どちらの言語で話しても、もう一方の言語で翻訳されます。つまり、日本語から英語、英語から日本語とか向きをいちいち指定しなくても、順番通りでなくても大丈夫なのです。これはなかなか便利。
翻訳のクオリティも悪くないです。たまに聞き間違いをしているようで、英語で話したことが英語で返ってきたりすることもあり(内容は合っている)、不審なところもありますが、十分いけます。実用レベル。「これだけで199ドルのデバイスとしていいだろ?」ってデモで自慢してましたが、これは納得です。
ネットワークは基本Wi-Fiです。nano SIMスロットがあるので契約は必要ですが、外でも使えるようになります。eSIMには今のところ対応していません(予定があるかどうかも不明)。
あと、重要な要素としてLAMと呼ばれるrabbitのキモとなる機能について全無視してここまで書いています。これは「large action model」の略で、現在のAIの起爆剤となっているlarge language modelが言語についての知見を持ち得たように、人間の行動も機械学習によってモデル化できて、その行動モデルをrabbit holeと呼ばれるポータルを経由して実際のサービスとひも付けられるという構想です。
自分でも、いまいちピントきていないのですが、確かに動いていて、現時点ではSpotifyを経由して音楽再生、Uberで配車、Doordashでデリバリー、MidjourneyでAI画像生成(なぜ?)と四つのサービスが操作できるようになっています。
正直なところ、現時点ではこの機能を重視していませんのであまり語れません。四つとも自分が使うサービスではないですし、そもそもそういうサービスを利用するときにAIの助けがいるということは現状考えていません。トラブルも多そうだし、確認も必要だろうし、そもそも自分で選びたいし。
先週公開されたYouTuberのレビューが軒並み低評価だったのは、この点が期待されていた、というか発表会で大きく宣伝していた部分だったから、そこが現時点では期待に届いていないということなんだと思います。僕はそもそもそこは期待していた部分ではなかったので、LAMを使ってできることが少ない、というのは僕の中ではこのデバイスの評価を下げる要因にはなっていません。
ただ、技術自体には興味があります。rabbitのサイトには、その基盤となるrabbit OSの記載もあるので、これから読んでみようと思います。
ちょっと気になったこと、思いついたことをChatGPTに聞いてみるというようなケースが最近けっこうあるんですね。そのまま記録にもなるし簡単なブレストができるので意外と便利なんですが、iPhoneをポケットから出して認証待ち、アプリ探して起動する、ここまでの時間が長くてふとしたアイデアが消えていってしまうことがたまにあるんですよ。というかしょっちゅう。
その点、これがポケットに入っているとして、出してボタンを押すだけで話し始められるのは理想的です。まぁ、実際に使い続けられるかはAIのクオリティ次第なんですが。いまのところどういうLLMを使っているのかはいまいち分からず試行錯誤の途中のような感じもします。アップデートを重ねることで良くなったり悪くなったりするのがAIサービスの特徴なので、もうちょっと長く使ってみたいですね。(ソフトウェア エンジニア・バスケ)
■Profile
バスケ
ソフトウェア・エンジニア。プログラミング、3Dプリンタ、DIYなど雑多なYouTubeやってます。観てね。[https://www.youtube.com/@BasukeSuzuki](https://www.youtube.com/@BasukeSuzuki)
ChatGPT的なAI機能を備える
「突然、届いてびっくりしたよ」みたいな口ぶりでしたが、先週から発売イベントとか著名なYouTuberのレビューが続いていたので自分も初日の注文だったので、もうすぐ届くかなと思ってました。そしたら、前日には親切にも「明日届くよー」ってメールまで来てたので、今日は朝からワクワクしてたのです。まさか朝イチでくるとは思ってませんでしたが。さて、ご存知ない人のためにrabbit r1とは何なのかを簡単に紹介します。一言でいえば、ポケットに入るChatGPT的なAI機能を備えたデバイスです。画面は2.88インチのタッチスクリーン、あとはコロコロ回るホイール入力と、右横にボタンが一つ。というわけで、入出力は基本的に音声です。ボタンを押して質問し、ボタンを離すと答えが返ってくるという方式。画面とホイールはあくまで補助的です。あと、カメラがついてて入力の補助になります。
大きさ7.8cm四方、厚さ1.25cmで、素材はプラスチックです。cmで語ると収まりが悪いですが、インチだと3×3×2分の1インチですね。スマホの幅程度、厚さは倍、折りたたみスマホと同じぐらいと考えてもらえれば。作りはしっかりしてて、雑にポケットに入れて使っても問題ない感じです。
外観で特徴的なのが筐体のデザイン。特にビビットなオレンジは目を惹きます。オレンジ色が好きな我が家にはいろいろオレンジなもので溢れているのですが、その中でも一際存在感を示すオレンジ色、ちょっと蛍光入ってそうな感じですね(ビデオでも色調整難しそうな)。
そして、これをデザインしたのがなんとTeenage Engineering、ポケットシンセのOP 1で有名なスェーデンの感謝です。いま一番勢いがあるデザインの会社といっても良いかもです。というかシンセメーカーと思っていたので、このところ立て続けにPanicのPlaydateとか外部のデザインを手掛けているのが続いててびっくりしてます。うまいです。
さっそく使ってみる
というわけで、さっそく使っていきましょう。最初に聞くのはやはり天気でしょう。ボタンを押しながら「What the weather in Belmont?」。Belmontは、僕の住んでいる場所です。ボタンを離すと、処理が始まります。意外と早い、数秒後に結果が返ってきて画面が切り替わります。天気のような情報は決められたフォーマットで見やすく表示してくれます。同時に、結果も音声で返してくれます。いいですね。
日本の総理大臣のことも聞いてみましょう。
「Who is the prime minister of Japan? What the reputation?」。日本の総理大臣は誰か、そして評判はどうなのって聞いたところ、ちゃんと岸田総理の名前は出しましたが、いま米国訪問中だよって嘘の答えを返してきました。おいおい、とは思いましたが、確かに4月にきてましたし、意外と情報ソースはしっかりしてそうです。支持率26%と、評判は低いですね。自民党のお金のスキャンダルが影響していると。なるほど。もっともらしい感じですが、どうですか、合っていますか。
カメラも使ってみましょう。ボタンをダブルクリックすると、カメラが起動します。マルチモーダルで、見ているものに対して質問できます。ここにコーヒーカップがあるのでカメラを向けて聞いてみましょう。
「What's this?」。白いマグカップですね。漫画のキャラっぽいイラストが書いてあります。テーブルの上に乗っています、などなど。ちゃんと認識して答えてくれます。まぁ今の所、使い道は思いつきませんが、なんかの役に立つかもです。
日本語は使えるか
さて、いよいよ気になっていたことを試しましょう。日本語で使えるのか。「今日の天気はなんですか」。しーん。「I don't understand」とも何も返さず、まさかの無視です。これはびっくり。英語と理解できないと無視する仕様なんですね。いろいろやってみましたが、日本語はどうやっても受け付けてくれません。通常の入力は英語でしゃべるしかなさそうです。
実はもう一つ、デモで見た機能で期待していたのが翻訳機能。この子は日本語が全く使えないわけではなく、いろんな言語を理解して翻訳できるということなのでやってみましょう。
「Please translate with Japanese and English」。すると、画面が切り替わって翻訳モードになります。この場合、英語と日本語を指定しましたが何でも良さそうです。
このモードに入ると、入力した言葉は即座に翻訳されて出力されます。どちらの言語で話しても、もう一方の言語で翻訳されます。つまり、日本語から英語、英語から日本語とか向きをいちいち指定しなくても、順番通りでなくても大丈夫なのです。これはなかなか便利。
翻訳のクオリティも悪くないです。たまに聞き間違いをしているようで、英語で話したことが英語で返ってきたりすることもあり(内容は合っている)、不審なところもありますが、十分いけます。実用レベル。「これだけで199ドルのデバイスとしていいだろ?」ってデモで自慢してましたが、これは納得です。
値段とかもろもろ書き忘れてる情報
そうそう、値段は書いてませんでしたね。199ドルです。3万円程度で買い切りです。特にサブスクリプションで別に取られるお金もありません。ただ、全部の機能はネットを通じてサーバー上で行われるので、もしrabbitがビジネスを止めたら、ただのオレンジ色の箱になります。ここは忘れてはいけないところです。ネットワークは基本Wi-Fiです。nano SIMスロットがあるので契約は必要ですが、外でも使えるようになります。eSIMには今のところ対応していません(予定があるかどうかも不明)。
あと、重要な要素としてLAMと呼ばれるrabbitのキモとなる機能について全無視してここまで書いています。これは「large action model」の略で、現在のAIの起爆剤となっているlarge language modelが言語についての知見を持ち得たように、人間の行動も機械学習によってモデル化できて、その行動モデルをrabbit holeと呼ばれるポータルを経由して実際のサービスとひも付けられるという構想です。
自分でも、いまいちピントきていないのですが、確かに動いていて、現時点ではSpotifyを経由して音楽再生、Uberで配車、Doordashでデリバリー、MidjourneyでAI画像生成(なぜ?)と四つのサービスが操作できるようになっています。
正直なところ、現時点ではこの機能を重視していませんのであまり語れません。四つとも自分が使うサービスではないですし、そもそもそういうサービスを利用するときにAIの助けがいるということは現状考えていません。トラブルも多そうだし、確認も必要だろうし、そもそも自分で選びたいし。
先週公開されたYouTuberのレビューが軒並み低評価だったのは、この点が期待されていた、というか発表会で大きく宣伝していた部分だったから、そこが現時点では期待に届いていないということなんだと思います。僕はそもそもそこは期待していた部分ではなかったので、LAMを使ってできることが少ない、というのは僕の中ではこのデバイスの評価を下げる要因にはなっていません。
ただ、技術自体には興味があります。rabbitのサイトには、その基盤となるrabbit OSの記載もあるので、これから読んでみようと思います。
初日の感想
というわけで、ざっくり使ってみましたが、初日の感想としては良いです。僕の中で初日は合格。「何に使うの?」と問われると正直なところ難しいんですが、例えば散歩中の一幕と思ってください。ちょっと気になったこと、思いついたことをChatGPTに聞いてみるというようなケースが最近けっこうあるんですね。そのまま記録にもなるし簡単なブレストができるので意外と便利なんですが、iPhoneをポケットから出して認証待ち、アプリ探して起動する、ここまでの時間が長くてふとしたアイデアが消えていってしまうことがたまにあるんですよ。というかしょっちゅう。
その点、これがポケットに入っているとして、出してボタンを押すだけで話し始められるのは理想的です。まぁ、実際に使い続けられるかはAIのクオリティ次第なんですが。いまのところどういうLLMを使っているのかはいまいち分からず試行錯誤の途中のような感じもします。アップデートを重ねることで良くなったり悪くなったりするのがAIサービスの特徴なので、もうちょっと長く使ってみたいですね。(ソフトウェア エンジニア・バスケ)
■Profile
バスケ
ソフトウェア・エンジニア。プログラミング、3Dプリンタ、DIYなど雑多なYouTubeやってます。観てね。[https://www.youtube.com/@BasukeSuzuki](https://www.youtube.com/@BasukeSuzuki)