この記事は「いのべこ夏休みアドベントカレンダー2020」の3日目の記事です。本記事の掲載内容は私自身の見解であり、所属する組織を代表するものではありません(お約束)。
日本時間の2020年7月23日深夜1時から、Amazon Alexa開発者向けのオンラインイベント「Alexa Live 2020」が開催されました。米国基準の開始時刻だったため日本では深夜帯となりましたが、AlexaスキルやAlexa対応ハードウェアの開発に関する最新トピックスが大量に公開されるとあって、日本語のツイートも多数ありました。幸いアーカイブが公開されていて動画も見られるので、興味のある方はぜひ見てほしいです。
個人的に最高!と思ったのは、HTML5ベースで開発中の「パックマン」。Alexaなので音声操作なんだけど、動画では「wakanese(ワカニーズ)」で操作すると紹介されていて、「?」と思ったら開発元の人から直接教えてもらえました。
要はパックマンが移動するときの効果音を口真似して操作するみたいなことになってるという。どうやったらそんな発想になるの?!面白すぎる!これ、早くプレイしたい(まだ開発中)。
さて、最新トピックスについてはこのイベントに合わせて、開発者ブログに記事が公開されています。その中にAlexaスキル開発に関する最新トピックスをまとめた記事「31 New Features to Unlock More Natural and Immersive Alexa Experiences」があるので、概要をピックアップしたいと思います。一部公開済みの情報も含まれていますがご愛敬ということで。なお「Natural and Immersive」=「自然で没入感のある」ということで、いかにもコマンドで操作するような使用感からの脱却を実現するためのアップデートが多くなっているのが近頃の傾向です。
NLU(自然言語認識)へのDNN(deep neural network)適用
Alexaがクラウドで提供するコア機能の一つが発話を認識する機能=NLUですが、このエンジンにDNNを適用してより高精度な認識を実現するというもの。Alexaスキル開発者は発話モデルを作成する際、NLUの聞き間違いを想定して似たワードをモデルに追加したりしていますが、元の認識精度が向上すればそういった作業は不要になるかもしれません。ただし現時点ではUSオンリー、日本語にはまだ未適用(ズコーッ)。
Alexa Conversations(ベータ)
Alexaスキルと利用者のやり取りにおいて、例えばピザの宅配を頼む場合に「ピザの種類」「サイズ」「枚数」といったように1項目ずつ受け付けるのでなく、「〇〇ピザのLサイズを1枚」といったように受け付けるための仕組みがコレ。実装としては可変要素となる「スロット」を一度に複数認識し、パラメータとしてバックエンドに渡せる仕組みを用意してくれるようです。これを使うと一気にユーザー体験が自然になって「コマンド感」が減るはずで、個人的にもかなり興味があります。
APL for Audio(ベータ)
APL(Alexa Presentation Language)はこれまでリッチな画面表現を提供する機能でしたが、音の表現をリッチにする機能が追加になりました。具体的には、Alexaの合成音声と音源データをミキシングし同時に鳴らす、一度に利用できる音源ファイル数の上限を5→15に増やす、CD並みの高音質ファイルや多様な音源フォーマットが使えるといった機能になります。サウンド面から没入度を向上させる取り組みといえます。画面を持たないEcho Dotなどのデバイスを含めた、全デバイスで恩恵を受けられるのも良いですね。
APL1.4
APL自体もバージョンが1.4に上がっています。テキストボックスやドラッグアンドドロップ操作、「戻る」ボタンの実装など、よりネイティブアプリとしての作りこみが可能になっているようです。
Alexa Web API for Games(正式リリース)
Alexaスキルには、APL以外にリッチな画面表現を行う手段が提供されています。それがこの「Alexa Web API for Games」です。HTML5、CSS、JavaScript、Web Audioといったウェブアプリの標準技術を使って画面描画を行うことができる機能です。機能がリッチすぎるのでEcho ShowやFire TVの一部機種のみ対応となりますが、相当凝ったことができます。今回GA(正式リリース)が発表になりました。
Skill resumption(プレビュー)
これは過去に利用したAlexaスキルの履歴をクラウドが保持し、呼び出し名を使わなくてもAIが適切なスキルに繋いでくれる機能です。Alexa対応ヘッドセットが製品化されることにより、Alexaスキルは室内だけでなくOn-the-Go(外出時)にも使われるようになっています。スキルをずっと使うのではなく、中断をはさみながらの利用となりがちな屋外で特に便利な機能といえます。ただ、屋内でも無音が続いてもスキルが継続できるというのは便利かと思います。USオンリーでプレビューアクセスが提供されています。
Alexa for Apps(プレビュー)
スマートフォンとAlexaの連携機能で、これはAlexaスキルからスマホアプリを起動・動作させることができる機能です。スマホアプリ側から見るとハンズフリー機能を簡単に追加できることになりますし、Alexaスキル側から見ると画面のないAlexaデバイスに画面を追加できるといえます。スマホ連携はLINE Clovaが一歩先を行っていましたが、Alexaのこの機能は汎用性が高いです。全地域でプレビューアクセスが提供されています。
Quick Links for Alexa(ベータ)
これは上記の機能とは逆に、スマホアプリやブラウザからAlexaスキルを起動できる機能となります。Alexaスキルを広めるにはリンクの形になっているほうが便利ですから、これは強力な機能追加です。当然、QRコードにして配布するなどもできるはずです。これもUSオンリー。
name-free interactions (NFI) toolkit(プレビュー)
Alexaスキルを起動するには通常「呼び出し名」から始めますが、この機能を使うと「呼び出し名」を使わず、話者の「意図や目的」から起動すべきスキルをAlexaが選択してくれます。本機能は複数の国向けにプレビューアクセスが提供されています(日本は含まれてません)。
スキル内購入(in-skill purchases)の強化
Alexaスキルで課金を実現するin-skill purchasesの機能はこれまで音声だけのパスが提供されていましたが、Amazon.comサイトやEchoデバイスの画面操作からも購入できるようになりました。
まとめ
日本向けの新機能は一部でしたが、これまでのことを考えると早晩日本向けにも提供されるのは間違いないと考えられます。イベントでは日本で開発されたスキルも取り上げられており、まだまだブルーオーシャンな気がします。これを読んで興味を持ったら、ぜひスキル開発をやってみてほしいです。