top of page
kiharay

Teams会議のリアルタイム音声処理を調べてみた 導入編

更新日:2023年2月25日

DXの役に立ちそうな音声データに注目してみた

音声の取り扱いってドキュメントがなくて、Microsoftのドキュメントを探し当てるのも苦労したので、ここで日本語でまとめて紹介します。執筆時点(2021年5月)の情報を元にしています。

 

リアルタイム音声処理で新しいユーザ体験

音声とITで思い浮かぶのはAlexaとかSiriみたいな音声で起動する仕組み。これらは単語だったり、ちょっとした文章の音声を文字にして、それをもとに音楽を流したり、天気に答えたり、翻訳したり、いろいろなことをしてくれます。


でも、音声の長さが数十秒を超えてくると、データとして処理するためには録音ファイルを作成して、そのファイルに対してバッチ処理するしかない、みたいな状況になります。

これだとビジネス要件を満たせないケースがある。会話の途中で、それまでの会話を元にしたデータを提供したい、会話が終わったらすぐに分析したい、などなど。

この課題に直面したので、音声データをリアルタイムに処理して、会話の最中、直後に処理結果を提供するユーザー体験を調べていきました。

 

Teamsを使ったリアルタイム音声取得

今回はTeamsを使ったリアルタイム処理を紹介。


最近ではリモートワークが増えてきて、オンラインミーティングを開催する機会も増えたと思います。その中でもMicrosoft社が提供するTeamsはOffice365に含まれていて、企業用途に最適化されているサービスで使い勝手も良いです。Office365を導入している会社、組織ではTeams会議を使っている人たちも多いと思います。

オフラインが前提だった業務が、Teamsでオンラインになって、しかもその音声をデータ処理できるようになると、いろいろな可能性が出てきそうな気がしますね。例えば、

  • Teamsミーティングにリアルタイムで字幕を付ける

  • Teamsミーティングで指定したキーワードを元にアラートする/コンテンツ表示する。

などなど。ビジネス×音声×リアルタイム、には可能性がありそうです。

 

Microsoftのドキュメント概要を読み解く

さて、ここから本題。Teamsから音声を取得する技術をMicrosoftのドキュメントを参照しながら紹介していきます。

まずは概要(Overview)から

ボットは、リアルタイムの音声、ビデオ、画面共有を使用して Teams 通話や会議を操作できます。 通話 およびオンライン会議用の Microsoft Graph API を使用すると、Teams アプリは音声とビデオを使用してユーザーと対話してエクスペリエンスを強化できます。 これらの API を使用すると、次の新機能を追加できます。

なんだか良く分からないけど「リアルタイムの音声」ってキーワードはある。。。

さらに読み進めていくと、サービスホスト型メディア(Service-hosted mdeia)、とアプリケーションホスト型メディア(Application-hosted mdeia)があって、サービスホスト型メディアはコールセンターに電話したときの自動応答(IVR)みたいなやつ、アプリケーションホスト型メディアが、Teams会議から音声をリアルタイムに取得できるやつ、みたいですね。


次回からはアプリケーションホスト型メディアについて、詳細を見ていきたいと思います。



↓の記事に続きがあります。是非見ていってください。


Comments


bottom of page