1 年生 B-2 コマ目

AI 議事録 Rimo でまとめたものです。AI が聞き間違ったりまとめ間違ったりする前提で参考にしてください。

議論のポイント

XRデバイスとAIの連携デモ

  • Meta Questを使用し、音声入力でIoTデバイス(LED、サーボモーター)を制御するライブデモを実施
  • Unityで作成したXRアプリケーションから、Whisper APIで音声を文字起こし
  • ローカルLLM(Ollama/Granite)またはクラウドAI(ChatGPT)で言葉を理解し、適切なコマンドに変換
  • Node-REDを経由してIoTデバイスに指示を送信
  • ビデオスルー機能により、現実世界とXR空間を合成した状態で操作可能

AIとシステム連携の技術的進化

  • 1年前の課題:A4用紙1枚分の長いプロンプトが必要で、JSONデータ形式の指定も複雑。成功率は約9割程度
  • 現在の改善:MCP(Model Context Protocol)の登場により、プログラムコードでデータ定義が可能に
  • ファンクションコーリングやストラクチャアウトプットなどのアプローチが確立
  • TypeScriptやPythonでツール定義を記述できるため、保守性と信頼性が向上
  • AIへの依存度を下げ、従来のシステム側を中心とした設計が可能に

ローカルLLMとクラウドAIの比較

  • ローカルLLM(Ollama/Granite 2B)
    • 無料で使用可能、プライバシー保護
    • モデルサイズが小さく理解力に限界(LED ON/OFF程度は可能)
    • レスポンスは比較的遅い
  • クラウドAI(ChatGPT)
    • 高い理解力で複数のツールを正確に選択可能
    • レスポンスが速い
    • インターネット接続が必要

音声認識技術の進化

  • Whisper APIにより日本語の音声認識精度が大幅に向上
  • Meta Questの内蔵マイクは優れたノイズキャンセリング機能を搭載
  • 音声入力により、手を使わずにAIを操作できることの重要性
  • 工場など手が使えない環境での活用可能性

AIの実用化における応用分野

  • 工場や作業現場での音声による日報記録、写真撮影などの操作
  • 重機の遠隔操作や工事現場の監督支援
  • XRデバイスとキャラクターの組み合わせによる対話型コンテンツ
  • 推し活関連のエンターテインメント分野での可能性

フリーランスエンジニアとしての働き方

  • 収入について:3人家族を養える程度(月XX万円程度が目安)。工数ベースで日単価×稼働日数で計算
  • 案件獲得:エージェントを介さず、勉強会などでの人脈から3年後に仕事が来るケースが多い
  • 重要なスキル
    • 特定の言語に執着せず多様な技術を習得
    • 技術をつなぐ能力が重要
    • 単純作業ではなく、アドバイスやコンサルティングで付加価値を提供
  • リスク管理:大口クライアント1社に依存せず、複数の案件を並行して進める

プログラミング学習のアドバイス

  • 推奨言語:JavaScriptとPython(適用範囲が広く、見識が広がる)
  • 1つの言語だけでなく、複数の言語を習得することで多様性を確保
  • 技術の考え方(APIの扱い方、HTTP通信など)を理解することが重要
  • デバイスを動かすなど、結果が見える形で学習するとモチベーション向上

企業向けAI導入の課題

  • 人事データなどの個人情報を扱う場合、公開AIサービスは使用不可
  • 解決策1:ファインチューニングで独自モデルを作成(マシンパワーが必要)
  • 解決策2:RAG(Retrieval-Augmented Generation)でデータベースと連携
  • 前提条件:社内データが検索しやすい形で整理されていることが必須
  • データ化と理論的な整理がDX推進の鍵

AIバブル崩壊論について

  • 非エンジニアが期待通りの結果を得られず幻滅したことが「崩壊」と報道される要因
  • 技術自体は進化を続けており、適切な使いどころが明確になってきている
  • 実際には崩壊ではなく、成熟期に入ったと捉えるべき

その他の話題

  • AI議事録ツールを活用し、午前中の授業内容をランチタイム中に自動で議事録化
  • ウォンバットへの愛情と、自作の情報収集ツールでレア情報を集める取り組み
  • 健康管理の重要性(良い健康状態が良いプログラムを生む)

授業の導入とQuest 3Sの貸し出し案内

  • 田中先生がゲスト講師として午前中から授業を担当しており、午前の内容が非常に面白かったと紹介された
  • 学校でQuest 3Sが2台余っており、冬休み中に貸し出しを希望する学生を募集することが発表された
  • 貸し出しを希望する場合は、田中先生への質問フォームにQuest 3S貸し出し希望の旨を記載する必要がある
  • 希望者が多い場合は抽選やじゃんけんで決定する予定であることが説明された
  • デバイス管理のため、貸し出し前に学校のアカウントでセットアップを行う方針が示された

ライブデモの概要とAI連携技術の説明

  • 後半はライブデモを中心に、ローカルAIを活用したXRとIoTの連携技術を実演することが説明された
  • 質疑応答の時間も設けられ、技術的な質問からキャリア、健康、筋トレまで何でも質問可能であることが強調された
  • 午前中に録音した音声データをAI議事録ツールで処理し、昼休み中に議事録が自動生成されたことが紹介された
  • 動画と比較してテキストの議事録は斜め読みで短時間で内容を把握できる利点があると説明された
  • AIと自分の付き合い方をテーマに、技術をつなぐエンジニアとしての視点から様々な連携技術が紹介される予定であることが示された

XR・AI・IoTの連携デモンストレーション

システム構成と音声入力の仕組み

  • Meta QuestをUnityで開発し、Whisper APIで音声を文字起こしする仕組みが説明された
  • Meta Questは内部マイクでもノイズキャンセリング性能が高く、音声認識に適していることが強調された
  • 同じWi-Fiネットワーク内でMeta QuestからPCにローカルネットワーク経由でデータを送信する構成が紹介された
  • Node-REDというブロックプログラミングツールを使用してデータの受け入れと処理を行うことが説明された
  • Ollamaというローカルで動作するLLMを使用し、音声指示に応じてLEDをオンオフする仕組みが実演された

MCPを活用したAIとシステムの橋渡し

  • MCPという新しい技術により、AIが理解した言葉をシステムが理解できる形式に変換することが可能になったと説明された
  • 従来はAIが「つけて」という曖昧な言葉を1や0などのシステムデータに変換できなかったが、MCPにより正確なデータ送信が実現したことが示された
  • まずPCから直接IoTデバイスを操作するテストを行い、LEDの点灯やサーボモーターの動作が確認された
  • 次にAIを介した操作テストが行われ、「LEDをオンにして」という音声指示でNode-REDを経由してLEDが正常に点灯することが実演された
  • 最終的にMeta QuestからXRデバイス経由で音声指示を送り、AIが判断してIoTデバイスを操作する一連の流れが成功裏に実演された

AIとシステム連携技術の進化と課題

  • 1年前はAIにシステムを動かすための指示をA4用紙1枚分のプロンプトで詳細に書く必要があり、それでも成功率が9割程度だったことが明かされた
  • AIが指示を忘れたり、期待したデータ形式ではなく言葉で返答するなど、システム連携の不確実性が大きな課題だったことが説明された
  • Function CallingやStructured Outputといった新しいアプローチが登場し、AIからシステムへのデータ受け渡しが改善されたことが紹介された
  • MCPという規格の登場により、プログラムコードでデータ定義を行うことが可能になり、AIへの曖昧な指示が不要になったことが強調された
  • 従来の不確実なAI依存から、確実なシステム中心の構成に移行し、AIは言葉の理解のみを担当する形になったことが説明された

クラウドAIとローカルAIの比較デモ

  • ローカルのOllamaからクラウドのChatGPTに切り替えたデモが実施され、レスポンス速度の向上が確認された
  • ローカルのGraniteモデルは2Bという小規模モデルのため理解力が限定的で、LEDのオンオフ程度のツール選択には対応できるが複雑な操作は困難であることが説明された
  • ChatGPTを使用した場合、LEDのオンオフに加えてサーボモーターの回転・停止など複数のツールを正確に選択できることが実演された
  • クラウドAIはインターネット接続が必要だが処理速度が速く、多様なツールを扱える高性能なモデルを利用できる利点があることが示された
  • ローカルLLMは性能が限定的だがセキュアでプライバシーが保護され、無料で利用できるため学生にとってプロトタイプ作成に適していることが強調された

音声合成機能とAIエージェントの実演

  • Whisper APIには文字起こしだけでなく、テキストから音声を生成するSpeech機能もあることが紹介された
  • 自分のクラウド環境にWhisper APIとChatGPTモデルを配置し、XRデバイスから音声で質問すると音声で回答が返ってくるシステムが実演された
  • アロイという日本語の抑揚が得意な音声データを使用し、「新潟に特別講義に来ています」という発言に対して自然な抑揚で応答することが示された
  • 音声出力により感情やニュアンスが伝わりやすく、XRデバイスで天の声のようにAIと対話できる体験が提供されることが説明された
  • 漢字の読み間違いも少なく、音声認識の精度が飛躍的に向上した現状が強調された

技術の応用可能性と今後の展望

  • 工場作業現場など手が汚れていてスマートフォンを操作できない環境や、危険な場所でデバイスを持ち込めない状況での音声AI活用の可能性が説明された
  • 眼鏡型デバイスで音声入力を行い、手を使わずに日報記録や写真撮影などの作業を言葉で指示するニーズが増えていることが紹介された
  • AIの言葉理解力の向上により、曖昧な指示でも適切に動作するようになり、音声入力がデフォルトになりつつあることが強調された
  • AIエージェントフレームワークとしてMastraなどのツールが登場し、TypeScriptで容易にAIエージェントを構築できる環境が整ってきたことが説明された
  • 工事現場の重機操作や建設現場の監督業務など、XRとAI・IoTの連携により遠隔操作や遠隔支援が実現可能になることが示された

質疑応答セッション - キャリアと技術

フリーランスの働き方と収入

  • フリーランス開始当初は仕事がゼロで、前職の関係から偶然仕事が来た経験が共有された
  • 人脈作りよりも具体的に仕事を依頼される状況を作ることが重要であり、3年後を見据えた関係性構築が必要であることが強調された
  • 3人家族を養うためには年収で一定額以上が必要であり、月XX万円程度の売上が現実的な目安として示された
  • 工数ベースで料金設定を行い、週1ミーティング+作業で月4日稼働の案件を複数並行して進める働き方が説明された
  • 単純作業よりも技術アドバイザーとしての相談業務など、知能労働の方が報酬が高く時間効率が良いことが強調された

プログラミング言語の習得とキャリア戦略

  • PythonとJavaScriptの習得が推奨され、見識を広げる観点からも有用な言語であることが説明された
  • 特定の言語に執着せず多様な技術を学ぶことが重要で、技術がなくなった時のリスクを常に考えるべきだと強調された
  • APIやHTTP通信などプログラミング言語に依存しない技術の考え方を理解することで、未経験の仕事でも対応可能になることが示された
  • デバイスを動かすなど結果が分かりやすいプロジェクトで学習するとモチベーションが維持しやすいことが紹介された
  • 平均年収を基準にせず、より高い目標を設定して逆算的にスキルを積み上げる考え方が重要であることが学生に向けてアドバイスされた

AIの社内活用とデータ管理

  • 社内専用AIを作る方法として、ファインチューニングとRAGの2つのアプローチがあることが説明された
  • ファインチューニングは既存モデルを再構築する必要がありマシンパワーを大量に消費するため実用性が低いことが指摘された
  • RAGは社内データベースに効率的にアクセスし、AIが検索と分析を行う仕組みだが、データが整理されていないと機能しないという課題が説明された
  • 人事データなど抽象的な概念をデータ化し、理論的に整理することがAI活用の前提条件であることが強調された
  • 工場のセンサーデータを構造化し、AIにデータベース構文を書かせることで過去のデータを自由に取得できるシステムの成功事例が紹介された

AIバブル崩壊論と技術の今後

  • AIバブル崩壊という報道は、非エンジニアや一般人がAIに適切な指示を出せず幻滅した結果が閾値に達したためと分析された
  • メディアが一般人の反応を取り上げて崩壊と報じやすい状況があるが、技術自体の崩壊ではないことが強調された
  • ChatGPTなどのAI技術は引き続き利用可能であり、むしろ使いどころが明確化されて進化し続けていることが説明された
  • AIバブル崩壊を声高に主張する人々とも波風を立てずに接することで、将来的に仕事につながる可能性があるという戦略的視点が共有された
  • 冷静に状況を見極め、技術の本質的な価値と報道の切り口の違いを理解することの重要性が示された

results matching ""

    No results matching ""