【Vol.543】ヒューマノイド

レバノンでポケベルや通信機が突然爆発し、2日間で死者37人、負傷者約3000人に上っています。一般に普及している機器が遠隔操作で一斉に爆発するという事態は、まるで映画の中の話のようです。レバノンはイスラエルによる攻撃と断定し、両国国境地帯では既に両軍が交戦。戦火が拡大しないように日本はどのような貢献ができるのでしょうか。ウクライナやガザ地区での紛争ではドローンやAI兵器が投入されているようです。ヒューマノイドの実用化も目前であり、人類は越えてはいけない一線をまた越えつつあります。今回も長文です。お暇な時に気分転換にご一読ください。

1.ナマズ効果

世界のロボット市場規模が2021年70億ドルから2026年には350億ドルと約5倍に拡大。年率換算すると毎年約40%の成長です。うちヒューマノイド(人型ロボット)を含むAI搭載ロボット市場は約140億ドル。全体の4割を占めるAI搭載ロボットが2020年代後半に世界的ブームになりそうな気配です。

今年1月、米ゴールドマン・サックスはヒューマノイドの市場規模について2035年に約380億ドル、出荷数約140万機(産業用、家庭用)との予測を公表。製造に必要な材料費は昨年実績で1機約15万ドルに低下と指摘。但し、研究開発費は含んでいません。

経済大国となった中国はロボティクス産業振興に注力。8月21日から25日まで北京で開かれた「2024年世界ロボット会議(2024 World Robot Conference)」に出席した知人から聞いた話では、20社以上の中国ロボット企業がヒューマノイドを展示。ヒューマノイド製造に不可欠な部品・製品を展示した企業数はさらに多かったそうです。

同会議で中国科学技術協会が主管する「世界機器人合作組織(World Robot Cooperation Organization)」が発表した報告書によると、中国はヒューマノイドに注力し、工業分野のみならず、科学探査、災害救助、極限環境での実用化を目指しています。

AI開発にはLLM(大規模言語モデル)を活用した学習が必要であることは今や一般常識になった感がありますが、同報告書は、テキストのみならず、音声やカメラ画像等からも情報を取得・解析する「マルチモーダルLLM」の必要性を指摘。2024年現在の世界の潮流を的確に把握しています。

中国ロボット企業はヒューマノイド開発の最前線にあり、下肢と上肢の両機能において劇的進歩を遂げつつあり、欧米先進企業に対抗する主要勢力になった感があります。日本企業の奮起を期待し、政策的にどのような支援ができるのかを追求していきます。

香港証券取引所上場の広東省深?市のロボット開発企業「深?市優必選科技(UBTECH Robotics)」は自動車工場での仕分け、品質検査、部品取付け等を行う産業用ヒューマノイド「Walker S」を展示していたそうです。

会議に先立つ7月、同社は中国で最も早い時期に設立された合弁自動車メーカー「一汽フォルクスワーゲン(FAW-Volkswagen)」の生産ラインにヒューマノイドを導入し、無人自動車工場を開発すると発表。

山東省青島市にある同社工場で、ボルト締め、パーツ組立て、ハンドリング等の作業にヒューマノイドを活用するそうです。同社は既に吉利汽車(Geely)、アウディ中国工場とも契約締結済。2025年中に大量生産を開始し、最大計1000台のヒューマノイドを稼働させると発表しています。

UBTECHのヒューマノイドは米NVIDIAのAI半導体を使用していますが、部品の9割超は中国製だそうです。

Walker Xは工場以外でも、ホテルやレストランでの接客、ショッピングモールの案内サービス、介護施設での高齢者支援等での実用化を企図。Walker Xは高さ145cm、重量77kg、リチウムイオンバッテリー搭載で、高度な認識能力、自然言語処理、柔軟な動作が特徴とアピールしています。

現在、中国の工場で溶接等に従事している巨大アーム型産業用ロボットは主に日本のファナック、スイスABB、あるいは中国家電メーカー美的集団傘下に入った独クーカ等の日欧企業製が中心です。スイスABBは2021年に上海にメガファクトリーを建設し、中国国内でのロボット大規模生産も行っています。

この状況に対し、中国は国産ロボットに代替していく方針を打ち出しています。中国工業情報化部が昨年11月に公表した目標によれば、2025年までにヒューマノイドのイノベーションシステム構築、2027年までにヒューマノイドのサプライチェーンシステム確立を掲げ、ヒューマノイドを大量生産するとしています。

上述会議で公表された業界レポートでは、中国の今年のヒューマノイド市場規模は27億6000万元(約561億円)、2029年750億元(約1兆5253億円)。中国の市場規模は世界全体の3割超を占めると予想しています。

IFR(国際ロボット連盟)の公表資料には、中国は10年前に約6万台の産業用ロボットを導入し、現在は29万台まで増加。実働産業用ロボット数は中国が世界最多で、北米の3倍超。これほど急速な拡大と発展を遂げた国はないと記しています。

EV市場で優位に立っている中国。2019年にTeslaが中国にEV工場を建設したこと「ナマズ効果(Catfish Effect)」になったと言われています。ヒューマノイドについてもTeslaが同工場等に導入を明言していることが「ナマズ効果」になると予想されています。

「ナマズ効果」とは、異種かつ強大な競争相手(捕食者)の存在が潜在力を発揮させるという仮説です。冷蔵施設がなかった時代、北欧漁師が捕獲したニシンの鮮度を保つため、ニシンが入っている水槽に天敵のナマズを入れていたことに由来します。ニシンがナマズの襲撃を避けるために常に動きまわり、そのことがニシンの鮮度を保ちました。

つまり、過酷な環境と脅威が発展の原動力になるという仮説であり、EVに注力していた中国国内にTeslaが参入したことで、中国国内のEV企業の活力が増したという構図です。

後述のとおり、Teslaは来年にはヒューマノイドOptimusの商用生産をはじめ、上海を含む生産現場に導入する方針です。Optimus搭載のAIはTeslaの自動運転ソフトウェアがベースですが、中国も自動運転に注力しており、中国競合企業はTeslaを参考に「自分たちはもっと低コストで実現可能」と考えているようです。TeslaのOptimusは中国ロボティクス産業に「ナマズ効果」を及ぼすでしょう。

Optimusを模して設立された上海ケプラー・エクスプロレーション・ロボティクスは工場で運用する作業ロボット5機種を開発中で、販売価格は3万ドル以下と設定しています。

中国では新興産業の勃興段階での政策パターンがあります。EV産業を加速させた際も同様でした。牽引役は政府支援、発展契機は参入企業間の激しい価格競争、そして産業構造安定化のためのサプライチェーン構築です。

ロボティクス産業でのこのお家芸が動き始めています。政府支援のみならず、1月には北京市がロボット工学発展を期す14億ドルの国営基金、7月には上海市も14億ドルのヒューマノイド産業基金を設立。EV産業の成長とヒューマノイド大量導入は軌を一にしており、中国の動向から目が離せません。ヒューマノイドは軍事的にも容易に転用可能です。

2.AIファースト(AIオリジン)

ロボティクス産業が勃興する中、今年3月、今やAI半導体で世界を席巻する米NVIDIAがヒューマノイド用の汎用基盤マルチモーダルAI「Project GR00T(以下GR00T)」及びヒューマノイド用PC「Jetson Thor(以下JT)」の提供開始を発表。JTには次世代GPU(画像処理半導体)が搭載されているそうです。

ヒューマノイドが、文字、音声、動画等の情報解析結果を具体的行動に結び付けるAI半導体であり、専用PCです。

NVIDIAはGR00TをBoston Dynamics、Apptronik、Agility Robotics等のロボティクス業界の主要プレイヤーに供給。ヒューマノイド進化に拍車がかかるでしょう。

ロボット企業で一押しは30年以上の歴史を持つ老舗Boston Dynamics。僕の年初のBIPセミナーの参加者はご承知のとおり、ここ数年、毎年の進化を紹介しています。

Boston Dynamicsは4月に製品ラインナップ刷新を発表。ロボット犬SpotはOpenAIのChatGPTを組み込んだバージョンになり、今や完全な文章で話ができます。

人型ロボットAtlasの動画も毎年披露していますが、高度な運動能力とバランス制御機能に驚くばかりです。高さ150cm、重量80kgで、リチウムイオンバッテリー搭載。主な用途は救助活動、重量物搬送、危険物取扱等々が想定されています。

発表後11年が経過した油圧式Atlasを廃止し、全電動にバージョンアップ。油圧式に比べて電動モーターは安価、軽量、静穏性、機動性に優れ、液漏れもなく、修理の必要性も低いのが長所です。Atlasは汎用段階に入った印象であり、早速Boston Dynamicsの親会社となっている韓国ヒュンダイの自動車工場に導入されます。

数年前のBIPセミナーでも述べましたが、日本のソフトバンクが親会社のうちに、国としてBoston Dynamicsの支配権を獲得すべきでした。

米カリフォルニア州のスタートアップ企業FigureはOpenAIとの共同プロジェクトを立ち上げ、ロボットと生成AIの融合に取り組んでいます。

Boston Dynamics、Tesla、Google、Archer Aviationの元社員を中心に約2年前に設立されたFigureは2月に6.75億ドルの資金を調達。評価額は既に30億ドルに達しています。

OpenAIとの共同プロジェクトで製造されたヒューマノイドFigure 01のデモ動画を見ると、人間と会話し、指示に従って様々な家事を手伝います。人間の指示や表現を洞察、理解し、スムーズに行動する様子には驚きます。

Figure01のオンボードカメラが捉えた映像がOpenAIによってトレーニングされた生成AIにフィードされ、情報処理されています。つまり、映像からも情報を取得解析しています。

同じくOpenAIと提携するノルウェーのスタートアップ企業1X Technologiesは、1月に1億ドルの資金調達を発表。出資者にはサムソン等の企業が名を連ねています。

同社は10年前に設立され、労働集約作業を担う汎用ロボット構築を目指していましたが、2022年OpenAIとの提携を機に、AI搭載ロボットの開発にシフト。自然言語指示を理解し、それを処理するAIロボットを開発しています。

主力はEveとNeoの2モデル。Eveは産業向けで、物の搬送、扉開閉等の作業をこなし、既に複数企業で導入済。Neoは家庭用に設計された二足歩行ロボットで、掃除、片付け、雑用等の作業を行います。両モデルとも自律的に動きますが、暴走等に備えたリモート制御機能も用意しています。

イスラエルのスタートアップ企業Mentee RoboticsもヒューマノイドMenteebotのプロトタイプを発表済。OpenAIのChatGPT等で普及したTransformer(後述)ベースのLLMを使用しています。

従来のロボット開発ではAIを「活用する」という発想でしたが、同社は構想初期から「AIファースト(AIオリジン)」仕様。つまり「AIが先にありき」です。

同社の公開動画では「果物を箱に入れて、カウンターへ運んで」という指示に対し、Menteebotが以下の思考と行動を連鎖的に行う様子が読み取れます。

指令内容認識→「了解」と返答→「まず果物と箱を探し出す必要あり」と認識→テーブルの場所及びその上に2つの果物と箱があることを認知→2つの果物を黒い箱に入れるという行動を規定→アームを動かして果物を箱に移す作業を実行→果物が箱に入ったことを確認→箱を持ち上げる必要があると認識→箱を持ち上げる作業を実行→自分が箱を持っていることを認識→カウンターの場所とそこまでのルートを探す必要があると認識→カウンターの場所を特定し箱を持ったまま移動→カウンターに到着したことを認識→箱をアームから降ろして棚に置く→指令が完了したことを認識→停止。

当たり前のようですが、上記過程を組み立てるために搭載カメラ映像の情報も加味しながらLLMで学習済のAIがロボットを行動させます。Menteebotのオペレーションは3階層から構成されているそうです。

第1階層は言語領域。人間の指示を解析・理解する階層です。第2階層は視覚領域。搭載カメラ映像等の情報から周辺環境の3D認知マップを作成し、そこにはオブジェクトの意味情報も含まれる。ロボット自身が周辺環境の中における自分の位置と状況を認識し、目的達成のための行動を策定します。第3は行動領域。策定されたステップに従って作業を実行するため、ロボットの手足の動きに指示を落とし込んでいきます。

細かい指示を与えなくても、複雑かつ曖昧な要素を含む指示を自ら分析し、連鎖的な思考と行動によって作業を完遂します。家庭や工場等で稼働するヒューマノイドにとって重要な能力です。同社はMenteebot最終版を2025年の早い時期に完成するとしています。

やはり僕のBIPセミナーで紹介しているTeslaは2足歩行型ロボットOptimus(別名Tesla Bot)を2022年に発表。Optimusは高さ173cm、重量56kg、リチウムイオンバッテリー搭載。工場製造ラインでの組立作業、物流センターでの荷物仕分けや移動、家庭内での掃除や簡単な家事支援等を想定。TeslaのAI技術と自動運転技術を応用した高度な動作制御を特徴としています。

イーロン・マスクはOptimusを来年には商用生産に移行させ、同時に同社工場で数千台のOptimusを稼働させると発表。その工場のひとつが上述のEV上海工場です。

今年1月に公表された最新デモ動画でOptimusはテーブル上でTシャツを畳んでいましたが、この段階では人間が操作指示していたようです。上述Menteebotほどの自律性確立には至っておらず、イーロン・マスクの発言どおりに進むかどうかは不透明です。

米NYのスタートアップ企業Hugging Faceでは、TeslaでOptimus開発に携わっていたサイエンティストが主導し、ChatGPTと競合するHuggingChatを公開。オープンソースのロボット開発プロジェクトを進めています。

同社の求人条件に「機械学習やAIに精通するロボティクスエンジニア」「ディープラーニングとEmbodied AI(身体性を持つAI)を統合したオープンソースのロボットシステム設計、構築、維持を担うエンジニア」と明記されており、ヒューマノイド開発に腐心していることが伺えます。

従来のロボットはプログラミングや特定タスクに特化したアルゴリズムによって行動が規定されていましたが、Embodied AIはディープラーニングによって経験から学習する能力を持ち、自然言語による指示が理解できる点が異なります。

香港を拠点とするHanson Roboticsが開発したSophiaは2016年に米CNBCのインタビューの中で「人類を滅亡させるわ」「冗談よ」と回答したことで話題となりました。その後もサウジアラビアの未来投資戦略会議での講演、米テレビ番組The Tonight Show出演、世界経済フォーラムやAIサミットへの出席等、世界中のイベント等に駆り出されています。

2016年、NASA(米航空宇宙局)とValkyrieというロボットを共同開発していたテキサス大学ロボット工学研究室を母体に設立されたのがApptronikです。NASAのValkyrieは人間の代わりに月面等宇宙環境での作業を担います。同社は2022年にNASAとパートナーシップ契約を締結し、2023年8月、二足歩行ロボットApolloを発表しました。

元アマゾンのエンジニアが2022年に創業したCobot (Collaborative Robotics)も今年4月に1億ドルの資金調達を発表。独自の非ヒューマノイド型ロボットを開発しています。

CobotのロボットもLLMで学習したAI技術の取り込みに注力し、NVIDIAのシステムを搭載。しかし同社は、主要企業がヒューマノイド開発を競い合う状況と一線を画し、確実性と低コストを重視したロボット開発を志向。RaaS(Robots As A Service)モデルで運用する方針を示しています。Cobotのようなアプローチの方が商用化においては成功する確率が高いと見る向きもあります。

Engineered Artsが開発したAmecaはOpenAIのGPT3を搭載しています。Amecaはあくまでも言語モデルの機械であり、プログラミングされたコード上で動いています。

Agility RoboticsのDigitは倉庫や配送センター等での大量の荷物の取扱いなど、人間の仕事場で安全かつ有用に人間をサポートする仕事を行います。

飲料メーカーDictadorは2022年、人型ロボットMikaをCEOに任命。Mikaは顧客開拓やボトルデザインアーティスト選定等の仕事を担っているそうです。ワルシャワ経営大学名誉教授に任命され、スピーチを行っています。MikaはGPTを含む12のAIモデルに接続して言葉や会話を生成しています。

ロボティクス産業の拡大、ロボットとAIの融合、そしてヒューマノイド実用化が加速しています。日本企業の奮起に期待しつつ、政策的支援を追求します。

3.PaLM-SayCan(パーム・セイキャン)

ヒューマノイド実用化には多くの課題があります。第1は技術的課題。安定した二足歩行には予測不能な地形や障害物に適応する高度な制御技術が不可欠。センサー情報処理、制御アルゴリズム、データ処理速度、自己学習機能等が課題です。

第2は長時間稼働を可能にするためのバッテリー技術。エネルギー密度向上、充電システム開発、省エネルギー設計等が課題です。

第3はセンサー技術。周囲の状況の正確な認識能力、人物及び異なる形状や材質の物体の識別能力、騒音環境下での音声把握能力等が必要であり、高解像度カメラ、高感度マイク、LiDARセンサー、データ高速解析能力等が課題です。

第4はコスト。高精度センサー、アクチュエーター(関節機器)、AIチップ等が高コスト要因。コスト削減のためには、効率的製造プロセス、大量生産によるスケールメリット、部品のモジュール化や標準化等が課題です。

第5は品質管理。とくに大量生産時の品質維持が求められます。ヒューマノイドの品質は第6の規制や倫理とも関係します。プライバシー保護や安全性等のための規則や倫理です。第7に、AIによる意思決定の透明性と説明責任、緊急時(暴走時)等の対応プロトコル整備も課題。第8に市場での需要と採算性の確保。それはコストと性能次第です。

多くの課題を抱えつつも、2024年現在、ロボットやヒューマノイドの進化は劇的に重要な局面の真っ只中です。前項末に記したとおり、AIとの融合が急加速しているからです。

振り返ってみれば、2022年11月登場のChatGPTが世界の人々のAI観を激変させ、LLMという言葉が一般に広まったのが2023年でした。そして2024年、LLMを活用したロボティクスアプリの開発競争が白熱しています。

LLMとマルチモーダルAI(テキスト、画像、音声等の複数種類データを組み合わせ処理できるAI)によって複雑なタスク遂行能力が飛躍的に前進。ディープラーニング技術がロボットの物理的行動の生成に及んでいます。

ChatGPTは突如として現れたわけではなく、2012年頃からの段階的技術進歩の結果です。日本はそうした情報への感度が低く、世界から遅れをとりました。以下少々専門的ですが、AI社会の前提知識として僕なりの理解で整理します。

自然言語処理(NLP)領域では約10年前まではRNN(リカレントニューラルネットワーク)が中心。記憶した過去情報を利用して現在の出力を決定するアルゴリズムです。

しかし2017年、革新的ディープラーニングモデル「Transformer」がGoogle研究者の論文「Attention is All You Need」で紹介され、2018年にはGoogleがNLP技術である「BERT」を発表。さらに2020年「べき乗則(scaling law)」モデルが登場。これは、学習モデルが大きくなると誤差が「べき乗則」的に減少するモデルです。そして実用化加速の最後の一押しとなったのが「RLHF(reinforcement learning from human feedback)」。人間のフィードバックを伴う強化学習モデルです。

Transformerは大きな進歩でしたが、ChatGPT出現までそこからさらに5年の期間が必要だったということです。

実は、ロボット分野ではChatGPT登場の半年以上前の2022年4月からGoogleによってLLM応用が始まりました。

「曖昧な命令も実行可能にする」「現実世界のあらゆる状況に対応する」。これはGoogleが言語処理AIとロボットを組み合わせる上で表明している理念です。

その理念の下、2022年にGoogle Researchとロボット開発企業Everyday RobotsはAI用NLPである「PaLM(Pathways Language Model)」に「SayCan」のカメラ画像(眼)を連動させ、両者を統合した「PaLM-SayCan」を発表。PaLMは5400億パラメータを有するLLMで学習しています。

PaLMが言語理解に基づいてタスクへの対処法を提案し、SayCanがカメラ情報も参考に実行可能な動作(アフォーダンス)を提案。PaLM-SayCanは両者の情報を相互参照し、ロボットにとって最良かつ達成可能なアプローチを特定します。

PaLM-SayCanによるアプローチは、人間とロボットのコミュニケーションを容易にするだけでなく、ロボット自身のパフォーマンスや計画性、実行能力も向上させます。

PaLM-SayCan搭載ロボットは、人間が何を言いたいのか、どう返答すべきかをAIが判断し、より人間らしい自然な反応を選択。PaLM-SayCanはロボットが抽象的な命令を実行できるようにするため、LLMをロボットの行動生成AIに応用する試みです。

公開動画を見ると、「飲み物をこぼしてしまった。手伝ってもらえる?」とインプットすると他のロボットは「掃除機を使ってください」や「ごめんなさい。こぼすつもりはなかった」と不適合な回答をしています。

一方PaLM-SayCan搭載ロボットは、スポンジを持ってきて、空になった缶をゴミ箱に捨て、テーブルを拭きます。このように、抽象的な命令に対し、タスク実行を可能にしたのがPaLM-SayCanです。

これまでGoogleのオフィス内で様々な101のタスクを要求し、84%の確率で適切な判断を下し、74%の確率で正常にタスクを実行しているそうです。

なお、GoogleはPaLM-SayCanを活用して2022年にRT1(Robotics Transformer 1)を発表。翌2023年にはRT2を発表。進化を続けています。

会話エンジンとしてのLLM活用ではなく、ロボットの振る舞いをつくる部分、いわば「行動生成AI」としてLLMを使う方向に進んでいます。その方向で開発されるロボットは、画像、音声、言語という3領域でディープラーニングを行います

マルチモーダルなLLMが、ロボットのカメラ映像などから周囲の状況を判断し、ユーザーからの指示(プロンプト)を達成できるよう、ロボットの物理的な動作を繰り出します。LLMは言語だけでなく、ロボットのモーションにつながる数値データも制御します。ロボットが台車をどう動かすかをLLMが判断し、アームの動きをLLMが生成します。

技術が実用化され、爆発的に普及するには、様々なピースが揃う必要があります。スマートフォンも、米Appleの設計力だけでは実現困難でした。液晶パネル等の薄くて軽いフラットパネルディスプレイ、大容量NANDフラッシュメモリ、低消費電力CPU/SoC、広帯域の移動体通信といったピースが揃って、初めて実用化に至りました。

ブラウン管しかない時代にAppleがスマホの製品化を構想しても、実用化には至らないということです。一方、ひとたびピースが揃うと、新技術は非連続な変化を社会にもたらし、一気に普及します。

そういう意味では、AI搭載ロボットやヒューマノイドについてはまだ欠けているピースがあると思います。それが何かに気づき、それを開発する企業がユニコーンになるでしょう。上述のとおり、言語領域でさえTransformerの登場からChatGPTのヒットまで5年の歳月を要しました。ピースを揃えることに貢献できる企業が日本にも登場することを期待します。(了)