前回に続いて生成AIの話です。去年の今頃、「生成AI」という言葉を知っていた人はごくわずかでした。しかし、1年前の11月に「Chat GPT」が登場。年明け後の通常国会の際には、法案説明に来る各省幹部に「生成AIを試してみたことありますか」と聞くと、ほとんどの回答が「ノー」。そこで、その都度実演して見せると一様に驚愕。少しは啓蒙活動に寄与したかもしれません。今や予算案も「日本独自の生成AI創造」が項目に上がるようになりましたが、世界は遙か先を行っています。今後もこの話題は避けて通れませんので、自分の情報整理もかねて続編をお届けします。
1.ニューラルネットワーク
生成AIはプロンプト(ユーザーからAIに対する指示)を理解し、予め学習した大量のデータを活かして適切な回答を導き出す仕組みです。つまり、事前に情報を蓄積することでAIとしての機能を獲得します。
学習手法として、機械学習(マシンラーニング)、ニューラルネットワーク学習、深層学習(ディープラーニング)の3つを理解しておく必要があります。
この3つの関係は、機械学習の一類型がニューラルネットワークであり、ニューラルネットワークのより高度なものが深層学習という関係です。
第1の機械学習では、膨大な資料やデータを読み込んで記憶します。その記憶に基づいて、判断や質問に対する回答を行います。
第2のニューラルネットワーク学習は、人間の脳神経網の構造を模して構築されたプログラムによって、単に記憶するだけでなく、情報の軽重や情報間の関係を学びます。
人間の脳はニューロンという細胞とシナプスという樹枝状の連絡路で構成されていますが、その構造を模したプログラムがニューロンネットワークです。学習方法のアルゴリズム(手順)のひとつとも言えます。
第3の深層学習は、そのニューロンネットワークを多層化したアルゴリズムで学習を重ねるものです。
あえて喩えれば、機械学習は小中学生的記憶力、ニューラルネットワーク学習は高大生的思考力、深層学習は大学院生的想像力の獲得につながります。
膨大なデータに基づく学習や事前トレーニングに用いられる基本的なデータ群は基盤モデル (FM:Foundation Model)と呼ばれています。
さらに、Chat GPTでブレークした最近の生成AIの学習には大規模言語モデル (LLM:Large Language Model) という超膨大なデータが使われています。様々な形式やパターンで構成され、インターネット並みのデータ量です。
また、学習する際の手法としては「教師あり学習」「教師なし学習」「強化学習」という3つがあります。
「教師あり学習」は答えが決まっている(正解がはっきりしている)データを学習することです。一方「教師なし学習」は答えが決まっていない(正解がはっきりしていない)データから統計的手法を使って学習することです。
「強化学習」は判断したり行動したりした内容に応じた反応(アメとムチ)を与えることで、何が正解かを学習させることです。
上記の内容のうち、生成AIのみならず、AI全般の飛躍的発展には、ニューラルネットワークの登場が画期的な進歩につながりました。ニューラルネットワークの歴史について簡単に整理しておきます。
第2次大戦中の1943年、米国の脳外科医ウォーレン・マカロックと数学者ウォルター・ピッツが神経回路網理論(形式ニューロン)を発表。現実の脳と比べて極端に単純化された理論であり、あまり注目されませんでした。
1949年、カナダの心理学者ドナルド・ヘッブが神経回路の学習機能を説明するシナプス理論を発表。これもまだ現実的と考えられる段階ではありませんでした。
1957年、米国の心理学者フランク・ローゼンブラットが人工ニューロンやニューラルネットワークの原型であるパーセプトロンを考案。
1967年、人間の小脳の神経回路網構造が明らかになったことで、マカロック、ピッツ、ヘッブ等の理論が注目され、パーセプトロン研究がブームになりました。しかし、1970年代にパーセプトロンの限界が明らかになり、神経回路網研究は一時期下火になります。
1986年、米国の認知心理学者デビッド・ラメルハートが「バックプロパゲーション」という学習アルゴリズムを発見し、パーセプトロンの限界を突破。ニューラルネットワーク研究の深化とコンピュータの急速な進歩が相俟って、AI開発加速につながりました。
2006年、英国のコンピュータ科学者ジェフリー・ヒントンが「ディープ・ビリーフ・ネットワーク理論」を発表し、深層学習(ディープ・ラーニング)の分野を開拓しました。
2.検索機能SGE
生成AIにはいくつかのカテゴリーがあります。第1はテキスト生成。プロンプトを入力するとAIがその内容を解析して回答テキストを生成します。代表的製品は、GPT-3、GPT-4、Chat GPT、Google Bard、PT-3、LaMDA、LLaMA、BLOOM等。
第2は画像生成。プロンプトに従って画像を生成できます。代表的製品は、Stable Diffusion、Canva、Imagen、DALL-E、Midjourney等。
第3は動画生成。生成AI開発の中でも難度が高く、現時点では短い動画生成が実用化。近い将来、技術進歩により長尺動画あるいは映画生成もできるようになるでしょう。代表的製品は、Runway ML、Gen-1、Gen-2、Make-A-Video等。
第4は音声生成。ある人物の声を入力すると、その声質を高精度で再現。その人物の音声を使ったテキスト読上げなどが可能です。本人の声を収録せずにアバター等に音声付加(アテレコ)できます。代表的製品は、Voicevox、CoeFont等。
第5は音楽生成。音楽波形とテキストを学習することで、「静かなギターメロディ」等のプロンプトから音楽サンプルを生成できます。代表的製品はMusic LM等。
第6はプログラム生成。作成したいプログラムの内容をプロンプトとして文章入力することでプログラムコードを生成。システム開発のために必要なテストデータも生成できます。代表的製品はOpen AI Codex等。
第7は分子生成。アミノ酸、DNA等の情報や生物学的データを学習することで、タンパク質の構造予測や創薬に利用できます。代表的製品はAlpha Fold等。
第8はロボット制御。モーションプランニング、ロボットシステム等を学習した生成AIは、「青い服を取る」「皿を洗って仕舞う」といったプロンプトの内容を実行します。代表的製品はGoogle Research UniPi等。
文章生成の代表的製品は米国Open AIが開発したGPTです。現時点でGPT-4まで公開されており、非常に高い言語処理能力を有しています。GPT-4は米国司法試験に合格できるほどの知能を有しています。
GPTを活用したサービス(製品)が同社開発のChat GPTです。Microsoftの検索エンジンbingと提携し、検索エンジン上でGPT-4で作られたAIを使用できます。
今年5月、Googleによる新しい検索機能SGE(Search Generative Experience)が発表され、現在ではGoogle検索上でSGEが試験運用されています。
SGEはキーワードの検索意図に沿った回答を自動生成する機能です。従来は検索のヒントになりそうな情報が集まったWebサイトを検索者が発見し、自ら情報を取得。SGEはその「情報の取捨選択負担」を解消することになります。
画像生成ではMidjourneyが現在の生成AIブームの火付け役です。指示したプロンプトに応じて自動的に画像を生成します。日本では2022年にブームになり、画像生成AIは衝撃的に受け止められました。DALL-E 3と並んで画像生成AIの先駆けと言えます。
これらの画像生成AIに使用されている生成モデル(プログラム)がVAE(Variational Auto-Encoder)です。例えば、特定の画家やイラストレーターの作品を学習させると、VAEは同様の作風の作品やイラストを生成します。
GAN(Generative Adversarial Networks)も画像生成AIに使用される生成モデルですが、VAEとは画像生成の流れが異なります。Generator(生成器)とDiscriminator(識別器)の2種類のネットワーク構造を競わせて、より高度な画像を生成します。
多数のクリエイティブツール(写真、イラスト等)を提供しているAdobeは、生成AIを活用した画像生成サービスFireflyをリリースしました。Fireflyで使用されるクリエイティブはAdobe Stockから抽出しているため、著作権侵害リスクがありません。
3.ハルシネーション
生成AIは多様な機能・分野で実用化段階に入っています。筆頭は文章機能。会議の議事録を音声データから書き起こすことに加え、要約も行います。キャッチコピーや作詞等の創作業務も可能です。
画像・動画系では、ショート動画作成、服飾や建築のデザイン、Webサイト用背景素材作成等にも供しています。創造領域では、プログラミングのコード生成やデバッグ(間違いの修正)も行います。
金融機関は生成AI搭載の会話型ボットを使用して、商品説明、問い合わせ対応等に活用。人的コスト削減と顧客サービス向上を企図しています。
抗体・酵素・ワクチン等の設計、遺伝子治療のための新しいタンパク質配列作成等、創薬等のヘルスケアとライフサイエンス分野でも活用され始めました。
自動車メーカーは、機械部品や車両の設計最適化、迅速化にも活用。メディアやエンターテインメント分野では新しいジャンルやゲームを創造。通信データを分析してネットワークパフォーマンスを最適化したり、顧客の電力使用データを分析して供給最適化を図ることもできます。
海外企業の活用事例として、米国ウォルマートは10万超のサプライヤーとの取引において生成AI搭載のソフトウェア(チャットボット)による自動交渉を実現。人間が数週間ないし数ヶ月要していた商談を数日で行えるようになったそうです。相手も同様の機能を使い始めると、取引交渉は瞬時に完了すると思います。
独シーメンスはマイクロソフトと共同で生成AIを活用したアプリケーション開発を開始。生成AI搭載のアプリケーションに言葉で問いかけると、プログラミング、デバック、開発ドキュメント作成等を行います。
米国オンライン旅行会社エクスペディアは、生成AI搭載のアプリケーションによる顧客との会話に基づく旅行プランニング、パーソナライゼーションを行っています。
国内では、三井不動産が10月からGPT-4を用いた自社特化型AIチャットツール「&Chat(アンドチャット)」を開発。全社員が「&Chat」によってWeb最新情報や社内データを有効活用。社内連携による業務効率化や顧客サービス向上を企図しているそうです。
創薬分野では、1月に富士通と理化学研究所が大量の電子顕微鏡画像からタンパク質の形態と構造変化の推定を行う生成AI創薬技術を開発。従来比10倍以上の迅速化に寄与。
現時点の生成AIができないこと、苦手なこともあります。人間の指示の意図を汲み取ること、感情をもつこと、創造性や直感を働かすこと、倫理的・道徳的な判断をすること等です。
しかし、プロンプトの内容が適切であれば、文字情報や言語情報から相手の気分に合った応答をすることは可能だと思います。
何でも悪意をもって使用をすれば問題は起きますが、悪意はなくても起きうる生成AIのリスクもあります。
第1は、著作権・知財権。学習データをもとに文章や画像を生成することから、学習に使用した素材の著作権を侵害するリスクがあります。
米国アーティストのカーラ・オルティスは今年1月、他のアーティスト2人とともに画像生成AI「Stable Diffusion」を運営する英スタビリティーAI社やMidjourney社などを相手取り、著作権侵害の集団訴訟を起こしました。
第2は、事実の真偽性。生成AIが出力した情報は必ずしも正しいとは限りません。学習データ以降の新たな情報はフォローできないうえ、学習データと整合しない回答をしてしまう「ハルシネーション (hallucination、幻覚)」を起こします。人間の幻覚に喩えたネーミングですが、「作話(confabulation)」とも表現されます。
今年6月、米国ニューヨーク州の弁護士が審理中の訴訟資料作成にChat GPTを利用した結果、存在しない判例を引用。裁判官が存在しない判例の記述に気づき、弁護士に確認したところ資料作成にChat GPTを使っていたことが発覚しました。
第3はフェイク情報。これは悪意が前提となっています。生成AIを悪用したフェイク文章、フェイク音声、フェイク動画は現実の脅威です。詐欺・詐称・名誉毀損等の犯罪に発展します。米国トランプ前大統領、バイデン大統領のフェイク動画は予想の範囲内でしたが、岸田首相のフェイク動画も登場し、つい最近ニュースになりました。
今年8月、日本赤十字社が関東大震災の体験記等を生成AIに読み込ませることで新たな「証言」を作成し、展示する企画展を計画。これに対してSNS上で「記録捏造」との批判が殺到し、企画展は中止。悪意はなくても、使い方、倫理的配慮の問題です。
第5は、プライバシー侵害等の情報漏洩やセキュリティ上の懸念。生成AIに個人情報や会社の機密情報を入力して使用すると、その情報自身が学習データ化し、他のユーザーが使う際に出力情報として流用されてしまうリスクがあります。
第6に、サイバー攻撃への悪用。生成AIはフィッシングメールの文面を生成したり、サイバー攻撃用のプログラムコードを生成する目的で使われるリスクがあります。プロムプト及び生成する文面やコードが悪意に基づくものか否かは生成AIでは判断できません。上述の「意図」を理解できない弱点がリスク化するということです。
リスクがあっても、生産性向上の観点から普及は進むでしょう。Goldman Sachsは、生成AIによって世界のGDPが7%増加し、生産性は10年間で1.5%ポイント上昇すると予想しています。
コード生成は生成AIの最も有望な分野のひとつです。コーディングAIであるAmazon Code Whispererによりシステム開発の生産性が大幅に向上。Amazonは、Amazon Code Whisperer を使用すると、正常にタスクを完了する確率が27%高くなり、作業効率は57%向上すると表明しています。
(了)