スマホの生成AIで何ができる?生成AI利用上のメリットとデメリット
2025.01.31
最近「生成AI」という言葉をよく耳にするようになりました。
ニュースなどで「チャットGPT」の名がしばしば登場し、CEOであるサム・アルトマン氏のメディアへの露出も頻繁です。
また、AIが生成した画像がネット上を中心に一般的になり、ブログなどでもよく表示されるようになってきました。
そんな生成AIアプリがスマホに搭載されたり、手軽にブラウザ上で利用できるようになってきています。
今回は、スマホと連携した生成AIでどんなことができるのか、また、いくつかある画像生成AIで作った画像を比べてみようと思います。
生成AIのメリットとデメリット
生成AIにはどのようなメリットが期待され、どのようなデメリットが懸念されているのでしょうか。
ここでは、生成AIの「期待面」と「懸念面」を考えてみることにします。
生成AIに期待されるメリット
数限りない分野で生成AIの活躍が期待されますが、中でも、以下の項目はAIの貢献が大きいと考えられます。
(1)作業・業務の効率化
従来は人間が行っていた文章作成、画像作成、データ分析等の作業や業務を自動化することができるため、人間の作業負担の軽減、作業時間の短縮、人手不足の解消など人的資源の効率化をもたらします。
また、顧客個々のニーズを分析することにより、よりパーソナライズされたサービスの提供が可能となります。
(2)新たなアイデアや価値の創出
疲れたり飽きたりすることのないAIは、人と比べると非常に短時間で多量のデータを学習することが可能ですが、それらを元にして人間には思いつかないような斬新なアイデアや新たな価値観を生み出す可能性があります。
AIによって新たに創出されたデザインやコンセプトによって製品開発の速度が加速し、より効率的な製品開発を進めることが可能となります。
(3)社会的な課題の解決
生徒ひとりひとりの学習の進捗状況やスタイルに合わせた教育面、画像診断の支援や新薬開発などの医療分野、気候変動の予測や詳細なシミュレーションによる環境問題の解決など、AIが社会的な課題の解決に大きく貢献する可能性があります。
生成AIに懸念されるデメリット
生成AIには様々な分野で多方面な活躍が期待される一方、AIを導入することによって懸念されるデメリットも少なくありません。
(1)雇用の喪失・依存性
AIが人間の作業を肩代わりすることによって雇用や就業の機会が失われることが懸念されます。また、AIに依存し過ぎた場合、人間の能力や判断力の低下が懸念されます。
(2)偏見や差別
AIは学習したデータに基づいた結論を導くため、何を学習したかによっては、偏った判断や差別的な判断をしてしまうリスクがあります。これにより、立場の異なる人がいる場合、不公平な結果を導いてしまう可能性があります。
(3)誤情報の拡散
AIは何を学習させたかによっては、事実とは異なったり正しくない情報を導いたりする可能性があります。また、悪意を持つ人が生成AIを利用して、実在の人物の画像や音声などを偽造する「ディープフェイク」が作成されるリスクも無視できません。
さらにそれらの誤った情報や判断がSNSなどを通じて拡散されてしまう可能性もあり、AIによる情報の真偽の判断は慎重に行わなければなりません。
(4)プライバシーや著作権などの侵害
生成AIが学習するデータには個人情報が含まれる場合があり、AIが導く情報や判断によって個人のプライバシーが侵害される恐れがあります。
また、AIが著作物を無断で利用することによって著作権を侵害してしまう恐れもあり、AIにコンテンツ作成を依頼する場合には、倫理面での充分な注意や配慮が必要です。
生成AIでどんなことができるの?
最近よく耳目にするようになった「生成AI」ですが、では、生成AIで具体的にどんなことができるのか…について把握できている方は少ないかもしれません。
そこで、ここでは生成AIでできることの中から代表的なものをいくつかご紹介します。
(1)画像生成
(2)文章生成
(3)音楽生成
(4)コード生成
画像生成
人間が与える指示(プロンプト)や、参考資料などから画像やイラストを生成することができます。人間の想像力では及ばない独創的で美しい画像を生成したり、短時間に大量の画像を生成したりするなど、AIならではの画像生成が可能です。
文章生成
画像と同様にプロンプトの指示に従って、テーマや条件に沿った文章(記事)を生成することが可能です。
また、商業的な文章、例えば広告文、キャッチコピー、セールスレターなども生成することが可能です。
音楽生成
プロンプトによって指示すれば、楽曲を生成することも可能です。オリジナル楽曲を作ることも可能です。
試しに、Microsoft Copilotに「明るくて元気が出るような曲を作って」と依頼すると、以下のようなコード進行を提案してくれました。
キー:Cメジャー テンポ:アップテンポ(約120 BPM) イントロ: C – G – Am – F バース: C – G – Am – F C – G – F – G サビ: C – Am – F – G C – Am – F – G ブリッジ: Am – G – F – G Am – G – F – G エンディング: C – G – Am – F C – G – C – C |
コード生成
プログラムミングやウェブ制作(デザイン生成)、ゲームやアプリの開発などに必要な、プログラミングコードを生成することが可能です。
実際に画像生成AIを使ってみた
生成AIの様々な機能のうち、もっとも身近で広く浸透していると思われる画像生成について、著名な2種類のAIに同じ指示(プロンプト)をして生成される画像の違いを比べてみました。
プロンプトは「呪文」などとも呼ばれ、画像系に限らず生成AIに作業をさせるために不可欠な「言葉の指示」です。
ちなみに今回使ったプロンプトは以下の通りです。
『湖の湖畔でvan conversion車での車中泊キャンプの様子、焚き火とBBQで肉を焼く様子、近くには釣りをする人、湖の向こうには山のシルエット、夕焼け』です。
筆者はバンコンキャンパーで、車中泊キャンプ等にも出かけるため、プロンプトを作るにあたって一番詳細に具体的に指示できると考えました。
Bing Image Creator
1つ目の生成AIは、Windowsのマイクロソフトが提供する「Bing Image Creator(ビング・イメージ・クリエイター)です。
Bing Image Creatorは、Microsoftが提供する画像生成ツールで、利用者(この場合は筆者)がが指定したテキスト(プロンプト・呪文)を基にして、AIがオリジナルの画像を生成してくれるサービスです。
Bingは、生成AIである「Microsoft Copilot(マイクロソフト・コパイロット)」が実装され無料で利用できますが、その中の画像生成を担う部分が「Bing Image Creator」です。
生成AIというと多くの方がまっ先に思い浮かべるのが「ChatGPT」だと思いますが、実はMicrosoftは、ChatGPTのOpenAI社の大口出資者であるため、実はCopilotの裏ではChatGPTの「GPT-4」が動作しています。
ChatGPTで上位バージョンである「GPT-4」を使用するのは有料ですが、BingでCopilotを利用するのは無料です。つまりCopilotでは「GPT-4」を無料で使用していることになり、非常にお得と言えます。 |
Bing Image Creatorは、パソコンからもスマホからも利用でき、ブラウザ上で動作(生成)するので、インターネットとブラウザさえあれば誰でも簡単に利用可能です。
こちらが『湖の湖畔でvan conversion車での車中泊キャンプの様子、焚き火とBBQで肉を焼く様子、近くには釣りをする人、湖の向こうには山のシルエット、夕焼け』と指示してBingのAIが作成した画像になります(4種類生成します)。
中でも筆者の感覚に最も近いと思われたのがこちら。
プロンプトでの指示はほとんど網羅されています。人の数は1~2名ともう少しプライベート感のあるイラストをイメージしていましたが、そこは指示に含まれていないので致し方ありません。
また、BBQの網の上にはもっと色とりどりの野菜なども並べてほしかったですが、それもプロンプトに含まれないのでAIのせいではないと言えます。
逆にプロンプトにはない「湖畔に浮かぶ船」や「飛ぶ鳥」「覆いかぶさる樹木」「ベンチ」などはAIの判断で加えられています。
湖畔の人のシルエットがまるっきり「影絵」のようなのが気になりますが、車体の質感や、焚き火の煙(湯気?)などはうまく表現されているように感じるので、充分にプロンプトに応じたイメージを生成してくれたと言えるでしょう。
Google Gemini
2つ目の生成AIは、Googleが提供する「Gemini」です。
Geminiは、Googleの生成AIであり、Geminiを使用する様々なサービス全体のブランド名で、それまで「Bard」と称していた生成AIチャットサービスのリブランドも含め、2024年2月に発表されました。
Geminiには3種類のバージョンが用意されています。
・Gemini Ultra(ジェミニ・ウルトラ)
「Ultra」は、Geminiの最上位バージョンで、有料プランやビジネス向けのプランなどで提供される高精度なモデルです。
・Gemini Pro
「Pro」は、Geminiの汎用モデルにあたり、AIチャットやスマホアプリなどに無料で提供されるモデルです。
・Gemini Nano
「Nano」は、スマホやタブレットなどのデバイス内蔵向けのモデルです。
今回、筆者が利用したのは、iPhone向けアプリの「Google Gemini」です。プロンプトは全く同じ文面『湖の湖畔でvan conversion車での車中泊キャンプの様子、焚き火とBBQで肉を焼く様子、近くには釣りをする人、湖の向こうには山のシルエット、夕焼け』です。
Geminiでは、Bingの生成AIとは異なり、プロンプトに対してイラストは1枚のみ提供されます。
正直驚きました。
まさに、筆者がプロンプトで思い描いていたようなイメージで、しかも非常にリアリティがあり、イラストというより写真に近い印象です。
BBQについては理解しなかったのかイメージに含まれませんが、その他はまさに筆者の想像通りのイメージです。
釣り人に関しては「湖に立ち込んで」という指示は出していませんが、AIの判断でそのようなイメージになっていますし、このサイズ感の車両の就寝人数は1~2名という点もAIが自分で想定したのかもしれません(偶然かもしれませんが)。
さらに、キャンパーの内装に木目が好まれるといった点まで把握しているとすれば、GeminiのAIとしてかなり高精度と言えるのではないでしょうか。
自分としては、Geminiのこうした生成精度が常に保たれるのであれば、継続的に利用したいと思いました。
実際に文章生成AIを使ってみた
文章生成についても試してみました。
使用したAIは、「Microsoft Copilot」と「Google Gemini」で、プロンプトは『しばらく会っていない知人への年賀状に添える200文字程度のあいさつ文を考えて。その知人は今年結婚したのでその点を含めて。』です。
Microsoft Copilotの生成文
プロンプトに基づいて生成された文面は以下の通りです。
『明けましておめでとうございます。長らくご無沙汰しておりますがお元気でしょうか。昨年はご結婚おめでとうございます!新しい生活が幸せに満ちていることを心から願っております。今年も素晴らしい一年となりますように。また、機会がありましたらぜひ近況をお聞かせください。本年もどうぞよろしくお願いいたします。』
プロンプトでは「今年結婚した」と指示したのに、年明けに届く年賀状であることを勘案して、「昨年はご結婚おめでとう」と状況に合わせた対応をしています。文面もよくまとまっていて実用的と感じました。
ただ、年賀状に添えるあいさつ文と指示したのに「明けましておめでとう」と年賀の言葉も含めている点は、プロンプトでは想定していませんでした。年始の文言は印刷して、添える言葉が欲しかったので、その点は少し想定と違っていました。
Google Geminiの生成文
Geminiがプロンプトに基づいて生成した文面は以下の通りです。
『結婚の報告、どうもありがとう!素敵なパートナーと新しい家庭を築かれたとのこと、心から嬉しいです。お二人の未来が、笑顔と幸せで溢れるものとなるよう心よりお祈りしています。少しバタバタしているかと思いますが、くれぐれもご自愛ください。機会があれば、改めてお祝いの言葉を伝えたいと思っています。また近いうちに会えるのを楽しみにしています。』
こちらは「昨年」といった状況を勘案した表現は使われていませんが、「年賀状に添えるあいさつ文」という点をしっかり理解して、年始の文言は含めずに「添えるあいさつ」として生成されていて想定通りでした。
プロンプトについて
プロンプトは、AIに生成させたいものを指示するための文章です。
今回は『湖の湖畔でvan conversion車での車中泊キャンプの様子、焚き火とBBQで肉を焼く様子、近くには釣りをする人、湖の向こうには山のシルエット、夕焼け』といったプロンプトで画像生成を指示しました。
車種を「バンコン」としなかったのは米国生まれの生成AIに対して、日本語独特の略語は理解しにくいだろう…と考え、バンコンの元になった「Van Conversion」を使用したところ、いずれのAIもうまく車種を理解してくれました。
一方で、「BBQ」は英語圏でも使われる言葉なのでそのまま略語を使いましたが、Geminiでは理解されなかったのか、別の理由なのか、無視された形になりました。
AIが理解できる言葉は膨大で、日常会話でも専門用語でも、かなりの許容範囲を持っているようですが、今回の記事のために実際にプロンプトを作ってみて分かったのは、言葉の使い方や物事の説明の仕方で結果が大きく変わるという点でした。
また、全く同じプロンプトを使っても、事例でもわかるようにAIによって生成されるモノはかなり異なりますし、同じAIに同じプロンプトを使っても、同じイメージを生成することはありませんでした。
Geminiが最初に生成したイメージには驚かされましたが、同じプロンプトで2枚目、3枚目を生成させても、1枚目以上に筆者のイメージに近いものは生成されなかったことを踏まえると、自分のイメージに近い結果に出会えたのは多分に幸運も作用した気がします。
前項の最後に「こうした生成精度が維持されるなら継続利用を」と書きましたが、常にイメージ通りの画像を描いてくれるとは限らないようです。
スマホと生成AI まとめ
今回は、スマホで利用可能な生成AIについて考えました。
実際に「Microsoft Copilot(Bing Image Creator)」と「Google Gemini」を使用して、画像生成と文章生成を試してみましたが、各々の個性と言うか、プロンプトの理解の仕方や深さに違いは感じましたが、いずれも充分実用的な精度を持っていると感じました。
これなら、日々の生活やイベントごとの際にも気軽に利用できるツールになり得そうです。
「Microsoft Copilot」「Google Gemini」以外にも、様々な生成AIアプリやサービスがあるので試してみてはいかがでしょう。
ちなみに、本稿のイメージ画像は、画像生成の項でプロンプト『湖の湖畔でvan conversion車での車中泊キャンプの様子~』で生成した画像以外は、すべて『「スマホと生成AI」をテーマにしたイラストを描いて』のプロンプトでAI描いたイラストです。
生成AIが『「スマホと生成AI」をテーマにしたイラストを描いて』から何をイメージしたのか考えてみるのも面白いかもしれません。
関連の記事