「仕事でAIを積極活用せねばなぁ…」と思い立ち、手元でサクッと使える生成AIサービスを使ってみると、それぞれにクセがあることに気付いた。

おそらく、それぞれのサービスの成り立ちや仕組みなどはあちこちのAIマニアさんたちが紹介しているだろうし、それこそ生成AIに聞いてまとめたら詳しく説明してくれるだろうから、俺は全く違うアプローチで比較をしてみる。俺が気付いた「クセ」に注目した比較である。

なお、言うまでもないが、俺の「主観」でクセを見つけているので、実際に使ってみてそんなことはないと思う人もいるかもしれないが、あくまでも俺の主観であることをお忘れなきよう。

比較対象物
それぞれの「クセ」
どっちもそれなりにクセツヨ
余談として：NotebookLM

比較対象物

今回比較をするのは、ChatGPTとGeminiである。一般的な比較をしてみる…、が、主観が不要な部分なので、AIに聞いてみる。

質問の内容はこうだ。「ChatGPTとGeminiの比較を1000文字程度でまとめてください。」。以下、それぞれの回答は質問に対して帰ってきたレスポンスをそのままコピペしている。

ChatGPTの回答

承知しました。ChatGPTとGeminiの比較を、1000文字程度でまとめます。

近年、生成AIは急速に進化し、代表的な存在としてOpenAIの「ChatGPT」とGoogleの「Gemini」が注目を集めている。両者は自然言語処理を基盤とした大規模言語モデルでありながら、その開発思想や強みには違いがある。

まずChatGPTは、対話形式に特化して発展してきた点が特徴である。ユーザーの問いに自然かつ分かりやすい文章で答えることを重視しており、教育、ビジネス、プログラミング支援、文章作成など幅広い領域で使われている。またOpenAIはAPI提供や外部サービス連携を積極的に進めており、SlackやNotionなどの業務ツールに統合されやすい点も強みである。さらにGPT-4やGPT-5といった世代ごとの進化により、推論力や情報整理力が向上しており、ユーザーが“会話パートナー”として利用する場面が多い。

一方、GeminiはGoogle DeepMindが開発したモデルで、検索やクラウドサービスとの親和性が高い。特にGoogle検索やYouTube、Gmailなど既存の巨大エコシステムと統合されることで、最新情報やマルチモーダル処理に強みを発揮する。Geminiはテキストだけでなく画像やコード、動画理解にも対応しており、情報アクセス型のAIアシスタントとしての役割を明確にしている。またGoogleの持つ検索インデックスを活かし、最新ニュースや専門知識を迅速に提供できる点はChatGPTとの差別化要因となる。

比較すると、ChatGPTは「会話体験に優れた汎用AI」、Geminiは「検索と連携した情報特化型AI」と整理できる。ChatGPTはユーザーが思考を深めたり文章を練ったりするのに適しており、Geminiは事実検索やマルチメディアを扱うタスクに強いといえる。今後は両者が互いの長所を取り込みながら進化していくと予想され、ユーザーは用途に応じて選択することが重要になるだろう。

こちらでおおよそ1000文字です。

ご希望に合わせて「表形式」や「ビジネス視点での比較」などに整理し直すこともできますが、その方向でまとめ直しましょうか？

Geminiの回答

ChatGPTとGeminiは、どちらも大規模言語モデル（LLM）ですが、開発元、アーキテクチャ、機能において重要な違いがあります。

開発元とバージョン

ChatGPTは、OpenAIによって開発されました。これは、GPT-3.5やGPT-4などのモデルに基づいており、主にテキストベースの対話に特化しています。GPT-3.5は広く利用され、GPT-4はより高度な推論能力と創造性を提供します。

一方、Geminiは、Googleによって開発されました。これは、マルチモーダルモデルとして設計されており、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報をネイティブに理解し、生成できます。Googleは、GeminiをUltra、Pro、Nanoの3つのサイズで提供しています。

アーキテクチャと機能

アーキテクチャ

ChatGPT（特にGPT-4）は、トランスフォーマーアーキテクチャに基づいていますが、その具体的な詳細は非公開です。これは、膨大なテキストデータから学習し、人間のような文章を生成することに優れています。

対照的に、Geminiは、開発当初から真のマルチモーダル能力を持つように設計されました。これにより、複数の異なるデータタイプを最初から統合して処理することができます。この設計は、単一のモデルがテキストだけでなく、画像や動画などの情報を同時に理解することを可能にします。

機能

ChatGPTの主な機能は、自然言語処理です。これには、質問応答、文章作成、要約、翻訳、プログラミングコードの生成などが含まれます。ChatGPT Plus（有料版）では、DALL-E 3やWebブラウジング機能と統合されており、より高度な機能を利用できます。

Geminiは、そのマルチモーダルな性質により、より多様なタスクを実行できます。例えば、画像内のオブジェクトを認識して説明したり、グラフからデータを抽出したり、手書きの数式を解いたりすることができます。また、テキストと画像の組み合わせ（例：画像とそれに関する質問）も理解し、応答できます。このため、Geminiは複雑な概念的なタスクや、複数の情報源を統合する必要がある場合に特に強力です。

パフォーマンスと利用

パフォーマンス

Gemini Ultraは、多くのベンチマークテストでGPT-4を上回るパフォーマンスを示しました。特に、数学、物理学、多肢選択式問題など、高度な推論を必要とするタスクで優位性があります。Gemini Proは、Google Bard（現在はGeminiに改名）の主要モデルとして、GPT-3.5と競合する性能を提供します。

利用

ChatGPTは、ウェブサイト、iOS、Androidアプリを通じて広く利用可能です。Geminiは、Bard、Pixelデバイス、Google Cloudを通じて利用できます。特に、Googleの既存の生態系（検索、Gmailなど）との統合が進んでおり、将来的にさらに多くのGoogle製品に組み込まれる可能性があります。

まとめ

特徴 ChatGPT Gemini

開発元 OpenAI Google

モデル GPT-3.5, GPT-4 Gemini Ultra, Pro, Nano

アーキテクチャ テキストベース（マルチモーダル機能はプラグイン経由）ネイティブなマルチモーダル

強み自然言語処理、対話能力高度な推論、マルチモーダルタスク

利用場所 Web, アプリ Bard, Pixel, Google Cloud

ChatGPTは、対話とテキスト生成において非常に洗練されており、幅広い用途で信頼されています。一方、Geminiは、テキストと他のデータ形式を統合して理解する能力において、次世代の可能性を示しています。どちらも進化を続けており、それぞれの強みが異なるユースケースで役立ちます。

特徴	ChatGPT	Gemini
開発元	OpenAI	Google
モデル	GPT-3.5, GPT-4	Gemini Ultra, Pro, Nano
アーキテクチャ	テキストベース（マルチモーダル機能はプラグイン経由）	ネイティブなマルチモーダル
強み	自然言語処理、対話能力	高度な推論、マルチモーダルタスク
利用場所	Web, アプリ	Bard, Pixel, Google Cloud

補足

ChatGPTの回答の本文部分の文字数は810文字*1、それに対してGeminiは表内の文字も含めて1,633文字。

また、それぞれのAIエンジン(正しく言えば「AIモデル」)は、デフォルトのままなので、ChatGPTは「GPT-5」、Geminiは「2.5 Flash」を使っている。

それぞれの「クセ」

それぞれのAIサービスの比較文章を生成させてみても、回答の内容と言うか濃さ、または「態度」が違う。もっと言うと、回答に向き合う姿勢が違う。

TL;DR

簡単に言うと、と言うよりは、この生成された文書を読んだり、実際に生成された文章を見て思うのは、

ChatGPTはカジュアルで、会話から気付きを得る感じ
Geminiはお堅い感じで、初手から完璧な回答を出したい感じ

である。

ついでに、それぞれ、ChatGPTにGeminiの、GeminiにはChatGPTの印象を伝え、さらに「秘書をイメージ」したアニメ風の画像を生成させてみたところ、こんな感じの画像が表示された*2。まぁ見た目の印象もこんな感じかなぁ。

ChatGPTに描かせたGeminiたん。ボツにした写真でもそうだったんだが、「お堅い」という指示のせいなのか眉も上がっててちょっと威圧感を感じる。

ChatGPTたん

カジュアル、という印象もそうだが、一緒に話を盛り上げながら、またはブレストでもしながらアイデアをまとめて行きましょうか、というような感じで対話が進んでいくのがChatGPTである。

ひとつの質問に対して帰ってくる答えは、必ずしも完璧な、求めているモノではない、というのか、回答に質問者が考えられる余白が存在する、という言い方をしてもいい。

文章で言うなら、最初の時点ではざっと要約的な書き方をし、そこから「ご希望に合わせて」微調整をしていく、という方向に誘導し、質問者からのインプットを求めて考えを膨らませていく*4というアプローチを取っているように見える。

画像はもっとその傾向が強く見える。言い方を変えれば、指示したスクリプト通り*5に描いた、なのだが、背景もないし、いわゆる「肖像画」状態である。もちろん、画像を生成した後に「調整するよ」と回答をすることで、『もっとイメージを膨らませて作り上げていこうよ』という態度である。

文章にせよ画像にせよ、そして実際に俺がすでに使っているコーディングの補完業務でも、「コアの部分」、スクリプトに書いてある内容は最低限満たしているのだが、粗削りかつシンプルで、無駄のないアウトプットが得られる、と思っている。

Geminiたん

そんなChatGPTに対して、投げかけられた質問に対して完璧に答え(ようとしてい)るのがGeminiである。

なんなら不足している情報があれば勝手に補完してくれるし、情報に不足があるかどうかを尋ねようものなら完璧に不足点を列挙してくる。

文章はかなりビジネスライク、というか、アイデアだけを質問すれば「自分(＝Gemini)」が知っていることすべての中から必要なことを追加してくれる。良くも悪くも完璧が過ぎるのである。

画像に関しても*6、ChatGPTではなかった画像の背景や、人物に付属する小物類など、細かいディテールまで作り込んでいる。

文章、画像どちらも、「質問を一度するだけですぐに使える成果物を回答する」という感じに見える*7が、実際にはまだ不足している点や、おかしい点なども存在するため、どちらかと言えば完璧と思われるアウトプットに対してツッコミを入れることでアウトプットの精度を上げていく感じだろうか。

どっちもそれなりにクセツヨ

ここまで書いてみて、この記事の結論をどうまとめようか、と思っていたら、すでに上に引用した、ChatGPTの回答が使えそうなので再引用してみる。

比較すると、ChatGPTは「会話体験に優れた汎用AI」、Geminiは「検索と連携した情報特化型AI」と整理できる。ChatGPTはユーザーが思考を深めたり文章を練ったりするのに適しており、Geminiは事実検索やマルチメディアを扱うタスクに強いといえる。

そもそも、Geminiは、Googleが作り、Googleの持つ「知識」を元に回答をしている(正しく言えば推論している)のだから、ChatGPTに比べれば知識量は膨大であると考えていい*8。だから、語弊を恐れずに言えば、より「いろんなことを知っている」のはGeminiだし、「知らないことが多いが地頭がよい」のがChatGPT、と言ってもいい*9。

ただし、どちらのシステムにおいても、回答がすべて正しいわけではない、ということに注意すると、ChatGPTは回答を小出しにすることで正しくない回答を出すリスクを減らしつつ、質問からの「正しい情報」を得ながら正答率を上げていく、というようなスタイルであるように思えるし、逆にGeminiはテンプレ的な回答を先に出し、そこから不要なモノや誤りの指摘などで正答に導いていくスタイル、と考えると、それぞれの使い勝手が見えてくる気はする。

余談として：NotebookLM

今回の比較は、アプリケーションとしてのChatGPTとGeminiを比較しているのだが、俺自身はGeminiをそのまま使っているわけではなく*10、普段はGeminiのエンジン(モデル)を使ったAIエージェントのNotebookLMを使っている。

記事を書くきっかけはこのNotebookLMで得られる回答があまりにも融通の利かない回答ばかりであったことから始まっている。

NotebookLMの概要や仕組みについては省略するが、コイツの中に自分が作った資料をいくつか投入し、それらの整合性確認をし、さらにそこから新しいアイデアを生み出させようとした時に、『不足している情報はあるか？』と質問したところ、微に入り細に入り、必要な情報を列挙してきたのである。

それ自体は問題ない、と最初は思っていたのだが、俺の中では、「推測したり想定したり、そんな不足情報を補完するということはしてくれないのか？」と思い、『不足している情報を補完しつつ資料を完成させよ』と質問すると、完璧ではあるが少し膨大な資料ができあがり、内容のチェックをして情報を修正することで使えそうな資料が生成AIを使って完成した、という顛末である*11。

さすがに参考とすべき社内資料をChatGPTに渡すわけにはいかないので*12、まったく同じことをすることで比較することはできないが、単純比較としてできそうなことはなんだろう、と思って今回はChatGPT対Geminiの比較をしたのである。

なお、NotebookLM自体は会社で導入しているGoogle Workspacesのサービスとして使っており、まずは経営系業務の中で使っていこうと思っている。

*1:回答として出力された文字をすべて数えても932文字。

*2:写真風でも作ってみたが、ちょっとイケてなかったのでボツにした。

*3:全然関係ないけどGeminiの生成画像はウォーターマークがついてるんだな。

*4:まさに「ブレスト」のようなスタイルである。

*5:指示したスクリプトは「テーマは、話し相手として、お堅い印象を受けるが、常に完璧な回答をしてくれる人物。秘書をイメージしている。」

*6:ちなみにスクリプトは「テーマは、話し相手として、カジュアルな印象を受け、話を盛り上げながら答えを出してくれるような人物。秘書をイメージしている。」

*7:コーディング補完業務ではまだ使ったことがないのでどんなアウトプットが出てくるかは分からない。

*8:ちなみにコレもChatGPTが比較した文章に書いてある内容だったりする。

*9:Geminiの「地頭」が悪いわけではないが、それよりも圧倒的な知識量の多さがGeminiの強みだろう。

*10:もちろん今回の記事を書くためにGeminiアプリケーションを使ってみた。

*11:具体的には会社の中期経営計画をAI駆動で作成した。別に銀行や投資家向けじゃないのでこれでいいかな、と。

*12:一応社外秘の情報なので…

人生は失敗と反省の連続

(俺流)生成AIサービス比較：その１

比較対象物

ChatGPTの回答

Geminiの回答

開発元とバージョン

アーキテクチャと機能

アーキテクチャ

機能

パフォーマンスと利用

パフォーマンス

利用

まとめ

補足