「生成AIを使った新しい検索方法」全文翻訳

Googleは、生成AIを使用して検索を改善する新しい方法を発表しました。同社は、この新しいテクノロジーにより、ユーザーはより自然でやりがいのある方法で質問をすることができ、より関連性の高い結果を受け取ることができると述べています。この記事ではGoogleの公式ドキュメントを翻訳し、掲載しています。

生成AIを使った新しい検索方法

SGEの概要

概論
SGEとは何ですか？
SGEの仕組み
責任を持って GenerativeAI を適用する
既知の制限事項
検索の未来を共に築く

概論

著者：Srinivasan Venkatachary および共同研究者

私たちは、最先端の生成AIをGoogle検索の中心に取り入れることを楽しみにしています。数十年にわたり、AIはGoogle検索の裏側で役立ち、人々が情報を探索しやすくなるよう再構築すること、品質と関連性を向上させること、健全なオープンウェブをサポートすることができました。実際、Google製品における初めての機械学習の応用の1つは、スペル修正システムでした。それは2001年、20年以上前のことであり、スペルミスやタイプミスにかかわらず、人々が関連する結果をより迅速に取得できるように支援しました。

近年、AIの突破口により、検索が大きく改善されました。2019年には、Bidirectional Encoder Representations from Transformers（BERT）を検索ランキングに取り入れ、検索品質の飛躍的な向上が実現しました。BERTは、単語を個別に理解することを目的とするのではなく、単語が使用された文脈を理解することで、人々がより長い、より会話的なクエリを行い、関連性の高い、役立つ結果を得ることができるようになりました。

その後、私たちはより強力な大規模言語モデル（LLM）を検索に適用し、Multitask Unified Model（MUM）などのモデルを開発しました。MUMはBERTの1000倍強力で、75種類の言語と多くの異なるタスクを同時にトレーニングしています。また、複数モーダルに対応しており、検索のさまざまな機能で使用され、品質を向上させ、情報を新しい方法で理解し、整理するのに役立っています。たとえば、MUMを使用して、ビデオ内の関連トピックが明示的に言及されていない場合でも見つけるのを支援しています。

しかし、生成AIで可能なことはまだまだ限られています。これらのモデルはGoogle検索を向上させ、人々が情報と関わる方法を革新するでしょう。私たちは、新しいプログラム「Search Labs」を通じて可能性を実験しており、最初の実験「SGE（Search Generative Experience）」から始めます。

ここでは、SGEに取り組む方法について説明します。SGEとは何か、どのように動作するか、そして責任を持って開発するために取ったステップについて説明します。私たちのSGEアプローチは、Labsでの継続的な研究、経験、およびユーザーフィードバックから学ぶにつれて進化していきます。英語で米国で利用可能なSearch Labsに登録するには、labs.google.com/searchを訪問してください。

SGEとは何ですか？

SGEとは、生成AIを使って検索体験を変革するための早期のステップです。SGEを使用すると、人々は、従来のウェブ検索結果ページを見ながら、新しい方法で情報を取得できるようになります。

SGEを使用すると、人々は以下のことができるようになります:

Searchで答えることができるとは思わなかった全く新しい種類の質問をすることができる
関連する検索結果へのリンクがあり、トピックについての情報を迅速に把握できる
新しい会話モードで自然にフォローアップの質問をすることができる
例えば、アイデアを簡単に生成したり、検索内で下書きを作成することができる

SGEは検索の基本に根ざしており、Web上のコンテンツの豊かさと活気につながり、情報の品質に対して最高の基準を追求し続けます。

SGEの仕組み

AIを活用したスナップショット

必要に応じて、SGEは人々が迅速に概要を把握し、考慮すべき要因や関連する洞察や情報の有益な総合を提供するAIを活用したスナップショットを表示します。これらのスナップショットは、人々がウェブ上で多様なコンテンツや視点を探索するための飛び出し口として機能します。SGEは、スナップショット内の情報を裏付けるリソースへのリンクを表示するため、人々は情報を自分で確認し、さらに探索することができます。これにより、人々は出版社、クリエイター、小売業者、事業者などの多様なコンテンツを掘り下げ、見つけた情報をタスクの進展に活用することができます。

会話モード

人々はスナップショットの下に表示されるフォローアップを依頼するか、提案された次のステップのうちの1つをタップすることで、新しい会話モードを起動できます。このモードでは、人々は自然な形でGoogleにトピックについてさらに質問することができます。AIによって生成された簡潔な情報のスナップショットを超えて、人々は探索するための追加のリソースへのリンクでより深く掘り下げることができます。

会話モードは、フォローアップの質問や、より複雑なまたは進化する情報探索に特に役立ちます。会話モードは、人が以前の質問に関連するものを検索しているときに、AIを使用して理解します。前の質問からの文脈を引き継ぎ、意図をより正確に反映するようにクエリを再構築します。会話モードでは、人々はSGEの下に表示されるWebリンクが会話の進行に合わせて変化するため、Web全体から最も関連性の高いコンテンツを簡単に探索できます。

垂直体験

SGEは、多面的な検索を必要とするショッピングやローカル検索などの垂直に関連する情報探索にも役立ちます。たとえば、ショッピングでは、SGEはインサイトを発見して、人々がより速く簡単に複雑な購入決定を行えるように支援します。製品検索では、SGEは検討すべき注目すべき要因と製品オプションの範囲のスナップショットを生成します。SGEは、最新かつ関連性の高いレビュー、評価、価格、製品画像を含む製品の説明を提供します。この最新の製品情報は、SGEがGoogleのショッピンググラフに基づいて構築されているため可能であり、これは常に変化する製品、販売者、ブランド、レビュー、在庫の世界で最も包括的なデータセットです。

同様に、SGEはローカルの場所に関する文脈を提供し、比較やオプションの探索を簡単にするAIによるインサイトを使用します。

SGEにより、Search広告は引き続きページ全体にわたる専用の広告スロットに表示されます。この新しい体験では、広告主は検索プロセスを通じて潜在的な顧客にアプローチする機会を引き続き持つことができます。私たちは、より多くを学ぶにつれ、広告体験をテストして進化させていく予定です。

いつも通り、私たちは透明性を保ち、広告とオーガニック検索結果を区別することを約束します。Search広告が表示される場合、業界をリードするクリアで透明な広告ラベルが引き続き表示され、黒い太字の「スポンサー」のラベルが表示されます。

創造性

これらの新しい生成AI機能は、人々が情報を見つけるだけでなく、それを活用するより創造的な方法で情報旅行を続けるのに役立ちます。私たちは、新しいebikeを検索して、それを見せる完璧なソーシャル投稿を書くといった、情報旅行のより創造的なステップを実行するために、これに有用な応用があると信じています。

SGEは情報的な応用と創造的な応用の両方に精通していますが、私たちは意図的に安全性と品質に重点を置いているため、創造的な使用には制約があることにユーザーは気付くでしょう。時間が経つにつれて、品質が向上するにつれて、私たちは創造的な機能を拡張し続ける予定です。

ユーザー体験

Googleでは、包括的なユーザー調査に基づいて行動しています。私たちは多くの年月をかけて、Searchユーザーインターフェース（UI）をより有用でアクセスしやすくするために進化させてきました。AIの力をユーザーフレンドリーな方法でSearchに取り込むために、SGEを統合された体験として構築し、ユーザー行動について学んだことを適用しています。AIパワードスナップショットには、簡単にアクセスできるリソースと、リンクの認識可能なUIがあり、デスクトップやモバイルの両方でさらに探索することができます。さらに、ユーザーが対話モードに移行するのを支援するために、注意深く作り込まれたコールアウトやハイライトされた状態を提供し、この新しいパラダイムをどのように使用するかをユーザーに示します。たとえば、対話モードでは、ユーザーはクエリとそのフォローアップの文脈を継続的に再構成するAIの動作を見ることができます。

色も、Searchとの新しいやり取り方法であるSGEが明確に理解されるのに大きな役割を果たしています。たとえば、AIパワードスナップショットのカラーコンテナーはダイナミックに変化し、この色の使用法は今後数か月で、特定のジャーニータイプやクエリの意図自体をよりよく反映するように進化します。

責任を持って GenerativeAI を適用する

SGEを慎重に実験的に展開しており、GoogleのAI原則に従っています。私たちは、Searchで長年にわたって磨いてきた保護措置やアプローチを頼りに、責任ある開発に取り組んできました。以下は、私たちが考慮した主な点です。私たちは今後もこのアプローチを進化させ、業界の専門家、政策立案者、人権団体のリーダー、コンテンツクリエイターなどと協力し、プロセスの一部として改善していくつもりです。

モデルのトレーニング

SGEは現在、MUMやPaLM2の最新バージョンを含む様々なLLMによって動作しています。機能セット全体で複数のモデルを使用することで、ユーザーの特定のニーズに合わせてモデルをさらに最適化し微調整することができます。

多くの人々が、Bardのような実験を通じてLLMに直接関わってきました。SGEもLLMを利用していますが、高品質なウェブ結果を特定し、出力で提示される情報を裏付けるために特定の検索タスクを実行するように目的的に訓練されています。これらのモデルは、コアランキングシステムと連携して、役立つ信頼できる結果を提供するために使用されています。

これらの特定のタスクにSGEを制限することで、幻覚や不正確さなどのLLMの既知の制限を著しく軽減できます。また、私たちの既存の検索品質システムと高品質で信頼できる情報を特定してランク付けする能力を利用して、これらの課題をさらに軽減しています。下記で詳しく説明します。

人間の入力と評価

製品を責任を持って開発するには、人間の入力と評価が重要です。その他の品質チェックに加えて、SGEの出力を訓練する際にも、長さ、フォーマット、明瞭さなどの属性に焦点を当てて人間の入力を利用しています。

検索においては、ランキングシステムを訓練し改善するために、人間の入力と評価に頼った堅牢なプロセスを長年にわたり適用してきました。そして、その多くのよく検証された原則や学びを、SGEを訓練・評価する方法にも適用しています。以下にその例を挙げます。

レーター：独立した検索品質レーターと協力して、出力の品質や表示される結果を測定することで、訓練用データとして利用しています。これらの評価はSGEの出力に直接的に影響は与えませんが、LLMsを訓練し、全体的な体験を向上させるために使用されます。
重点分析：現在の検索において重要な立ち上げに対して行っているプロセスに従って、複数の幅広く代表的なクエリセットを対象に結果を分析するとともに、よりフォーカスした研究を行い、応答が品質基準を満たしていることを確認しています。特に、既知の品質リスクにより影響を受ける可能性のあるトピック領域や、より複雑で微妙な領域に注力しています。これには、安全性や包含性の問題がより高いリスクにさらされる可能性のあるクエリのクラスが含まれ、それらのドメイン全体で効果的な保護策と対応策が確実に行われるようにしています。
レッドチーミング：これらのシステムについて敵対的なテストを行い、意図した通りに機能しない領域を特定します。これにより、偏りの問題、安全上の懸念事項、製品を改善できる他の領域が特定されます。

これらのアプローチを新しい研究に基づく技術で進化・改善し続けています。

検索品質システム

人々は、信頼できる情報を求めて検索エンジンを利用することが多く、他の場所で聞いたことを確認するためにも使用します。そのため、私たちは信頼できる、役立つ、高品質の情報を提供するための高い水準に自分たちを保持しています。そのために私たちは、数十年にわたって磨き上げてきた検索エンジンのランキングと品質システムに根ざした、自社カスタマイズの生成型AIの統合を構築しました。私たちは長年にわたって検索エンジンにAIの進歩を取り入れており、信頼できる結果を提供するために設定した高い基準を維持するため、厳格な評価プロセスを開発しています。

私たちのランキングシステムが、潜在的に有害、憎悪的、露骨なコンテンツで人々を意外にショックを与えたり、不快にさせたりしないように設計されているように、SGEもそのようなコンテンツを表示しないように設計されています。

私たちは、情報の信頼性が極めて重要な「あなたのお金や命に関わる」（YMYL）トピックに関する応答を生成する際に、SGEにより高い基準を設けています。金融、健康、市民情報などのYMYLトピックについて、私たちは、信頼できる情報源に裏付けられた、より情報的な応答を生成するために、SGEにより一層の注意を払っています。また、モデルには、適切な場合には免責事項を含めるようにトレーニングを施しました。たとえば、私たちは、健康に関するクエリに対して応答を表示する場合、情報を医療アドバイスの代替手段として利用すべきではなく、個別のケアには医療専門家と協力するべきであることを強調する免責事項を表示します。

SGEが応答を生成しないトピックもあります。一部のトピックでは、オープンウェブ上での品質や信頼性の欠如が単に原因である場合があります。これらの領域（「データの空白」や「情報の欠落」と呼ばれることがあります）において、私たちのシステムの応答に対する信頼度が低い場合、SGEはAIによるスナップショットを生成しないように設計されています。SGEは、露骨または危険なトピック、または脆弱な状況を示すクエリに対してもスナップショットを生成しないように設計されており、たとえば、自傷行為に関するクエリでは、私たちのシステムが代わりにトラストされたホットラインリソースを自動的に検索結果のトップに表示します。

ポリシー

SGEではポリシー違反のコンテンツが表示されないよう、自動化されたシステムが機能しています。SGEは、特色付けされたスニペットやオートコンプリートのためのユニークなポリシーと一致し、例えば露骨な、憎悪を煽る、暴力的な、公益上の問題での合意に反するなど、配慮が必要なコンテンツに対して細心の注意を払います。

通常、システムはポリシー違反のコンテンツを表示される前に捕捉するよう設計されていますが、SGEは実験的な機能であるため、違反するコンテンツが表示されることがあります。そのような場合には、ポリシーに基づいて適切な措置を取り、違反するコンテンツが再び表示されないようにします。また、これらの例を使用して、モデルの将来の改善につなげます。Search Labsにおける実験的な機能であるSGEについて、経験をより有益にするため、ポリシーを引き続き検討して適切に改善していきます。

事実性と流動性

SGEに関して、意図的に行った選択の一つは、AI-poweredスナップショットと会話モードの両方での回答の流動性に関するものです。

私たちは、モデルに流動性を与えることが、出力の不正確性のリスクを高める可能性があることを発見しました（下限の制限を参照）。

同時に、回答が流動的で会話的な性質を持つ場合、人間の評価者が回答を信頼しやすく、エラーを見つけにくくなることがわかりました。

人々が検索に対して持つ信頼を考慮し、会話性を制限することに意図があります。例えば、人々はSGEの会話モードが自由なクリエイティブなブレストパートナーではなく、関連するリソースへのポインタを持つより事実的なものであると感じるかもしれません。

情報の品質と体験の流動性のバランスを取ることは重要であり、私たちはこのバランスについて反復し、SGEを改善していく予定です。

ペルソナの欠如

LLMは、人間の経験を反映するために人々が使用する言語を学習しているため、意見や感情を反映するように見える回答を生成する可能性があります。しかし、SGEはペルソナを反映しないように意図的にトレーニングされています。たとえば、SGEは第一人称で応答するように設計されておらず、ウェブの結果で裏付けられた客観的で中立的な回答を提供するようにモデルを微調整しました。

既知の制限事項

既にSGEには様々な保護機能が組み込まれていますが、LLMsおよび初期の実験形式におけるこの体験には、いくつかの既知の制限があります。以下は、評価および敵対的テストにおいて観察された損失パターン、およびSGEに予想される他の制限です。多くの場合、モデルの更新および追加の微調整で既に改善を図っており、SGEの発展に伴いさらなる進歩を期待しています。

検証中の誤解釈：SGEは、スナップショットを裏付ける情報を適切に特定しているが、言語のわずかな誤解釈により出力の意味が変わる場合がある。
ホールシネーション：すべてのLLMベースの体験と同様に、SGEは時に事実を誤表示したり、不正確な洞察を特定したりする場合がある。
バイアス：SGEは、高品質なリソースで応答を裏付けるようにトレーニングされているため、高い順位の結果であることが多いスナップショットを表示する場合があり、ウェブ上で利用可能な視点の範囲よりも狭い範囲を反映することがあります。これにより、モデルがこのバイアスを学習したという印象を与えることができます。ただし、これは現在の検索結果でも起こる現象です。たとえば、男性スポーツについて書く際に、権威ある組織やメディアはしばしば「男性」という修飾語を加えません。そのため、そのスポーツに関する一般的なクエリは、女性の選手やチームに関する情報が同様またはより正確な応答であっても、男性の選手やチームにバイアスがかかる場合があります。
ペルソナを示唆する意見性の高いコンテンツ：SGEは、生成された出力に中立的で客観的なトーンを反映するように設計されていますが、ウェブ上に存在する意見を反映する場合があり、モデルがペルソナを表示しているような印象を与えることがあります。
既存の検索機能との重複や矛盾：SGEは他の検索結果や機能と一緒に検索結果ページに統合されているため、SGEの出力が他の情報と矛盾する場合があります。例えば、単一の情報源の視点を強調する特集スニペット結果を見ることがある一方で、SGEは複数の結果に基づいた合成された視点を示している場合があります。

検索の未来を共に築く

SGEの責任ある展開の一環として、私たちはユーザーとの明確な期待設定を行い、品質と安全性の向上に向けて進歩するにあたり、まだ存在する制限にも注意を払っています。SGEをSearch Labsを通じて最初に提供することで、人々に新しい技術とのやり取りの機会を提供しながら、まだ実験的な段階であることを透明性を持って示しています。

まだSGEの早期段階ではありますが、私たちは積極的にこの体験を改善し、品質と機能性を向上させることに取り組んでいます。Labsのユーザーからのフィードバックを学び、改善を続け、そして一緒に検索の未来を築くことを楽しみにしています。

A new way to search with generative AI