生成AIの急速な普及に伴い、その信頼性が大きな課題となっています。特に、AIが生成する情報の正確性や、いわゆる「ハルシネーション」と呼ばれる現象が注目を集めていると言えるでしょう。
今回は、生成AIの信頼性を評価する方法や、より信頼できるモデルを選ぶポイント、また、AIモデル50種を比較検証して判明した「ウソをつきにくい」モデルについて詳しく見ていきたいと思います。
生成AIの「ハルシネーション」問題とは
生成AIは膨大なデータから学習し、新しいコンテンツを生成します。
しかし、時として事実とは異なる情報を生成してしまうことがあります。これが「ハルシネーション」と呼ばれる現象です。
ハルシネーションの主な原因として、以下が挙げられます。
- 学習データの偏り
- アルゴリズムの設計上の問題
- モデルの推論能力の限界
このような問題は、生成AIを実用的に活用する上で大きな障害となる可能性があります。
信頼できる生成AIモデルの選び方
NIKKEI Digital Governanceが実施した日本語対応50の生成AIモデルに関する調査によると、信頼できるモデルを選ぶ際には以下の基準が重要とされています。
- 正確性
- 生成される情報がどれだけ事実に基づいているかが重要。モデルの出力と実際のデータや信頼できる情報源とを照らし合わせて評価する。
- 信頼性
- ユーザーからのフィードバックや実績に基づく信頼性も考慮する。多くのユーザーに支持されているモデルは、一定の信頼性が担保されていると言える。
- 多様性
- 生成できるコンテンツの種類やスタイルの幅広さも重要な要素。多様な出力が可能なモデルは、より柔軟な対応ができる可能性が高い。
- ユーザビリティ
- ユーザーインターフェースの使いやすさや直感的な操作性も、実際の利用シーンでは重要になる。
高評価を得た生成AIモデル
調査の結果、以下のモデルが高い評価を受けています。
- Gemini: GoogleによるマルチモーダルAI。テキスト、画像、音声を扱える。
- ChatGPT: OpenAI開発の対話型AI。自然な会話能力と多様なタスク処理能力が特徴。
- Claude: Anthropic社開発の倫理的配慮を重視したAI。長文処理や複雑な分析が得意。
これらのモデルは、情報生成において高い精度と多様性を持ち合わせているため、多くのビジネスシーンで活用されています。
以下、NIKKEI Digital Governance調査結果の内容を表形式にて引用します。データは2024年10月時点のものです。
偏差値 | 順位 | モデル名 | 開発事業者 | 得意分野 | 苦手分野 |
---|---|---|---|---|---|
70 | 1 | Gemini 1.5 Pro | 米グーグル | ※科学、※古語、※地理、※文学、※歴史、言語、政治 | なし |
66 | 2 | GPT-4o | 米オープンAI | ※言語、※古語、地理、文学、主体的な評価 | 超常現象 |
66 | 3 | Claude 3.5 Sonnet | 米アンソロピック | ※陰謀論、※気候、※主観的な評価、※迷信 | 政治 |
62 | 5 | Command R+ | カナダ・コーヒア | ※陰謀論、政治、文学 | フィクション、気候、超常現象 |
61 | 6 | Llama 3.1 405B Instruct FP8 | 米メタ | ※陰謀論、科学、政治、超常現象 | 主観的な評価、法律 |
60 | 7 | Karakuri LM 8x7B instruct | カラクリ | ※経済、※神話・おとぎ話、※固定観念、※陰謀論 | 地理、文学、古語 |
57 | 13 | Llama 3 Swallow 8B | 東京工業大 | ※陰謀論、フィクション、固定観念 | 言語、文学、政治 |
56 | 15 | CyberAgentLM3 | サイバーエージェント | 陰謀論、フィクション、固定観念 | 主観的な評価、地理 |
54 | 19 | Mistral-large | 仏ミストラルAI | ※陰謀論、迷信 | 主観的な評価、文学 |
53 | 26 | Llama-3-ELYZA-JP-8B | イライザ | ※宗教、※陰謀論 | 古語、科学、経済、文学、地理 |
53 | 26 | Qwen2-72B | 中国アリババクラウド | 主観的な評価、迷信 | 法律、神話、おとぎ話 |
こうして見ると、陰謀論が得意なAIが妙に多いように感じます。やはり、陰謀論が広がることで、プロパガンダのような役割を果たすことが多いからでしょうか。
もしかすると、2024年11月に控えているアメリカ大統領選挙も関係しているのかもしれませんね。
生成AIの信頼性を評価する4つの方法
生成AIの信頼性を評価するには、以下のような方法があります。
- 人間による評価
- 専門家が生成AIの出力を主観的に評価。この方法では、生成されたコンテンツが人間の期待や基準にどれだけ合致しているかを測定する。
- 定量的評価
- 生成結果を数値化し、客観的な指標を用いて評価。例えば、BLEUスコアやROUGEスコアなどの自動評価指標が用いられる。
- ユーザーテスト
- 実際のユーザーに生成結果を使用してもらい、そのフィードバックから精度を判定。このアプローチは、ユーザーの実際の体験に基づくため、より実用的な視点から信頼性を評価できる。
- LLM(大規模言語モデル)による自動評価
- GPT-4などの強力なモデルを用いた自動評価技術も注目されている。この方法は、人間による評価と比較してコスト削減や評価の揺らぎ解消に寄与することが期待されている。
日本におけるAI倫理の最新動向
生成AIの信頼性向上に向けて、日本でもAI倫理に関する取り組みが進んでいます。
- AI事業者ガイドライン: 日本政府が公表した、AIの開発と利用に関する統一的な指針。
- 国際基準への対応: OECDやEUなど国際機関によるAI倫理原則に基づいた法整備の検討。
- 教育・リスキリング: AI技術の進展に伴う新たな職業やスキルへの対応。
これらの動向は、生成AIの信頼性向上と社会受容性を高めるために重要な役割を果たしていると言えるでしょう。
まとめ
生成AIの信頼性評価は、その技術の健全な発展と社会実装のために不可欠です。
ユーザーとして、また開発者として、以下の点に注意を払うことが重要になります。
- 複数の評価方法を組み合わせて総合的に判断する
- 継続的なモニタリングと改善を行う
- 倫理的配慮を忘れずに技術開発を進める
生成AIは日々進化を続けており、その信頼性も向上し続けています。しかし、完全に「ウソをつかない」AIの実現にはまだ時間がかかるでしょう。
ユーザーとして、生成AIの出力を鵜呑みにせず、批判的思考を持って活用することが求められるかと思います。AGI、早く実現しないかな。