試行錯誤で学んだことで起きてしまう判断のバイアスは世界共通

早稲田大学

2024/6/28 11:00

2024 年 6 月 28 日

早稲田大学

試行錯誤で学んだことで起きてしまう判断のバイアスは世界共通

詳細は早稲田大学HPをご確認ください。

発表のポイント

●人間は試行錯誤によって学習しますが、場合によっては最適でない判断をすることがあります。異なる社会経済的・文化的背景において、学習によって起きる判断のバイアスがどのように現れるかはわかっていませんでした。

● 経済的判断の傾向に関する調査の結果、情報を把握した上で行う意識的な判断においてリスクを回避する傾向は国によって違いがありましたが、試行錯誤の学習によって生じたバイアスには社会経済的・文化的背景の影響が見られませんでした。

● この研究結果は、多様な背景を持つ個人がどのように意思決定をしているのかについて明らかにしたもので、産業界や政策立案者にも貴重な洞察を提供すると思われます。

パリ高等師範学校のHernán Anlló博士、Stefano Palminteri教授と早稲田大学理工学術院の渡邊克巳教授らの研究グループは、社会経済的・文化的背景が異なる11カ国の人々の経済的判断の傾向を調査し、明示的な情報にもとづいたリスク回避の傾向などは国によって違いがあっても、試行錯誤を通じた学習による行動のバイアスにはほとんど違いが見られないことを明らかにしました。

本研究成果は、英国科学誌『Nature Human Behaviour』に、2024年6月14日（現地時間）にオンラインで掲載されました（論文名：Comparing experience- and description-based economic preferences across 11 countries）。

（１）これまでの研究で分かっていたこと（科学史的・歴史的な背景など）

人間を含む動物は、試行錯誤によって学習します。これを強化学習※1といいます。強化学習は本来、報酬を多くし、罰を少なくするという単純な目的を持っています。しかし文脈によっては最適でない判断につながることが知られていました。強化学習は、医療、教育、経済、経営、政策などの分野に広範な影響を及ぼすにもかかわらず、異なる社会経済的・文化的背景などが、強化学習にどのように影響するかは分かっていませんでした。

（２）今回の新たに実現しようとしたこと、明らかになったこと、新しく開発した手法

この疑問を解決するために、強化学習における文脈効果を確実に捉える実験的アプローチを用いて、社会経済的・文化的に異なる11カ国の人々の経済的判断の傾向を調査しました。

（実際の報酬ではなく例えになりますが）、

　A：75%で一万円（期待値※2＝7500円）

　B：25％で一万円（期待値＝2500円）

　C：75%で一千円（期待値＝750円）

　D：25％で一千円（期待値＝250円）

をもらえる選択肢があったとします。このような選択肢の「〜％で〜円」の部分を明示的に示して判断させる「宝くじ課題」では、「AとB」のどちらか、「CとD」のどちらかを選ばせると、当然期待値の高いAとCを選びます。これを何度も繰り返した後に、今度は「AとD」「BとC」をペアにして選ばせても、AとCを選びます。ただし、このような意識的な判断の時に、報酬を得られないというリスクを回避する傾向（例えば「BとC」をペアとしたときに、期待値は低いが報酬を得られる確率は高いCを選択する傾向）は国によってかなり違っていました。

一方、「〜％で〜円」の部分を明示的に示さずに、試行錯誤によって学習させる「強化学習課題」も行いました。「AとB」「CとD」の組み合わせで学習し、期待値の高いAとCを選ぶようになった後に、「AとD」「BとC」をペアでどちらを選ぶかをみると、「AとD」ではAを選ぶのですが、「BとC」だと確率的には期待値の低いCを選ぶことのほうが多くなりました。さらには、このような最適でない行動をする程度は、今回調べた全ての国でほとんど違いが見られませんでした。

つまり、経済的判断において、情報を説明された上で行う意識的な判断は社会経済的・文化的背景によって違いが出てきますが、強化学習によって（おそらく無意識的に）形成される行動は、ほとんど影響を受けないことが示唆されます。

（３）研究の波及効果や社会的影響

日本人はリスクをとらない傾向が強いと言われることがあります。例えば、1億円が当たる確率が1％の方が、5万円が当たる確率が50％の場合よりも、期待値という点では優れています。でも、報酬を得られないことを避ける傾向が高ければ、2番目の選択肢がより高い効用を持つように見えるかもしれません。

しかしながら、本研究はこのような明確に情報が与えられた時の判断と、個人が試行錯誤の結果学んだ行動にはズレがあるということを示しています。この結果は、個人の意思決定だけではなく、医療・教育・経済・経営・政策などより大きな枠組みを捉えるときも重要な知見となります。

（４）今後の課題

本研究は、社会がグローバルな結びつきを強める中、人間の意思決定を支える共通の基盤としての強化学習を調べたものになります。この研究結果は、多様な背景を持つ個人がどのように複雑な意思決定をしているのかについて明らかにし、産業界や政策立案者にも貴重な洞察を提供するものだと考えています。今回は国というものを、文化的・経済的背景を表すものとして一時的に用いましたが、今後はさまざまな集団や個人差なども考慮して、人間の意思決定の普遍的な部分と多様性を解明していきたいと考えています。

（５）研究者のコメント

私たちの判断や気持ち、行動が文化・環境に影響されるという説は、さまざまな場面で語られることがありますが、動物としての人間がもつ基礎的なプロセスと複雑に絡み合っていて、「どの側面でどの程度」という捉えをしなければ、実際に役には立ちません。「日本人だから」「遺伝が全てだ」「人はそれぞれ違う」「人はみんな同じ」など単純な言い切りをせずに、研究を通じて丁寧に紐解いていくことが必要だと思います。

（６）用語解説

※１強化学習

報酬に基づく試行錯誤を通じた学習。獲得した経験に基づいて行動することを可能にするメカニズムや行動のこと。

※２期待値

1回の試行で確率的に得られる値の平均値。期待値がより高くなる選択をすることが、確率的に「良い」選択といえる。

（７）論文情報

雑誌名：Nature Human Behaviour
論文名：Comparing experience- and description-based economic preferences across 11 countries
執筆者名（所属機関名）：Hernán Anlló(パリ高等師範学校/早稲田大学)　―他24名― Katsumi Watanabe (早稲田大学)、Stefano Palminteri（パリ高等師範学校）
掲載日時（現地時間）：2024年6月14日
掲載URL：https://www.nature.com/articles/s41562-024-01894-9
DOI：10.1038/s41562-024-01894-9

（８）研究助成

研究費名：ムーンショット型研究開発事業

研究課題名：非接触表面情報からの身体運動を伴う場合の心身状態の推定

研究代表者（所属機関名）：渡邊克巳（早稲田大学）

研究費名：科研費基盤（A）

研究課題名：クロスモーダル型人間拡張技術の知的基盤の構築

研究代表者名（所属機関名）：渡邊克巳（早稲田大学）

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。