矢野:何も教えていないので、最初はやみくもに動くだけです。ところが2分(動画では40秒付近)を過ぎたあたりで、何かをつかみ始めます。3分(動画では50秒付近)経つとブランコの振れがどんどん大きくなる。
飯田:ああ、なるほど。さまざまな試行のなかから、評価関数の値が良かった動きだけが残っていくというわけですね。
矢野:ええ。評価関数も数秒に一度の頻度でアップデートして、新しい変数をどんどん作っていきます。すると、ある瞬間から人間と同じようなやり方で膝を曲げて伸ばすという方法を、事前知識なしで習得してしまったというのがこの実験なんです。
飯田:本当だ。子どもたちがよくやる動きですね。
矢野:ええ。でも実はこれで終わりじゃないんです。しばらくすると、さらに振幅が増していきます。ブランコの弧の一番後ろで膝を曲げるだけでなく、前方でも膝を曲げるという、2回曲げ伸ばしをする奥義(1分35秒付近)を見出して、こんなに激しい振幅するようになりました。
飯田:すごい! こんな漕ぎ方を人間はしないですね。
矢野:ブランコを物流倉庫のシステムに置き換えると、これと同じことが起きます。全体もより最適化できます。人間のデータを入れれば、その人の個性を活かしつつ生産性を上げていくこともできます。
今はAIを使うためのお膳立てを人間がしていますが、それもAI自身がやるようになれば、たしかに人間から機械への代替は起こるかも知れません。ただアウトカムの判断や、タスクを整理しどこを人間が行いどこを機械に任せるのかは人間の価値判断そのものなので、そこをAIに委ねることは私にはイメージできません。