2016年11月28日

「ロボットは東大に入れるか」成果報告会 in 2016(11/14)レポート

昨年のものはこちら。また,朝日新聞によるまとめ・結果一覧はこちら。

以下は聴講の記録だが,大部分は昨年と解法などが変わらないため,文章短縮化のため変わらない部分は「昨年と同じ」と同じとして省略するのでご了承願いたい。

昨年はマーク模試・東大模試ともに駿台・ベネッセのものであったが,今年はマーク模試がベネッセ,東大模試が代ゼミのものになった。東大模試は一昨年まで代ゼミのものだったので,出戻りになった形になる。私自身風の噂で聞いただけなので話半分として書くが,駿台とは何やら揉めたらしく,代ゼミに戻ってきたそうだ。まあ,そもそも駿台の東大実戦は配点がおかしいので,河合の東大オープンか代ゼミの東大プレを使うのが無難ではあろう。


[解法についての教科全般の話]
・例によって,OCRで直接文章を読み取って東ロボくんに流し込む,というのは未実装。ほとんどの科目は問題文をXMLに書き下すところまでは人力。ただし,数学のみMathMLとせず,テキストデータの状態のまま解答まで全て人工知能だけで行う“完全自動化”に成功したそうだ。

[総評]
・リンク先の朝日新聞にあるが,消えた時のために転機しておくと,マーク模試は950点中525点,900点満点に換算すると517点。偏差値だと57.1という成績が出る。昨年の偏差値が57.8なので,やや下がっている。ただし,これは東ロボくんの武器であり,昨年は152/200(偏差値64.0と65.8)を叩き出した数学2つが今回は不調で,129/200(偏差値57.8と55.5)であった影響が大きい。にもかかわらず総合偏差値が0.7しか下がっていないのは,他の科目が若干ではあるがそれぞれ偏差値が伸びているためで,一応研究が進展しなかったというわけではない。
・結果的に英語・国語・世界史という一般的な私大文系の受験型(3教科)に絞ると偏差値は55を超え,これは法政大学や関西大学なら,学部学科によってはA判定が出るラインになる。……ただ,ご存じの方はご存じの通り,関関同立MARCHの中で関西大学と法政大学は一番入りやすいところなので,これをもって「関関同立MARCHに受かるようになった」というのはかなり無理があり,語弊があるようにも。各マスコミの報道を見ると,すっかり「難関私大にも届いた」のようなことが書いているが,実際のところ関関同立MARCHは大学・学部により偏差値帯が大きく異なり56〜64くらいまで含むので……
・ところで英語・国語の偏差値が50前後で,社会科の偏差値だけ65オーバーというのは,私大文系の浪人生の5月頃の成績で非常によく見るパターンで,要するに直前期に社会科の知識は叩き込むので急激に偏差値が伸びるが,英語・国語の地力不足はごまかせていないという奴である。こういう子は血反吐を吐きながら英語と国語の成績を伸ばして早稲田に手がかかるか,結局最後まで社会科だけを武器に不安定に戦ってMARCHのどこか(下手したら日東駒専)に落ち着くかのいずれかになる。
・東ロボくんの東大模試の成績は文系数学が46/80(偏差値68.1),理系数学が80/120(偏差値76.2),世界史が16/60(偏差値51.8)であった(他科目は未受験)。数学の成績は伸びていてしかも抜群であるが,世界史は昨年とほぼ変わっておらず,ほぼ平均点である。


[東ロボ手くん]
デンソーウェーブが開発した,代筆機械。ただし,ぶっちゃけて言うと電王手くんシリーズの技術の応用であり,そう目新しさはない。とはいえ,手にボールペンを持ってきっちり文字も数字もアルファベットも書けているのはなかなかすごかった。これで東大模試はちゃんと解答用紙に記述できるようになった,とデンソーウェーブの技術者は誇らしげであったが,代ゼミの担当者からは「東大は本試も模試も解答は鉛筆またはシャーペンのみという規定があるが,東ロボくんは筆圧の関係でボールペンしか使えないので,実際0点では?」と辛辣なツッコミを受けていた。来年度の東ロボ手くんには,シャーペンを持てるようになっていることを期待しよう。ちなみに,字はかなり上手いものの,書き順はめちゃくちゃである。書き順を守ると字がひどく下手になるのだと思うが,これは左利きの私自身書き順滅べと思っていることを書き添えておく(漢字の書き順は右利きが書きやすいようになっている)。


[英語(筆記)・リスニング]
・基本的な解法は昨年までと同じ。今年は文法・熟語・構文(第2・3問)の分野を強化した。母体となるテキストデータを約50倍に増やし,3300万文から19億文(10億語から500億語)に増やし,そこを検索して問われている構文と同じ(または極めて似ている)文を探し出して正解を当てはめるので,増やせば増やすほど有利になると考えた。実際に500億語まで増やすとかなり精度は高くなり,第2・3問の正答率は大幅に向上した。
・にもかかわらず点数・偏差値ともに昨年からほとんど伸びていないのは他の大問で苦戦したからで,運にも見放されて全く点数が取れなかった。第4問以降が昨年並の正答率だったなら120点程度にはなっていたようで,であれば偏差値は60台に載っていたかもしれない。
・会話文の空欄補充や,第4問以降の長文読解の分野はまだ苦手である。発表者の推測によると,これらの分野の攻略にはまだまだ母体のテキストデータが足りず,500億語ではなく500億文(1兆語オーバー)が必要になるのではないか,しかも単調な文ではなくあらゆる文法や構文が入っている複雑で高品質な文章の,と話していた。しかし,そうなるともう膨大なデータを持ってそうなGoogleさんしか取り組みようがない分野なのでは……私見だが,会話文・長文はもう別の手法で取り掛かるしかないように思う。
・というかGoogleさんがSATやSATの科目テストに挑んでアイビーリーグ合格水準を叩き出したらすごくおもしろいと思うのだが,そういう研究はやってないのだろうか。
・また,今年はディープラーニングを導入してみたが,全く上手くいかなかったという。ついでに書いておく。東ロボくんに対する反応として,「人工知能の研究であるのにディープラーニングを頑なに使わないのはなぜか」というものをたまに見るが,使わないのではなく使えないのだそうだ。ディープラーニングは成績向上には全く結びつかなかった。


[国語(現代文・古文)]
・いろいろ解法を工夫した結果,選択肢を2つまで絞り込むことまではできるようになったという12月くらいの受験生みたいなことを言っていた。しかも評論が得意で小説と古文が苦手である。身に覚えのある読者の方も多いのでは。
・古文はようやく本格的に取り掛かった。解法は現代文と同じで,現代語訳して,訳があってればそれで行けるだろうという予測だったようだが,現代文の小説が今ひとつ解けていないのにそれで解けると思う方が間違いであると思う。結果は割りとひどい16/50で,特に現代語訳問題は3問全て落としたとのこと。おい現代語訳の精度。
・漢文は未実装。まあ古文がようやく本格参戦したところではあるので。
・思うに,入試に出る古文・漢文のバリエーションなんて大したことないので,英語で50億文のテキストデータをインストールなんてできるんだったら,古文・漢文もよく出る文の本文と現代語訳を全てインストールしておけばけっこう攻略できてしまうのでは? それで50億文も行くまいし……と私がここで思いつくことはやっていないはずがないので,多分やって何かしらの理由でダメだったのだろう。
・なお,ここでもディープラーニングは明らかに向かないので試しすらしなかった,と語られていた。


[物理]
・解き方を昨年と大きく変えた(というよりも研究者が変わった)。昨年まではシミュレーションを動かして,実験結果から解答を出すという手法だったが,入試問題で必要になるシミュレーションが意外と複雑で,挫折していた。そこで,問題文を読解する過程で無理やり数学的な問題になるように人工知能に読解させた上で,限量記号消去(QE)で解答を出すという戦法に変えた。数学の分野では上手く行っているからという意味では正しい発想だが,まーたQEかという笑いが思わず。
・結果としてはこれが上手くいって,昨年までは偏差値40前後だったのが,今年は偏差値59.0まで伸びた。今後の課題は,どうがんばっても数学の問題に変換できない類の問題だそうで。


[数学]
・解法は今までと同じだが,自然言語処理をほぼ完全に自動化した点が新しい。これについて,研究者陣営は「比較的容易」と考えていたようだが,やってみると意外と困難だったという。自然言語の「一見して複数の意味に取れる曖昧さ」が苦戦の理由で,たとえば「また」とくるとその前後がつながっている並列なのか,それとも完全な話題の転換なのか,人間ならどちらかぱっとわかるが,人工知能が人間の手を借りずに判断するのは非常に困難であったようだ。それでも何とか完全自動化したのは大きな成果だろう。やっと「人工知能が入試問題を解いてると言っても,入試問題を人工知能が読解できるところまで書き換える作業は人間の手が入っているじゃないか」と謗られなくても済むようになった(数学だけだが)。
・あとはQEソルバーの高速化などを行ったが,マーク模試の方は相性もあって苦戦した。東大模試の方は成績が向上し,好成績を残した。こと数学の筆記試験限定ならば人間の受験生の最高峰レベルまで到達したと言ってよい。人間の受験生で東大型の理系数学で80/120を取れるようなやつは理傾膤糞蕕砲靴いない。


[世界史]
・マーク模試の方はほぼ改良なし。成績は80/100前後で安定し,これ以上の改良は難しいようだ。
・東大型の二次試験の方も,基本的な解法は昨年と同じ。第1・2問の論述問題は,指定語句や問題文を頼りに教科書や用語集・Wikipedia等から該当する文を抜粋し,指定字数に至るまで解答に挿入した。ただし,今回は前回と違って単純に抜粋するのではなく,問題文もちゃんと読んでテーマを探ったり(第1問),あらかじめ用語集の項目をラベル付した上で,問題文の要求もラベル付してラベル同士が一致した項目の説明文を出力するようにする等(第2問),解法のレベルアップが図られた。
・結果的に点数は伸びていないものの,解答のそれっぽさは上がり,若干なり人間に近い解答に見えるようになった。ただし,それでも時系列や地理的な配置がぐちゃぐちゃで,例えば「ユスティニアヌスがミラノ勅令を発布した」という文の後に「中国では五胡十六国の時代になった」という文が入り,その後にまた「ユスティニアヌスがミラノ勅令を発布した」という全く同じ文が入るという,ツッコミどころしか無い文章構成になっている。お前は健忘症か。また,「ゾロアスター教を国教と定め,突厥と結んでエフタルを滅ぼした。」という一見して正しい歴史的事実を述べているように見える文だが,ササン朝という主語が無いために非文になっていて加点されないというようなミスも散見された。結果的に点数・偏差値は昨年の東大模試から全く伸びていない。
・これは要するに,人工知能はある程度問題文の要求するところを(見せかけ上)理解できるようになっているが,東大の問題文が要求するような細かいニュアンスは当然読み取れておらず,本質的な歴史的理解があるわけでもないので,結果的に問題文の意味を全く取れないまま解いているのとさして変わりない点数にしかならないということである。逆に言って,東大の問題文のようなめんどくさいものではなく,単純な論述問題であれば,精度は昨年に比べて向上しているのではなかろうか。昨年は東大以外の論述問題にもチャレンジしていたが(そして昨年の段階でかなり解けていた),今年は無かったので比較できず残念である。
・第3問のクイズ問題も,問題文からどんな種類のもの(人名・国名・宗教名・事件名・建物名等)が問われているのかを判断させてから,解答を出力させた。ここは人工知能の得意分野に思われたが,東ロボくんにインストールされている教科書や用語集が古く,新課程に対応していないため新課程で重要度が上がった単語を解答できないという思わぬトラップに引っかかって,点数が伸びなかった。また,問題文がひねられていると解答が難しく,例えば「魏の文帝の父親は誰か」と問題の東ロボくんは「曹丕」である(曹丕は「魏の文帝」であるから誤り,正解は曹操)。問題文の意味を理解して解いているわけではないので,この程度のひねりであっさり引っかかるのである。前に私は「東ロボくんは早慶上智の世界史の方が得意なのでは」と書いたが,撤回します。早慶上智の世界史はこんなやわなひねり方はしません。
・ただまあ,代ゼミの講師の講評によると,「受験生の解答も,たとえば曹操の問題だったら「曹丕」がやはり多かった。第3問の他の問題を見ても,人間の受験生の誤答と東ロボくんの誤答は酷似している」そうで,まあそうだろうなと私の実感としても思う。国語といい世界史といい,人工知能が人間に似ているというよりは人間が人工知能のような思考しかできていないのではと思わせられたわけだが,これは東ロボくんプロジェクトに携わる研究者の側も同じことに気づいたようで,これが[今後の東ロボくんプロジェクトについて]に続く。
・しかし,新課程に対応していないせいで点数が伸びなかったのは人工知能のせいというよりもデータ提供元の山川出版社の責任では。おそらく無料で提供していると思われるし,虎の子のデータなので万が一の流出を考えると最新の教科書・用語集のテキストデータは提供したくないのだろうけど。


[今後の東ロボくんプロジェクトについて]
・巷に流れている情報が錯綜していて,明らかな勘違いも流れているので,ここで整理しておく。
・東ロボくんプロジェクトの目標であった2022年までの東大合格は断念する。正確に言えば,英語・国語・物理・日本史等は,人工知能自体にそれこそシンギュラリティ(技術的特異点)が来るようなレベルの大規模な進歩がない限り,点数が大きくは伸びないこと,そしてそれがすぐには来ないことが予測されるので,一度挑戦を凍結し,来るべきときが来たら再開する。ある程度結果が出ている数学と世界史は研究を継続し,むしろ現行の人工知能の範囲でどこまで人間の受験生を超えられるのかに挑む,またそこからの産業への応用を目指すそうだ。
そもそもこのプロジェクトは「現行の人工知能の自然言語処理における可能なことと限界を探る」ことが本質的な目的であり,東大合格は「可能か不可能かすら全くわからない」目標として掲げたものだった。そこで偏差値55程度の学力で東大はまず無理という「限界」が示せたから,目的は達せられたという。最初から東ロボくんプロジェクトをウォッチしている私自身も証言するが,この目的は東大合格に失敗したから突然出てきたものではなく,初年度の成果発表会からずっと出ていたものだ。東大合格を諦めたからといってプロジェクトが失敗だったと見なすのは,それこそ“その人の読解力不足”でしかない。
・そして東大入試挑戦の本体を凍結してどうするかというと,前述の通り,「人工知能は問題文の意味を理解して問題を解いているわけでは決してないのに,ほとんどの教科で偏差値50を超えてしまったのはどういうことか」という点や,国語や世界史といった文系分野では人工知能と人間の解法・解答が極めて似通うという点から,むしろ人間の受験生が問題文の意味を理解しないままに問題を解いているのではないかという疑問点にたどり着いた。
・そこで基礎的な読解力を測ることに特化した「リーディング・スキル・テスト」を開発し,15000人の中高生を対象に実施したところ,無残な結果であった。これについてはここにまとめると非常に長くなるので,問題とそれぞれの正答率がNIIの方で公開されているので(pdf注意),そちらを参照してほしい。まあ,成績にかかわらないテストであるので生徒の側のやる気がなく,適当に解答した輩がそれなりに紛れ込んでいた結果として正答率が低いという可能性も否めないが,それにしても確かに低い。宗教の問題の間違え方何かは明らかに人工知能っぽい間違え方である。とりわけやる気のわかない状況では人間の側が人工知能っぽい思考になりがち(キーワードを拾った斜め読み)というのは,案外コロンブスの卵なのではないかと私は思う。
・人工知能の進化が予測されるからこそ,人工知能が苦手な分野の読解力を人間は磨くべきではないか。あるいは人間の読解力の本質を調べていくことで,人工知能の進化に貢献できるのではないか。というわけで,このプロジェクトは今後「リーディング・スキル・テスト」のさらなる開発とその結果を用いた研究にシフトしていくようだ。



この記事へのトラックバックURL

この記事へのコメント
数年前に東大理系の受験生やってました

代ゼミは問題がイマイチだった記憶があります。
東大模試は出題の後追いやってるなと受験生の頃思いましたが、その中では駿台と河合がまともかと。
配点はあまり気にしたことがなかったです。

理系数学に比べて文系数学の点が妙に低いなと思いました。
数学科目指す人なら数学80点は取ると思います。逆に80点で理3落ちる人もそれなりにいる気がします。
Posted by nekomi at 2016年11月28日 21:11
世界史について言えば,質はどこも大差ないと思います。
配点の事情は,おそらく東大二次だと世界史限定の問題ですね。
駿台だけ配点が明らかにおかしいです。駿台だって熱心に研究しているので,本試験があんな配点じゃないことはわかっていると思うんですけどね……
後追いって意味では,今年の第2回東大実戦は20年前の本試験の丸パクリで,あれは大変にまずいと思いました。まあ,どこもそういう現象はどうしても出てきますかね。

文系数学やセンター試験が伸び悩んでいるのは,特定分野(確率等)はQEで解けないので,QE以外の解法で挑んでいるせいだと思います。QE以外の解法は苦戦するみたいですね。
Posted by DG-Law at 2016年11月30日 05:59
>入試問題で必要になるシミュレーションが意外と複雑で,挫折していた。

今回は画像認識やシミュレーションが大きく進化したとのことです。

また、入試問題用のシミュレーションの部品の追加、入試問題では初期条件が答えそのものになる「つりあいの問題」などシミュレータには扱いづらい問題に対して、画像の情報も利用して解く専用のソルバを開発しました。
http://pr.fujitsu.com/jp/news/2016/11/14.html

それからシミュレーションの作成が簡略化されることで、物理の得点はもっと伸びる余地があると思われます。

式が書ければ「京」が使える
−高度なプログラムを自動生成できる新言語「Formura」を開発−
http://pr.fujitsu.com/jp/news/2016/12/2.html

>人工知能自体にそれこそシンギュラリティ(技術的特異点)が来るようなレベルの大規模な進歩がない限り,

機械翻訳とシミュレーションは、今年中にも大きく伸びる可能性があると思います。

Googleニューラル機械翻訳はどう評価されたか
http://blog.nishinos.com/archives/5166920.html
Posted by ボロトウ at 2017年03月21日 13:59
確率の問題はまだ当分無理と思われる。一度には読み込めないからまず小さな文節に区切って、何が何のことを指しているのかを把握しなければならない。

コンピューターの画面に、(※※)
記号○と×のいずれかを(記号〇と記号×は2つに一つで「背反」である)
表示させる(※)
操作をくり返し行う。(k回繰り返す)

このとき、(どんな時?)
各操作で、(「記号○と×のいずれかを」「表示させる操作」を「k回繰り返す」。)
直前の記号と(「k回の各操作」において)
同じ記号を(○か×か)
続けて表示する確率は、(・・・○〇・・・または・・・××・・・)
それまでの過程に(k回の各操作全てにおいて)
関係なく、(一定である)
pであるとする。(確率は0<p<1)

最初に、(k=1において)
コンピュータの画面に(※※)
記号×が
表示された。(※)
操作をくり返し行い、(k回繰り返す)
記号×が
最初のものも含めて(k=1のものも含めて)
3個出る(×・・・×・・・×、×××、××・・・×、×・・・××)
よりも前に(×・・・×・・・、××、××・・・、×・・・×)、
記号○がn個出る確率をPnとする。
http://math.nakaken88.com/problem/tokyo-u-r-2006-2/
Posted by 素人の妄想 at 2017年05月23日 05:15