昨年のものはこちら。また,
朝日新聞の報道はこちら。
今年から協賛が代ゼミから駿台・ベネッセに代わった。代ゼミがセンター系模試を止めたためである。ベネッセのマーク模試の方が母集団が大きいので偏差値や判定への信頼性は高い。受験したのはマーク模試の全教科(社会は世界史・日本史,理科は物理で例年と同じ)。東大二次型の模試(東大実戦)は数学と世界史。
今年の目玉は世界史の論述に取り組んで,割りとまともな成績を叩きだしたことにある。これは私自身激しく衝撃を受けたので,後段で詳述する。
[解法についての教科全般の話]
昨年と共通する点詳細は割愛する。
・例によって,OCRで直接文章を読み取って東ロボくんに流し込む,というのは未実装。今回は問題文をXMLに書き下す(数学ならMathML)ところまでは人力。
・画像処理も昨年と同じでほぼ未実装に近い状態。アノテーションを付して図表をテキストデータに変換し,自然言語として処理。ただし,今年は
画像検索を行い,インターネットで最初に検出された画像の画像タイトルをテキストデータとして埋め込むという手法に変更した。画像検索に人工知能的な技術を使っているため,こちらのほうが最終的に目指している全自動に近かろうという判断とのこと。ただし,画像検索をしても全く引っかからなかった画像は以前と同様,人間が見てそれっぽい日本語を付している。
・英語のリスニングと,世界史の本格論述に初挑戦。
[総評]
・マーク模試は950点中511点,900点満点に換算すると495点。偏差値だと57.8という成績が出る。一見するとかなりの好成績だが,数学の152/200(偏差値64.0と65.8),世界史の76点(66.5)に引っ張られての成績であり,その他の教科は50前後で,昨年とあまり変わっていない。ゆえに,英語・国語・数学or世界史という一般的な私大文系の受験型(3教科)に絞ると偏差値は53〜54まで下がってしまう。この数値は去年とほぼ同じ。
・世界史が伸びているのに3教科にすると偏差値が昨年と同じになってしまうのは,国語と英語の偏差値が下がったからだが,国語は問題が易しく受験生の出来が良かったため相対的な偏差値が下がっている。英語は,該当項目で述べるように今回のマーク模試の英語が東ロボくんの解き方と相性が悪かったことが原因にあり,チューンアップがしっかりしていれば偏差値が伸びていた可能性が高い。場合によっては3教科偏差値が法政大あたりに届いていたのでは,と思うとややもったいない。
[英語(筆記)]
・前述の通り偏差値が50.5から48.4に下がってしまったが,実は同じ模試を昨年の東ロボくんと今年の東ロボくんで受験してもらうと,どの模試であっても今年の方が出来が良い。つまり,確実に成長しているが,今年の模試と東ロボくんの相性が悪かった。
・その決定的な原因は,はっきり言ってしまうとマーク模試が昨年までの代ゼミ模試よりも難しかったため。というよりも,私が補足するが,あのマーク模試は本試験よりも難しく,センター試験に向けてチューンナップした東ロボくんには不利だったであろう。発表者のNTTの人が「模試の傾向変化が半分,東ロボくんの実力不足が半分」と言っていたが,まさにその通りだと思う。
・もう少し具体的に言うと,東ロボくんの英語の解法は,新聞記事などを基板とした膨大な英語のテキストデータ(約10億語)を検索し,問題文の要求する“自然な”英語を探し出してくるというものだが,
基本的に東ロボくんは問題文の周辺4単語(5-gram)しか検索しない設定になっている。これは予測変換と同じシステムで,入力されたN-1個の単語から次の単語を予測するモデルのことをN-gram言語モデルと呼ぶ(より正確な説明が欲しい人は「N-gram言語モデル」でググること)。これを使って,問題で問われた箇所の周辺4単語と,保有する英語のテキストデータの照合を行っているわけだが,当然Nが増えれば検索も膨大になるので,問題が解ける限界ギリギリである方がよい。そして,センター本試験を解くには5-gramくらいであろうと思われていたところ(実際センター英語はあまり複雑な文脈の読解を要求しない。もちろん長文問題は別として),
今回のマーク模試は10-gramくらい余裕で必要な問題がいくつか出されたため,文脈が読めずそれらを落として成績が下がった,ということである。実際,誤答も文法的には破綻がない。
・ゆえに,チューンナップミスが半分。一方で,N-gram言語モデルは当然であるがNを増やせば検索で一致する箇所が減るため,文法的正確性は向上するが,同時に「白紙答案」も増えてしまう。よって,10-gramにしたら単純に解決する問題ではない=東ロボくん自体の実力不足が半分,というのが発表者の分析である。
<筆者感想>
ベネッセくん,ちゃんとマーク模試を作ろう。今年の本試験と見比べてみたけど,やっぱりちょっと文章長いと思う。全体的に。
あと,N言語モデルでNを増やした結果,どの程度白紙が増えるのかは気になるところで,あまり白紙が増えるようなら難関私大や国立二次試験の入試問題は手がつけられないのでは。当然それらはセンターほど単純ではないので。そこが東大二次に対する壁になるのかなぁ。
[英語(リスニング)]
・初挑戦となったリスニングだが,16/50点,偏差値は40.5という結果。人間よりもかなり悪い。
・やり方は人間が音声ファイルを問題ごとに切り出し(ここは人力になるが仕方なかろう),切り出したものを音声認識ソフトのKaldiでテキストデータに変換させ,あとは筆記試験と同じ解答器で解かせるというもの。つまり,音声認識器Kaldiを導入した点が新しい。テキストデータに変換さえしてしまえば,問題の難易度自体は筆記試験より当然易しいので,筆記試験と同じ解答手法で十分解ける。
・当然そのKaldiの精度ってどうなのよ,という話になるが,単語レベルでは約10%の誤り,文単位では約49%の誤りが検出される。なんとなくではあるが,Siriiあたりの精度と比べると悪くない? というのが素人の発想なのだが,どうなんでしょうか。専門家はその辺見劣りしないものを持ってきているとは思うのだけど。なお,「Kaldi 音声認識」でググると少ないながら動かした人の記事が読めるので,興味がある人はどうぞ。私はさっぱりわからなかった。
・というわけで,文単位で半分も読み落としがあれば当然解けるはずもなく,正答率4割は妥当な結果ではないかと。むしろ出来た方なのでは(運でも正答率約25%にはなるが)。
[国語]
・一昨年は単純な「一致する文字数」の数え上げ。昨年は少し進化して,本文や選択肢を節に分解して,節を分析する手法を導入した。今年はさらに文字数や節以外にも分析項目を増やし,12個の観点から特徴ベクトルを計り,総合的に正しそうな選択肢を選ぶ手法に変えた。また,分析項目のいくつかに「選択肢間の文章を比較する」ことを取り入れた。
・結果は昨年までとさして変わりがないように見えるものの,評論の点数が安定してきており,また過去のソルバーは本試は解けるのに模試は解けないという謎の傾向があったが,今回のソルバーは模試でも本試並の点が出るようになった点で,性能は向上している。
・文章を理解して解答を出しているわけではないのは,昨年までと一緒。
<筆者感想>
選択肢間の比較は実際の受験生でもやる手法で,一致する文字数の数え上げに加えてますます人間じみてきたなと。かなり複雑なシステムになった割に点数が伸びてないなというのが正直な感想で,やはりエンジニアリング的手法の限界が来ているのではないか。あと,毎年書いているが,そろそろ古文と漢文をですね……英語に近い手法でいけると思うんだけどなぁ。
[数学]
・センター数学は152/200,東大二次(文系)は39/80。
・解法は概ね例年と同じ。言語処理・問題表現の変換を人力・半自動で行い,数式処理は人工知能にやらせる。ただし,
言語処理・問題表現の変換の完全自動化も研究自体はスタートしており,開発が進んでいる。2020年を目標に開発を完了させるとのこと。何やら進んでいる様子は見受けられた。
・数式処理については,主体は例によってQE(限量記号消去)だが,例年QEでは解けない問題をほとんど投げ捨てていたところ,
今年はQEとは全く違った解法を導入したことで数列と統計が解けるようになったのが最大の成果である。これで完全未着手な主要な分野は確率と整数問題のみとなり,センターに限れば白紙部分がかなり減った。
・結果的に,東大の二次はさして変わらないものの,センター数学の点数が飛躍的に伸び(約5割から約8割),しかも白紙答案が減ったために点数が安定した。これにより,今までは「東大二次ができるのにセンターはてんでダメ」という非人間的な点数であったところ,かなり人間らしい点数に近づいた。研究が進んだ結果,人間らしくなるというのは,他の教科でもあることだが,おもしろい話である。
・QE自体も計算量爆発を防ぐ工夫で進歩が見られたようだが,私にはさっぱりわからなかったので割愛。
・数列は,一般項が求められない(または求めにくい)けど,人間なら直感的に法則がわかるような数列(例:1,2,2,3,3,3,4,4,4,4……)に弱いそうな。現状のソルバーが漸化式を作って一般項を求める正攻法しかできないため。この点は非常に人工知能っぽい特徴でおもしろい。
・また,言語処理の自動化について。どの程度自動化できているのかというと,今回は現在開発途中で半自動で行っているところ,人間が補助せずに(つまり完全自動で)言語処理させて東ロボくんに解かせたところ,83/200であったという報告があった。これをどう評価していいかは難しい。
[物理]
・解き方は昨年までと同じ。シミュレーションを動かして,実験結果から解答を出す。今年はシミュレーションに必要なモジュールの数を大幅に増やし,28個となった。これで力学の分野だけで言えば,66%の問題が既存のモジュールで対応可能となり,力学はおおよそシミュレーションを動かせば解けるようになった。
・しかし,実際の模試では既存のモジュールで対応できない問題ばかりが出題されてしまったので,点数が伸び悩んだ,とのこと。また,例によって力学以外の電気・波動は未着手であり,問題文の自然言語処理も未着手である。
[世界史]
・今回の目玉。マーク模試は76/100,東大二次型(実戦模試)は21/60。ただし東大実戦模試の世界史の配点は一般的なものとは違っており,一般的な東大型の配点に組み替えると26・27点になると思われる。偏差値はマーク模試で66.5,二次で54.1。これはかなりの好成績で,昨年までのセンター型の成績は6割弱だったことを考えると大きく伸びている。東大二次型は今年初挑戦だが,初挑戦でいきなり偏差値50超えで,人間の東大受験生の立場がない。
・世界史は参加チームが7チームと多く,その中で日本ユニシスのチームがマーク模試で,NIIと横国大のチームが二次型でそれぞれ最高得点となった。以下,私なりの理解で書くが,
NIIからプレスリリース(pdf)が出ているので,より正確な表現はそちらで。
<マーク模試>
・大きく伸びただけあってかなり改良が見られた。ベースが含意関係認識である点は変わりないが,まず,同義語・類義語の読解精度や,同一カテゴリーの上位語・下位語の読解精度が大きく上がっていた。たとえば,
・726年に,ビザンツ皇帝レオン3世が聖像禁止令を出した。
・8世紀前半に,東ローマ皇帝レオン3世が聖像禁止令を発布した。
は人間にとってはほぼ同一の意味の文とすぐにわかるが,東ロボくんにとっては全く別の意味に見えていた。
今回,この「726年」と「8世紀」,「ビザンツ」と「東ローマ」,「出した」と「発布した」のような関係性を人工知能に認識させることにある程度成功しており,問題文の誤読が大きく減っている。
・また,
「構文木のマッチング」という手法が取られた。たとえば,
・クシャーナ朝がパータリブトラに都を置いた。
という選択肢(誤文)に対し,「パータリプトラに」という節だけを切り出して,教科書の「プルシャプラに」という部分とピンポイントで比較して,相互に場所を示す歴史用語(固有名詞)であるから,排他的な関係であり誤文,という判断を人工知能が下せるようになった。……あれ,これって自然言語処理としてかなりすごい技術なのでは。そりゃ点数も伸びますわ。ただ,国語や英語には転用できなさそう。
・なお,今回の成績はフロックではなく,どのセンター型の問題を解かせても80点前後にはなるそうで。来年90点の大台に乗ってても驚かないなぁ。がんばれ日本ユニシス。
<東大二次型(実戦模試)>
・こちらは2/3が完全論述問題なので(残り1/3はただのクイズ),マーク模試の解法は使えない。しかし人工知能が自主的に文章を書くという能力はまだ無いので,どうしても教科書の抜粋(コピペ)のつなぎあわせで解答を作ることになる。問題は的確な抜粋が可能かどうか,という点。
・東大の第1問は600字論述であるが,必ず指定語句が8・9個ついている(今回の模試は9個)。そこで指定語句を中核とし,問題文を参考データとして教科書本文を検索し,関連性が高いと思われる部分を抜粋するという手法を取った。結果的に9/26点を確保した。これは受験生の平均得点よりも高い。
・朝日新聞の記事に東ロボくんが出した解答が載っているが,教科書からの抜粋であるので1文1文の日本語は自然であり,知識的にも当然誤りがない。しかし,文章全体の構成は崩壊しており,自然な日本語とはやや言いがたい。たとえば,解答の冒頭がいきなり「そのため」で始まっているのは典型的な構成ミスである。しかし,採点上は問題がない(筆者注:これは本試でも同様と思われる。理由は後述)。
・さて,話としてはここからがおもしろい。報告会では駿台の講師が講評をつけていたのだが,私の感想もその先生と全く同じであるので,先生のコメントを要約してここに掲載する。
そもそも東大の第1問は教科書の抜粋では配点の半分も取れないように作られている。どういうことかと言えば,歴史用語の説明や時系列的な説明はほとんど要求されていないのである。むしろそうした用語や流れの歴史的意義を問題文の主張・テーマに沿って論じる・評価することが求められる。また東大の要求は常に具体例を挙げての議論・評価であるから,抽象論に逃げ込むと一切点がない。そのための指定語句ではあり,指定語句は全て使って欲しい具体例である。
・そこへ行くと,東ロボくんの答案はそれっぽい歴史用語を書き並べてはいるが,問題文の要求に沿った議論・評価にはなっていない。単純な辞書的な説明である。また,抽象的な議論が多く,必ずしも具体例を拾った説明にはなっていない。
・では東ロボくんの解答は東大の要求に全く答えていないので0点ではないか,と思われるかもしれないが,話の味噌はここで,
実は東大受験生の7割型が作る答案も東ロボくんのような方向性の答案であり,問題文の要求にまるで答えていない。7割型は誇張抜きで書いたつもりだ。はっきり言ってしまうと,東大の第1問は超絶良問である一方で,現在の受験生の水準からすると要求水準が高過ぎるのである。結果として,「知識としては正しいが,問題の要求にはまるで答えていない(問題文の論旨がわかっていない)」答案が毎年量産されている。ゆえに,東大側も「問題文の論旨が理解できておらずとも,知識的に正しければ,配点の半分程度の点数になるように採点せざるをえない」という方針を取っており,駿台の模試もこれに従って採点している。よって,東ロボくんの解答でも9/26になってしまう(し,受験生の平均点を超えている)のである。なお,受験生の答案の文章構成が崩壊しているのも東ロボくんと同じで,これを気にして減点していたら平均点が大変なことになってしまう。まあ,人間が「そのため」から書き出すということは流石に無いが。抽象論に逃げ込むというのも人間の答案によく見られる事例で,
総合して東ロボくんの答案は平均点やや下くらいの受験生の典型的な答案に酷似したものと言える。駿台の講師もそうだったようだが,私はこれに大変な衝撃を受けた。東ロボくんプロジェクトの総括者である新井教授もさすがに慧眼で,同じコメントを朝日新聞に寄稿しているので,お読みいただきたい。
・「東ロボくん」研究の教授コメント 「人間、頑張れ!」(朝日新聞)
・こうした現状について駿台の講師が「東ロボくんの解答は,東大世界史にかかわる問題点を突きつけている」と評するとともに,東ロボくんの解答を高く評価していた。私としても100%の同意である。しかし,朝日新聞にかかると駿台講師の講評は「厳しい評価」になってしまうらしい。どこでどうねじれたのか,大変興味深い。そもそもニュースバリューとしては,新井教授や駿台講師が指摘したようなポイントの方が圧倒的に高いと思うのだが,ノータッチというのは,どうなのか。
・なお,さらに衝撃的なコメントをしておくと,そうした教科書の抜粋では解答できない問題を出しているのは実のところ東大と阪大,あとは一橋大くらいで(京大も無理かも),あとの大学の論述問題は大概解ける。つまり,
現状の東ロボくんでも大学を選べば論述で高得点が取れてしまうのである。おそらく同じことに気づいた駿台の講師の手回しだと思うのだが,実際に会場で配布された資料では東ロボくんが解いた慶應大(経済)と筑波大の入試問題に対する解答と,駿台講師による採点が掲載されていたが,慶應大(経済)の問題で6/6点,筑波大の問題で7/15点であった。マジで解けちゃってるんだよなぁ……
<総評>
今年の成果は,どうしても世界史論述が最大だと思う。世界史が突破口になっているが,自然言語による論述問題への解答に糸口が見えたという点で間違いなく革新的な成果を上げたと言えよう。今後,これが他教科に広がっていくと,本当に二次合格が見えてくるのではないか……と言いたいところだが,ネガティブ材料を挙げておく。
実のところ,教科書本文の抜粋で配点の半分にせよ点数をくれるのは,東大の二次だと世界史だけであり,その辺で日本史や国語は渋い。国語なんて問題文の抜き書きなんてしようもんなら0点であるから,世界史と同じ解法は取れまい。そうして考えると,次に記述・論述問題にとりかかれそうなのは英語かなぁ,と漠然と考えた。来年度以降の東ロボくんの勉強に期待したい。