昨年のものはこちら。そして
NHKの報道はこちら。
大体のことは昨年あと同じである上に,今年はNHKの報道がかなり詳しく報じてくれているため,今年は昨年に比べるとレポートを出す意味が薄いと思われた。なので書くべきか迷ったが,一応書いたので公開する。そういうわけで,できれば昨年のレポートと,(リンクが生きてれば)NHKの報道を見てからお読みいただければと思う。
昨年は午前の部が研究者向け発表,午後が一般向け発表という分け方で,ほぼ全科目二周したのだが,今回はそうした区分けは無く,研究者向け発表のみ。午前中が理系科目,午後が文系科目。また,前回はスライドが全部印刷されて配布されたのでレポートを書きやすかったのだが,今回は数学以外未配布である。スライドが切り替わるのが早くてメモを取り逃した箇所がいくつかあり,完璧ではない点ご了承いただきたい。受験したのは昨年同様センター型の模試で,数学のみ東大プレも受験。
新井紀子先生の開会の言葉とプロジェクトの趣旨
・昨年と全く同じ。目標は変わらず。2016年のセンター足切り突破,2021年(2022年春)の文科の二次試験合格を目標とする。目的は「リアルデータを用いた,人工知能をフェアな評価の俎上に乗せ,真の技術的ブレイクスルーを図る」。その上でなぜ東大入試を選んだのかという点については昨年度も話しているため割愛された。(念のため書いておくと,現状の人工知能では困難な知的作業が多いため。特に「深く正確な(自然言語の)構文解析と意味合成」・「パラフレーズ同定」・「文章の要約」の3点。)
・
今の情報学の流行というとビッグデータの処理だが,これはレッドオーシャンになってしまっている(上に,googleにはどうがんばっても勝てない)。東ロボはブルーオーシャンで戦うためのプロジェクトになりうると考える,とのこと。ブルーオーシャン的戦場の類例として,DARPA AI Project群,Project ARISTOが挙げられていた(編註:この2つが何なのか私はわかりません)。要するに,AI機能の「統合的タスク」は新規開拓の余地があると考えている模様。(この点は最後の松原仁氏の講演でも語られていた。AIの歴史は統合と分散を繰り返しているそうで。)
教科全般の話
・東ロボくんが入試に参加する上でのレギュレーションについて。ここも昨年とおおよそ同じだが,もう少し詳しい説明があった。以下,追加情報を中心に記載。
・東ロボくんは並列処理が可能。よって,小問1つに制限時間いっぱいを使える。たとえば東大二次試験の数学は文系なら4問あるが,4問それぞれに試験時間100分使える。人間なら時間配分も勝負の決め手になるので,この点は有利。
・例によって,
OCRで直接文章を読み取って東ロボくんに流し込む,というのは未実装。今回は問題文をXMLに書き下す(数学ならMathML)ところまでは人力。
・画像処理も昨年と同じでほぼ未実装に近い状態。アノテーションを付して図表をテキストデータに変換し,自然言語として処理。
<筆者感想と補注>
半ば裏話的に聞いた話なので,以下は話半分に。最終的に,完全に人間の手を介さずに入試問題を解くことには,あまり執念がないっぽい。基本的に参加している研究者は自然言語処理または数式処理が専門で,画像処理,ましてやOCRは専門ではないので。個人的な感想としても,確かに今回のプロジェクトでOCRは本質じゃないしなぁとは思う。一方で,入試問題には図版や統計情報,グラフを処理させる問題もあり,そちらはアノテーションとかいう紛れもないチートを使ってないで,専門家がいないとかいう泣き言を言わず,真摯に取り組んで欲しい気も。
〔数学〕
・成績は昨年とほぼ同じ。センター数学が95/200なのに,東大二次の数学は32/80,36/120という偏った成績。人間だったら,センターがその点数なら東大二次は0点だと思う。
・アプローチは昨年と同じ。まず日本語(自然言語)をコンピュータが理解できる形式表現に変換し,これをさらにQEに当てはめるべく一階述語論理式に変換。一階述語論理式をQEで数式処理して解答を出す。形式表現変換は現在のところ半自動だが,将来的には完全自動を目指す。
・というわけで
解法は例によってQE(限量記号消去)。鶏を割くのに牛刀を用いるどころのレベルではなく,パイルバンカーで粉々に打ち砕いている感じである。ただし,QEのやり方に大きな改善があったらしく,RCF-QEのアルゴリズムを三種類用意し,私にはさっぱりわからなかったがこの辺の説明はやや詳しめにされていた。その三種類の名前を参考までに載せておく。
1.Cylindrical Algebraic Decomposition:任意の入力に対応:計算量はO(2^2n) (n:変数の数),変数は5個程度まで
2.Virtual Substitution:線形の式の場合:計算量はO(2^k) (k:束縛変数の数),変数の数は10個程度まで
3.Sturm-Habicht sequence:∀z(x≧0→f(z)>0) 計算量 O(2^d) (d:多項式fの次数),多項式の次数が8次程度まで
→ これに加えてCGS-QEなるものを新たなアルゴリズムとして追加したそうだ。ともかく,結果として,
「“理論上は”東ロボくんがほぼ全ての入試問題を解ける“目処”が立った」ところまで来たそうな。
・じゃあどこで詰まってるかというと,結局のところ形式変換または一階述語論理式の段階。東ロボくんが問題文を理解できる=RCF-QEで処理できる形式表現にするのがなかなか難しい。あと昨年同様深刻なのが,一階述語論理式が冗長すぎて,相変わらず計算量爆発でタイムオーバーすること。元々の問題の変数は入試問題なので多くても3つか4つという程度なのに,これを一階述語論理式にすると,あっという間に変数が数十個に増加してしまう。論理式の簡素化も昨年に比べると改善はされたらしいのだが,さして点数に結びつかなかったそうで。
・あと,東ロボくんはお茶目なので,
sin(ア)θ = sinθ の空欄(ア)に「1」を入れるという受験数学の常識を覆す暴挙をしばしばやらかすらしく(会場大爆笑),特にセンターでこういうのをやらかすと致命的で,改善が必要。(無論,数学的に言えば間違ってないが,センター試験の解答としては1を入れると誤答になるような問題文にちゃんとなっている。たとえばθが90°なら(ア)は5が入るだろう)。
<筆者感想>
点数的には変わってないのだけれど,内情は大きく改善した印象を受けた。
最後のはセンター試験解く上では本当に致命的で,しかもセンター試験で東大受験レベルというと9割超えなので,必ず改善が必要だと思う。究極的には形式表現変換の問題なんだろうけど,こういうのの改善は困難だろう。こんな受験数学のお約束,どうやってコンピュータに認識させるのか,専門外ながらさっぱりわからない。もう一つ専門外ながら言ってしまうと,このお茶目なミスを含めて,QE以外の解法を模索してみる価値はありそうな気がする。もしくは二次はQEで解いて,センターは別の手法とか。完全に素人考えなので,可能なのかは知らん。
〔理科(物理)〕
・昨年は39点で今年は31点なので一見して下がっているように見える。ただし,昨年は異常に運が良く,実際には39点中実力で当てたのが17点で運が22点。今年は実力が23点で運が8点なので,実力としては6点分向上している。加えて昨年並の運があれば+14点で偏差値55くらいまで上がった,残念(会場笑)
・これも手法は昨年とほぼ同じ。日本語を東ロボくんが理解出来る形に形式表現変換し,これを東ロボくんがシミュレーターで現象を再現し,解答を出す。
・実際にはシミュレーターで再現できるところまでたどり着くのが困難で,たどり着きさえすれば分野によらず50%くらいの正答率を出すところまではたどり着いた。というよりもシミュレーションまでたどり着いたのに誤答を出してしまっているのは単純なモジュールのバグであり,改善は比較的容易と思われる。仮に今回の模試でモジュールに全くバグがなかったとしたら+12点の43点になっていた。これに運の差の+14点まで加わると57点になり,まさかの偏差値60超えだったのに(会場爆笑)
・
日本語の形式表現変換については,物理科目では極めて困難で,数学のような半自動化さえ難しい。日本語が曖昧すぎるため。たとえば「金属を折り曲げる」や「滑らかな坂」を東ロボくんが自力で理解して,シミュレーターに取り込むのは,少なくとも現状では絶対に無理。数学とのレギュレーションが統一できていないが,形式表現変換を人間がやり続けても良いなら,将来的に高得点をたたき出す見込みはある。
・また,シミュレーション以外の解法が必要な問題については完全に未着手。
〔英語〕
・NHKの報道にもある通り,点数が飛躍的に伸びた科目。52/200から95/200へ。ほとんど倍。
・参加メンバーが変更。今年はNTTの研究者が参加し,その技術が使われたので飛躍的に向上した模様。
・ご存じの人はご存じの通り,センター試験は前半の短文ゾーンと,後半の長文ゾーンに分かれ,配点はほぼ半分ずつ。東ロボくんが得意なのは前半で,こちらが63/99。一方,後半は32/101。あとで代ゼミの講師からツッコミが入っていたが,人間の受験生とは正反対の傾向。センター試験は一般的に長文の方が取りやすい。
・前半部分のうち,より単純な文法・語法の問題の解法は,大規模テキストデータの活用(ビッグデータ的な手法?)。設問によるが,約10億〜1000億の単語に相当する例文が収録されたテキストデータを検索して,妥当性の高い選択肢を選ぶ。それだけ例文があれば,さすがにほとんどの問題でどんぴしゃの例文にぶつかる。センターレベルの文法や熟語なら,80%程度の正答率で安定していたのだが,今回の模試では運悪く60%の正答率だった。
・もう少し高度な会話文補充の問題は,「発話意図」と「感情極性」の推定で解いた(編註:これは上記のNHKの記事にて詳述されている)。たとえば「来週、父さんが手術を受けるんだ」と話しかけられたら,operaitonの単語から,“発話意図”は意見の表明で“感情極性”はnegative,と東ロボくんは推定。なので応答の文は選択肢のうち,“発話意図”は同情で“感情極性”はnegativeなものを選ぶべきとなり,見事に正解の「That's too bad.」を選ぶことができた,という形。
・この手法の応用で長文読解もいけるのでは,と思われたが,長文となると発話意図や感情の変化が複雑になり,必ずしも適用できないらしい。また別のアプローチを考えているそうだ。
・代ゼミの講師からの指摘として,
「前半部分はその解法で解くのであれば,ランダムに英文を例文として収録するよりも,英英辞典をがんばってテキストデータ化してインストールした方が目的にかなっているのでは。類語とかたくさん載っているので。」というもっともすぎる指摘があった。
<筆者感想>
会話文の解法は,まあ,会話型botの高級なやつといった感じか。NHKのニュースによれば「こうした技術を応用すれば、人間の雑談につきあってくれる人工知能の開発にもつながる」「将来的には、人間どうしのやり取りにも参加できる人工知能を開発したい」とNTTの人が語っているそうなので,まさにそうらしい。
最後の指摘については,私もそう思います。英英辞典ってまさにそのためのアイテムだしね。著作権の問題だけなんとかしてクリアしてください。
〔国語(現代文)〕
・昨年大いに会場を沸かせた名古屋大の佐藤教授が今年も登場。しょっぱなから「じゃあ動画流すんで」と言い出し,
まさかの動画再生。しかもYouTubeにアップロード済。この時点ですでに会場大爆笑。
・動画にある通り,今年のキーワードは「節」と「小市民的感情力」。
・評論:昨年は「一致する文字数」(単語数ですらない)で問題を解き,正答率50%程度だったわけだが,今年は節を分析させ,節の大まかな内容や形式(主語なのか述語なのか副詞節なのか)を加味して解答を導き出させた。昨年と比較してかなり高度な技術の導入に思えるが,正答率は飛躍的に上がったわけではない。今回の模試の結果も正答率は約50%であった。
・小説:ある参考書に,小説を解く鍵は4つあると書いてあった。そのうち3つは絶望的に無理そうだったり時間的に着手できなさそうだったりしたので,いけそうな
「小市民的感情力」を東ロボくんに実装できないかと試行錯誤してみた(会場再度大爆笑)。で,実際にどんなアルゴリズムなのかというと,名称が「PBM」で,残念ながら「今度PBMは特許を取る可能性があるので,今回は発表できません。申し訳ない」とのことであった。しかし,PBMがまだ未完成だったがゆえに今回の模試の感情表現を読み取る問題を攻略するに至らず,こちらも結果は昨年とほぼ同じ。
・最後に,佐藤教授曰く「本質的な解法でもチャレンジはしている。しかし,やればやるほど,日本語というものがわからなくなっていく。
人工知能以上に人間が言語というものを理解できていないのではないか。改良しても点数が伸びないことよりも,なぜ伸びないのかわからないのがつらい」。
<筆者感想>
評論については,
やっぱり思った以上に「一致する字数」解法有効なんじゃねーのという悲しい話でもある。「節」分析,素人目にはかなり高度な技術の導入に思えるんだけどなぁ。しかし,文章の意味内容をすっとばして解いている以上,言語としての日本語を分析するやり方ならどう解いても邪道には違いない。おっしゃる通り,最後はやはり文章の意味内容自体を理解して問題を解かないと,高得点は不可能なのでは。
小説については,東ロボくん云々よりも自分にとって身につまされる話で,現役の最後までセンターの小説だけは苦手だったが,まあこれ(=小市民的感情力)ですよねと。「大多数の人が抱くだろう感情」を推測することの重要性は,今になってみればわかるが,高校生当時はわからんかった。
あと,そろそろ古文と漢文にも本腰入れてほしい。研究者が足りていないっぽいので,情報学者の皆さんこれを機にどうですか。
〔社会科(世界史・日本史・政経)〕
・世界史Bが52点,日本史が44点,政経が17点。偏差値的に言えば世界史が横ばいか少し向上,日本史はダウン,政経は大幅ダウン。
・解法は昨年と同じ。選択肢の文に登場する用語を教科書などのデータベースから検索し,用語同士の距離などから解答を推測。文章内の近い位置,教科書であれば同じ章の同じ段落から,選択肢内にある用語が複数見つかれば,その選択肢は正解の可能性が高い。たとえば「ヒッタイト」と「鉄器」は教科書上で同じ章の同じ段落に登場するので,関連性が高いと推測されうる。
・では昨年と比較して何を改善したかというと,まず単純に解法のチューニング。検索に余分な用語をさっ引いたり,用語の重要度を変えてみたり。実際これで正誤判定型の問題はかなり解けるようになった。
・データベースとしては,山川出版社が太っ腹にも用語集のテキストデータをくれたので,これを東ロボくんにインストールした。これで劇的に成績が向上するかに思われたが,思ったよりも上がらず。理由として,用語集は逆に詳しすぎて,ノイズが多い。また,用語集は「詳細は○○」と別項に飛ばすことが多いが,それは東ロボくんの解法だとつらい。文章に登場する近さで関連性を判定しているので,別項に飛ばされると関連性の低い用語と東ロボくんは判断してしまう。
・一方,年代順を並べ替える問題など,時系列に関連する問題の解法は未着手に近い。というよりも,全ての用語に一々年代を振ってくれている教科書なんて存在していないので,現在の解法では無理がある。また,たとえば「春秋・戦国時代」のように「時代の幅」があると,根本的に「時間」というものを理解しているわけではない東ロボくんは混乱してしまい,今の解法だとデタラメな解答になってしまう。この辺が課題。
・代ゼミ講師からの指摘で,
「世界史<日本史<政経の順で,現代の日本人としての常識を前提として問題が作られているので,それでこの点数の順になっているのでは。東ロボくんの価値観はフラットで,世界史を解くには良いが,日本史にはつらいかも。」というものがあった。
<筆者感想>
社会科も,全般的に国語と同じ問題で詰まっているような。究極的には,やはり文の意味内容を理解できないと点数が伸び悩むのでは。そもそも二次試験に正誤判定はほとんど皆無に近いしなぁ。
最後の代ゼミ講師のツッコミは大変納得できる。
〔代ゼミ側の総評〕
・900点満点で392点,今年も400点には届かず,一見して昨年とほぼ変わらない点数。ただし,全体として今回の模試は昨年よりも受験生の平均点が低かったことを考慮すると,昨年と比較して実力は伸びていると言える。
・特に英語が飛躍的に伸びた関係で,
文系三科目に絞ると偏差値は53.4まで上昇する(昨年は47.7)。何と受験生平均超え。これだと,文系の多い私大ではかなりの大学でA判定が出る。結果として,A判定が出る大学の数は476大学。
・ただし,大学が一番多いのはこの偏差値45〜50の層で,ここを完全に乗り越えてしまったので,ここから先はちょっとやそっと偏差値が上がった程度では合格できる大学の数は増えない。
・国公立も一応4大学でA判定が出ているが,例によって芸術系なので二次試験は……
<筆者感想>
偏差値53.4だと,B判定でいいなら,いわゆる大東亜帝国,帝京大学あたりまで出るはず。C判定=受験するにちょうど良い水準としては日東駒専,つまり日本大学くらいまで含まれると思う。これは割とマジですごいので,どちらかというとこちらを宣伝すべきだったのでは,という気も。
<筆者の全体感想>
科目によっては本質的な(サイエンティフィックな)手法も出てきた感じ。というか,多くの科目でエンジニアリング的手法の限界が来ているようにも。また,教科の本質がわからないとエンジニアリングにしろサイエンティフィックにしろ詰まってしまうようにも見え,数学と物理はいいとしても,英語や国語はもはや言語学とか国語学の専門家をチームに引き入れた方がいいのでは,と思った。
点数が伸びてはいるのだけれど,2016年にセンター試験突破を考えると,成長曲線が足りないようにも。センター形式が苦手なことを考えると,むしろ2021年までに二次試験と同時ゴールくらいの方がいいのでは。
あとまあ世界史の話をするなら,用語集をインストールした結果,用語集が煩雑過ぎてセンターが逆に解きづらくなったのなら,
早慶の入試の方が問題を解きやすいのでは,問題が用語集のコピペばっかりだし,と思うます。
例の本の著者としては。