Yahooのテキスト解析API校正支援機能にがっかりした

2017-09-09 2017-10-25

Web系の会社にいると、ホームページ制作のような小さい仕事が時々舞い込んできます。
その際に困るのがテキストライティング。

十分な費用が取れれば、文字単価5円~の高品質ライティング会社に依頼してバッチリ校正までやってもらうことも可能です。しかし、「ホームページ制作は入り口、色々な商品を売り込むためだから安くてもやる」みたいに考える営業感覚の強い経営者は多く、なぜかその上で利益出せないと現場の責任になったりします。本当に意味が分からない。

ということで、結局社内で書いたり、安いライティング会社に依頼してコンテンツを作ることになってしまうのですが、これが大変。誤字脱字に送り仮名間違いのオンパレード。文章作成能力が高い人は、意外に貴重なんです。

そこで、何とかテキストの自動チェックが出来ないものかと考えた末に見つけたのが、YahooAPIの中の「テキスト解析API 校正支援機能」。見つけた時は目を疑い、そして狂喜乱舞しましたが、使ってみてガッカリ。やはりYahooにも自然言語処理は難しかったようです。

というわけで前置きが長くなりましたが、同じようにガッカリする人が少しでも減るよう、Yahooの「テキスト解析API 校正支援機能」がどれくらい使えないのかを紹介します。

誤字脱字を発見できない

「私はIT儀術者ですが、筋トレマニアでもあります」

この文章を校正支援にかけると、こんな結果が返って来ます。

StartPos(対象文字列開始位置):2
Length(対象文字列長):2
Surface(対象表記):IT
ShitekiWord(言い換え候補文字列):情報技術(IT)
ShitekiInfo(指摘の詳細情報):略語

そこ?

「IT儀術者」については完全にスルーのようです。
「儀術」という単語があるなら仕方ないですが、儀術で検索して出てくるのはマジック:ザ・ギャザリングの秘儀術師の記事ばかり。どう考えても一般的な単語ではありません。

ということで、誤字脱字の発見にYahooのテキスト解析APIは使えません。校正の初歩の初歩である誤字脱字の発見が出来ないのは致命的です。

日本語としておかしいことを認識できない

「私は鳥が好きだです、であるがあなた犬か?どう思うがですが?」

この文章は、私が以前勤めていたSEO会社で契約していた、1文字0.2円のライティング会社から送られてくるテキストをイメージして書きました。テキストも酷いですが、単価が極悪です。とてもつらい。
この文章を校正支援にかけると、こんな結果が返って来ます。

修正点無し

APIなので、正確には空のxmlが返って来ます。API側の判定としては、特に問題が無いということです。

いや、おかしいでしょ。サンプルに出てる「小形飛行機」と「小型飛行機」の誤変換より「どう思うがですが?」を指摘しないと駄目がでしょうが。

ということで、1文字0.2円はともかく、打ち間違いや明らかにおかしな文章を全く検知出来ないのは、厳しいと言わざるを得ません。

自然言語処理はまだ先の技術

個人的にはいまいち有効活用出来るシーンが浮かびません。
強いて挙げるなら、「人間の目視チェックを十分に行った後、最後に検知しにくい何かが隠れていないかチェックする」という用途でしょうか。

人件費の削減や、品質の担保には、何の影響も及ぼさないでしょう。

とは言え、難しい自然言語処理に挑戦するYahooの姿勢は立派です。WebAPIとして開放することで、今はデータを集めている時期なのかもしれません。
今はまだ使い物にならないのでガッカリしましたが、2年後3年後に期待します。

テキスト解析 – Yahoo!デベロッパーネットワーク
https://developer.yahoo.co.jp/webapi/jlp/