6つの新しいオープンソースコードをお送りください!NLP.MLを含むコンピュータビジョンの方向性(コードと論文を含む)

自然言語処理

DuReader:現実世界のアプリケーションから理解力のあるデータセットを読む中国語機械

@zhangjunがお勧め

機械読解

Baiduからの大規模な中国の読解のデータセット、仕事。

論文のリンク

https://www.paperweekly.site/papers/1137

コードリンク

https://github.com/baidu/DuReader

TransNet - 推薦のために変換することを学ぶ

@ccclyuがおすすめ

転送学習

マイグレーション学習の暗黙のプレゼンテーション層は、テストデータセットの希薄さを減らすために導入されました。

論文のリンク

https://www.paperweekly.site/papers/1181

コードリンク

https://github.com/rosecatherinek/TransNets

コンピュータビジョン

視覚的質問応答のためのマルチモーダル乗法フィーチャ埋め込みによる自由形式領域と検出の共起

@ Xiaoluuがお勧め

視覚的な質問の回答

Viual Question Answeringは、過去2、3年で出現したマルチモーダルな作業です。 ビジュアルクイズタスクでは、アルゴリズムはピクチャコンテンツと言語情報を同時に理解し、正しい答えを導き出す必要があります。 現在、最も一般的な方法は、マルチモーダル特徴融合および視覚的注意メカニズムのために存在する。

2つの主なタイプの注意メカニズムがあります:1つは、地図領域全体に基づくアテンションメカニズムであり、もう1つは、検出フレーム領域の注意メカニズムに基づくものであり、前者は、対象物の部分に集中しやすく、後者は、 。

本論文では、マップ領域全体と検出フレームに基づく領域を一つのフレームワークに統合し、マップ領域と検出フレーム全体の補完情報を最大限に活用することを目的とし、マルチモーダル特徴融合法、問題の特性、全体の地図の特徴、効果的な統合のためのテストボックスの特性。 このモデルは、VQAとCOCO-QAの2つの主流データセットでこれまでのところ最良の結果を達成しました。

論文のリンク

https://www.paperweekly.site/papers/1175

コードリンク

https://github.com/lupantech/dual-mfa-vqa

畳み込みニューラルネットワークとマルコフランダムフィールドを用いた画像群集数計算

@ cornicioneのおすすめ

カウントする人

この記事では、MRFとディープネットワークを組み合わせ、静止画の人数を数える方法を提案します。

論文のリンク

https://www.paperweekly.site/papers/1195

コードリンク

https://github.com/hankong/crowd-counting

機械学習

社会的注目 - 人間の集団における注意のモデリング

@ zk5580752をおすすめ

注意モデル

この記事は、2016年にLi Feifeiチームによって提案された歩行者道予測方法であるソーシャルLSTMに基づくフォローアップ論文です。 本稿では、RNNモデルだけでなく元のテキストに基づく予測方法を改善するとともに、予測をより正確かつ包括的にする注意モデルを紹介します。

論文のリンク

https://www.paperweekly.site/papers/1115

コードリンク

https://github.com/vvanirudh/social-lstm-tf

Softmaxボトルネックを破る:高ランクのRNN言語モデル

@paperweekly推奨

RNN

この記事では、次のトークンを予測する際にsoftmaxで遭遇した言語モデルの計算上のボトルネックを改善しようとしています。

論文のリンク

https://www.paperweekly.site/papers/1112

コードリンク

https://github.com/zihangdai/mos

記事全文を読む

カテゴリ:モバイル開発 時間:2017-12-13 人気:33
この記事では、

関連記事

Copyright (C) socapnw.com, All Rights Reserved.

Socapnw All Rights Reserved.

processed in 0.750 (s). 9 q(s)