Jonathan-LeRoux · Jun 21, 2018
diff --git a/Diff for: ‎.gitignore
+3-4 b/Diff for: ‎.gitignore
+3-4
diff --git a/Diff for: ‎egs/csj/asr1/run.sh
+2-2 b/Diff for: ‎egs/csj/asr1/run.sh
+2-2
diff --git a/Diff for: ‎egs/jsalt18e2e/asr1/run.sh
+2-2 b/Diff for: ‎egs/jsalt18e2e/asr1/run.sh
+2-2
diff --git a/Diff for: ‎egs/wsj/asr1/local/run_bpe.sh renamed to ‎egs/librispeech/asr1/local/run_spm.sh
+115-85 b/Diff for: ‎egs/wsj/asr1/local/run_bpe.sh renamed to ‎egs/librispeech/asr1/local/run_spm.sh
+115-85
diff --git a/Diff for: ‎egs/librispeech/asr1/path.sh
+1-1 b/Diff for: ‎egs/librispeech/asr1/path.sh
+1-1
diff --git a/Diff for: ‎egs/librispeech/asr1/run.sh
+2-2 b/Diff for: ‎egs/librispeech/asr1/run.sh
+2-2
diff --git a/Diff for: ‎egs/wsj/asr1/run.sh
+2-2 b/Diff for: ‎egs/wsj/asr1/run.sh
+2-2
diff --git a/Diff for: ‎src/asr/asr_chainer.py
+1-1 b/Diff for: ‎src/asr/asr_chainer.py
+1-1
diff --git a/Diff for: ‎src/asr/asr_pytorch.py
+6-1 b/Diff for: ‎src/asr/asr_pytorch.py
+6-1
diff --git a/Diff for: ‎src/nets/e2e_asr_attctc_th.py
+1-1 b/Diff for: ‎src/nets/e2e_asr_attctc_th.py
+1-1
diff --git a/Diff for: ‎src/utils/data2json.sh
+1-1 b/Diff for: ‎src/utils/data2json.sh
+1-1
diff --git a/Diff for: ‎src/utils/score_sclite.sh
+10-8 b/Diff for: ‎src/utils/score_sclite.sh
+10-8
diff --git a/Diff for: ‎tools/Makefile
+5-4 b/Diff for: ‎tools/Makefile
+5-4
@@ -1,4 +1,4 @@
-*~
+B*~
 *.pyc
 \#*\#
 .\#*
@@ -27,11 +27,10 @@ tools/nkf/
 tools/venv/
 tools/warp-ctc/
 tools/chainer_ctc/
-tools/subword-nmt/
-tools/chainer_ctc*
+tools/sentencepiece/
 tools/nkf*
-tools/subword-nmt*
 tools/chainer_ctc*
 tools/warp-ctc*
+tools/sentencepiece/*
 
 .pytest_cache
@@ -137,12 +137,12 @@ if [ ${stage} -le 1 ]; then
     # dump features for training
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_tr_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{14,15,16,17}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_set}/delta${do_delta}/storage \
+        /export/b{14,15,16,17}/${USER}/espnet-data/egs/csj/asr1/dump/${train_set}/delta${do_delta}/storage \
         ${feat_tr_dir}/storage
     fi
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_dt_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{14,15,16,17}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_dev}/delta${do_delta}/storage \
+        /export/b{14,15,16,17}/${USER}/espnet-data/egs/csj/asr1/dump/${train_dev}/delta${do_delta}/storage \
         ${feat_dt_dir}/storage
     fi
     dump.sh --cmd "$train_cmd" --nj 32 --do_delta $do_delta \
 
@@ -29,7 +29,7 @@ do_delta=false # true when using CNN
 # network archtecture
 # encoder related
 etype=blstmp     # encoder architecture type
-elayers=8
+elayers=4
 eunits=320
 eprojs=320
 subsample=1_2_2_1_1 # skip every n frame from input to nth layers
@@ -51,7 +51,7 @@ maxlen_out=150 # if output length > maxlen_out, batchsize is automatically reduc
 
 # optimization related
 opt=adadelta
-epochs=15
+epochs=20
 
 # decoding parameter
 beam_size=20
 
@@ -7,9 +7,10 @@
 . ./cmd.sh
 
 # general configuration
-backend=chainer
-stage=0        # start from 0 if you need to start from data preparation
-gpu=-1         # use 0 when using GPU on slurm/grid engine, otherwise -1
+backend=pytorch
+stage=-1       # start from -1 if you need to start from data download
+gpu=            # will be deprecated, please use ngpu
+ngpu=0          # number of gpus ("0" uses cpu, otherwise use gpu)
 debugmode=1
 dumpdir=dump   # directory to dump full features
 N=0            # number of minibatches to be used (mainly for debugging). "0" uses all minibatches.
@@ -21,8 +22,8 @@ do_delta=false # true when using CNN
 
 # network archtecture
 # encoder related
-etype=vggblstmp     # encoder architecture type
-elayers=6
+etype=blstmp     # encoder architecture type
+elayers=8
 eunits=320
 eprojs=320
 subsample=1_2_2_1_1 # skip every n frame from input to nth layers
@@ -38,7 +39,7 @@ aconv_filts=100
 mtlalpha=0.5
 
 # minibatch related
-batchsize=30
+batchsize=50
 maxlen_in=800  # if input length  > maxlen_in, batchsize is automatically reduced
 maxlen_out=150 # if output length > maxlen_out, batchsize is automatically reduced
 
@@ -47,7 +48,7 @@ opt=adadelta
 epochs=15
 
 # rnnlm related
-lm_weight=1.0
+lm_weight=0.3
 
 # decoding parameter
 beam_size=20
@@ -57,37 +58,62 @@ minlenratio=0.0
 ctc_weight=0.3
 recog_model=acc.best # set a model to be used for decoding: 'acc.best' or 'loss.best'
 
-# data
-wsj0=/export/corpora5/LDC/LDC93S6B
-wsj1=/export/corpora5/LDC/LDC94S13B
+# Set this to somewhere where you want to put your data, or where
+# someone else has already put it.  You'll want to change this
+# if you're not on the CLSP grid.
+datadir=/export/a15/vpanayotov/data
 
-# bpe
-nbpe=500
+# base url for downloads.
+data_url=www.openslr.org/resources/12
+
+# bpemode (unigram or bpe)
+nbpe=200
+bpemode=unigram
 
 # exp tag
 tag="" # tag for managing experiments.
 
 . utils/parse_options.sh || exit 1;
 
-. ./path.sh 
-. ./cmd.sh 
+. ./path.sh
+. ./cmd.sh
+
+# check gpu option usage
+if [ ! -z $gpu ]; then
+    echo "WARNING: --gpu option will be deprecated."
+    echo "WARNING: please use --ngpu option."
+    if [ $gpu -eq -1 ]; then
+        ngpu=0
+    else
+        ngpu=1
+    fi
+fi
 
 # Set bash to 'debug' mode, it will exit on :
 # -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',
 set -e
 set -u
 set -o pipefail
 
-train_set=train_si284
-train_dev=test_dev93
-recog_set="test_dev93 test_eval92"
+train_set=train_960
+train_dev=dev
+recog_set="test_clean test_other dev_clean dev_other"
+
+if [ ${stage} -le -1 ]; then
+    echo "stage -1: Data Download"
+    for part in dev-clean test-clean dev-other test-other train-clean-100 train-clean-360 train-other-500; do
+        local/download_and_untar.sh ${datadir} ${data_url} ${part}
+    done
+fi
 
 if [ ${stage} -le 0 ]; then
     ### Task dependent. You have to make data the following preparation part by yourself.
     ### But you can utilize Kaldi recipes in most cases
     echo "stage 0: Data preparation"
-    local/wsj_data_prep.sh ${wsj0}/??-{?,??}.? ${wsj1}/??-{?,??}.?
-    local/wsj_format_data.sh
+    for part in dev-clean test-clean dev-other test-other train-clean-100 train-clean-360 train-other-500; do
+        # use underscore-separated names in data directories.
+        local/data_prep.sh ${datadir}/LibriSpeech/${part} data/$(echo ${part} | sed s/-/_/g)
+    done
 fi
 
 feat_tr_dir=${dumpdir}/${train_set}/delta${do_delta}; mkdir -p ${feat_tr_dir}
@@ -98,81 +124,97 @@ if [ ${stage} -le 1 ]; then
     echo "stage 1: Feature Generation"
     fbankdir=fbank
     # Generate the fbank features; by default 80-dimensional fbanks with pitch on each frame
-    for x in train_si284 test_dev93 test_eval92; do
-        steps/make_fbank_pitch.sh --cmd "$train_cmd" --nj 10 data/${x} exp/make_fbank/${x} ${fbankdir}
+    for x in dev_clean test_clean dev_other test_other train_clean_100 train_clean_360 train_other_500; do
+        steps/make_fbank_pitch.sh --cmd "$train_cmd" --nj 32 data/${x} exp/make_fbank/${x} ${fbankdir}
     done
 
+    utils/combine_data.sh data/${train_set}_org data/train_clean_100 data/train_clean_360 data/train_other_500
+    utils/combine_data.sh data/${train_dev}_org data/dev_clean data/dev_other
+
+    # remove utt having more than 3000 frames
+    # remove utt having more than 400 characters
+    remove_longshortdata.sh --maxframes 3000 --maxchars 400 data/${train_set}_org data/${train_set}
+    remove_longshortdata.sh --maxframes 3000 --maxchars 400 data/${train_dev}_org data/${train_dev}
+
     # compute global CMVN
     compute-cmvn-stats scp:data/${train_set}/feats.scp data/${train_set}/cmvn.ark
 
     # dump features for training
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_tr_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{10,11,12,13}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_set}/delta${do_delta}/storage \
+        /export/b{14,15,16,17}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_set}/delta${do_delta}/storage \
         ${feat_tr_dir}/storage
     fi
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_dt_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{10,11,12,13}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_dev}/delta${do_delta}/storage \
+        /export/b{14,15,16,17}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_dev}/delta${do_delta}/storage \
         ${feat_dt_dir}/storage
     fi
-    dump.sh --cmd "$train_cmd" --nj 32 --do_delta $do_delta \
+    dump.sh --cmd "$train_cmd" --nj 80 --do_delta $do_delta \
         data/${train_set}/feats.scp data/${train_set}/cmvn.ark exp/dump_feats/train ${feat_tr_dir}
-    dump.sh --cmd "$train_cmd" --nj 4 --do_delta $do_delta \
+    dump.sh --cmd "$train_cmd" --nj 32 --do_delta $do_delta \
         data/${train_dev}/feats.scp data/${train_set}/cmvn.ark exp/dump_feats/dev ${feat_dt_dir}
+    for rtask in ${recog_set}; do
+        feat_recog_dir=${dumpdir}/${rtask}/delta${do_delta}; mkdir -p ${feat_recog_dir}
+        dump.sh --cmd "$train_cmd" --nj 32 --do_delta $do_delta \
+            data/${rtask}/feats.scp data/${train_set}/cmvn.ark exp/dump_feats/recog/${rtask} \
+            ${feat_recog_dir}
+    done
 fi
 
-dict=data/bpe/${train_set}_units_${nbpe}.txt
-code=data/bpe/code_${nbpe}.txt
-nlsyms=data/bpe/non_lang_syms.txt
+dict=data/lang_char/${train_set}_units.txt
+bpemodel=data/lang_char/${train_set}${nbpe}
 echo "dictionary: ${dict}"
 if [ ${stage} -le 2 ]; then
     ### Task dependent. You have to check non-linguistic symbols used in the corpus.
     echo "stage 2: Dictionary and Json Data Preparation"
-    mkdir -p data/bpe
+    mkdir -p data/lang_char/
     echo "<unk> 1" > ${dict} # <unk> must be 1, 0 will be used for "blank" in CTC
-    cut -f 2- -d" " data/${train_set}/text | learn_bpe.py -s ${nbpe} > ${code}
-    cut -f 2- -d" " data/${train_set}/text | apply_bpe.py -c ${code} \
-	    | tr ' ' '\n' | sort | uniq | awk '{print $0 " " NR+1}' >> ${dict}
+    cut -f 2- -d" " data/${train_set}/text > data/lang_char/input.txt
+    spm_train --input=data/lang_char/input.txt --vocab_size=${nbpe} --model_type=${bpemode} --model_prefix=${bpemodel} --input_sentence_size=100000000
+    spm_encode --model=${bpemodel}.model --output_format=piece < data/lang_char/input.txt | tr ' ' '\n' | sort | uniq | awk '{print $0 " " NR+1}' >> ${dict} 
     wc -l ${dict}
 
-    echo "make a non-linguistic symbol list"
-    cut -f 2- data/${train_set}/text | tr " " "\n" | sort | uniq | grep "<" > ${nlsyms}
-    cat ${nlsyms}
-    
-    echo "make json files"
-    data2json.sh --feat ${feat_tr_dir}/feats.scp --bpecode ${code} \
-         data/${train_set} ${dict} > ${feat_tr_dir}/data_${nbpe}.json
-    data2json.sh --feat ${feat_dt_dir}/feats.scp --bpecode ${code} \
+    # make json labels
+    data2json.sh --feat ${feat_tr_dir}/feats.scp --bpecode ${bpemodel}.model \
+	 data/${train_set} ${dict} > ${feat_tr_dir}/data_${nbpe}.json
+    data2json.sh --feat ${feat_dt_dir}/feats.scp --bpecode ${bpemodel}.model \
          data/${train_dev} ${dict} > ${feat_dt_dir}/data_${nbpe}.json
 fi
 
-# you can skip this and remove --rnnlm option in the recognition (stage 5)
-lmexpdir=exp/train_rnnlm_2layer_bs2048_bpe${nbpe}
+# You can skip this and remove --rnnlm option in the recognition (stage 5)
+lmexpdir=exp/train_rnnlm_2layer_bs256
 mkdir -p ${lmexpdir}
 if [ ${stage} -le 3 ]; then
     echo "stage 3: LM Preparation"
     lmdatadir=data/local/lm_train
     mkdir -p ${lmdatadir}
-    cut -f 2- -d" " data/${train_set}/text | apply_bpe.py -c ${code} | perl -pe 's/\n/ <eos> /g' \
-        > ${lmdatadir}/train_trans_${nbpe}.txt
-    zcat ${wsj1}/13-32.1/wsj1/doc/lng_modl/lm_train/np_data/{87,88,89}/*.z | grep -v "<" | tr [a-z] [A-Z] \
-        | apply_bpe.py -c ${code} | perl -pe 's/\n/ <eos> /g' >> ${lmdatadir}/train_others_${nbpe}.txt
-    cat ${lmdatadir}/train_trans_${nbpe}.txt ${lmdatadir}/train_others_${nbpe}.txt | tr '\n' ' ' > ${lmdatadir}/train_${nbpe}.txt
-    cut -f 2- -d" " data/${train_dev}/text | apply_bpe.py -c ${code} | perl -pe 's/\n/ <eos> /g' \
-        > ${lmdatadir}/valid_${nbpe}.txt
+    spm_encode --model=${bpemodel}.model --output_format=piece < data/lang_char/input.txt | perl -pe 's/\n/ <eos> /g' \
+        > ${lmdatadir}/train.txt
+        cut -f 2- -d" " data/${train_set}/text | spm_encode --model=${bpemodel}.model --output_format=piece | perl -pe 's/\n/ <eos> /g' \
+        > ${lmdatadir}/valid.txt
+    # use only 1 gpu
+    if [ ${ngpu} -gt 1 ]; then
+        echo "LM training does not support multi-gpu. signle gpu will be used."
+        lmngpu=1
+    else
+        lmngpu=${ngpu}
+    fi
     ${cuda_cmd} ${lmexpdir}/train.log \
         lm_train.py \
-        --gpu ${gpu} \
+        --ngpu ${lmngpu} \
+        --backend ${backend} \
         --verbose 1 \
         --outdir ${lmexpdir} \
-        --train-label ${lmdatadir}/train_${nbpe}.txt \
-        --valid-label ${lmdatadir}/valid_${nbpe}.txt \
+        --train-label ${lmdatadir}/train.txt \
+        --valid-label ${lmdatadir}/valid.txt \
+        --epoch 60 \
+        --batchsize 256 \
         --dict ${dict}
 fi
 
 if [ -z ${tag} ]; then
-    expdir=exp/${train_set}_${etype}_e${elayers}_subsample${subsample}_unit${eunits}_proj${eprojs}_d${dlayers}_unit${dunits}_${atype}_aconvc${aconv_chans}_aconvf${aconv_filts}_mtlalpha${mtlalpha}_${opt}_bs${batchsize}_mli${maxlen_in}_mlo${maxlen_out}_bpe${nbpe}
+    expdir=exp/${train_set}_${etype}_e${elayers}_subsample${subsample}_unit${eunits}_proj${eprojs}_d${dlayers}_unit${dunits}_${atype}_aconvc${aconv_chans}_aconvf${aconv_filts}_mtlalpha${mtlalpha}_${opt}_bs${batchsize}_mli${maxlen_in}_mlo${maxlen_out}_bpe${nbpe}_bpemode${bpemode}
     if ${do_delta}; then
         expdir=${expdir}_delta
     fi
@@ -181,32 +223,21 @@ else
 fi
 mkdir -p ${expdir}
 
-# switch backend
-if [[ ${backend} == chainer ]]; then
-    train_script=asr_train.py
-    decode_script=asr_recog.py
-else
-    train_script=asr_train_th.py
-    decode_script=asr_recog_th.py
-fi
-
 if [ ${stage} -le 4 ]; then
     echo "stage 4: Network Training"
-
-    ${cuda_cmd} ${expdir}/train.log \
-        ${train_script} \
-        --gpu ${gpu} \
+    ${cuda_cmd} --gpu ${ngpu} ${expdir}/train.log \
+        asr_train.py \
+        --ngpu ${ngpu} \
+        --backend ${backend} \
         --outdir ${expdir}/results \
         --debugmode ${debugmode} \
         --dict ${dict} \
         --debugdir ${expdir} \
         --minibatches ${N} \
         --verbose ${verbose} \
         --resume ${resume} \
-        --train-feat scp:${feat_tr_dir}/feats.scp \
-        --valid-feat scp:${feat_dt_dir}/feats.scp \
-        --train-label ${feat_tr_dir}/data_${nbpe}.json \
-        --valid-label ${feat_dt_dir}/data_${nbpe}.json \
+        --train-json ${feat_tr_dir}/data_${nbpe}.json \
+        --valid-json ${feat_dt_dir}/data_${nbpe}.json \
         --etype ${etype} \
         --elayers ${elayers} \
         --eunits ${eunits} \
@@ -232,29 +263,27 @@ if [ ${stage} -le 5 ]; then
     for rtask in ${recog_set}; do
     (
         decode_dir=decode_${rtask}_beam${beam_size}_e${recog_model}_p${penalty}_len${minlenratio}-${maxlenratio}_ctcw${ctc_weight}_rnnlm${lm_weight}
+        feat_recog_dir=${dumpdir}/${rtask}/delta${do_delta}
 
         # split data
         data=data/${rtask}
         split_data.sh --per-utt ${data} ${nj};
         sdata=${data}/split${nj}utt;
 
-        # feature extraction
-        feats="ark,s,cs:apply-cmvn --norm-vars=true data/${train_set}/cmvn.ark scp:${sdata}/JOB/feats.scp ark:- |"
-        if ${do_delta}; then
-        feats="$feats add-deltas ark:- ark:- |"
-        fi
-
         # make json labels for recognition
-        data2json.sh --bpecode ${code} ${data} ${dict} > ${data}/data_${nbpe}.json
+        for j in `seq 1 ${nj}`; do
+            data2json.sh --bpecode ${bpemodel}.model --feat ${feat_recog_dir}/feats.scp \
+                ${sdata}/${j} ${dict} > ${sdata}/${j}/data_${nbpe}.json
+        done
 
         #### use CPU for decoding
-        gpu=-1
+        ngpu=0
 
         ${decode_cmd} JOB=1:${nj} ${expdir}/${decode_dir}/log/decode.JOB.log \
-            ${decode_script} \
-            --gpu ${gpu} \
-            --recog-feat "$feats" \
-            --recog-label ${data}/data_${nbpe}.json \
+            asr_recog.py \
+            --ngpu ${ngpu} \
+            --backend ${backend} \
+            --recog-json ${sdata}/JOB/data_${nbpe}.json \
             --result-label ${expdir}/${decode_dir}/data.JOB.json \
             --model ${expdir}/results/model.${recog_model}  \
             --model-conf ${expdir}/results/model.conf  \
@@ -264,11 +293,12 @@ if [ ${stage} -le 5 ]; then
             --minlenratio ${minlenratio} \
             --ctc-weight ${ctc_weight} \
             --rnnlm ${lmexpdir}/rnnlm.model.best \
-            --lm-weight ${lm_weight} &
+            --lm-weight ${lm_weight} \
+            &
         wait
 
-        score_sclite.sh --bpe true --nlsyms ${nlsyms} ${expdir}/${decode_dir} ${dict}
-            
+        score_sclite.sh --bpe ${nbpe} --bpemodel ${bpemodel}.model --wer true ${expdir}/${decode_dir} ${dict}
+
     ) &
     done
     wait
 
@@ -8,7 +8,7 @@ export PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$KALDI_ROOT/tools/sctk/bin
 . $KALDI_ROOT/tools/config/common_path.sh
 export LC_ALL=C
 
-export PATH=$SPNET_ROOT/utils/:$SPNET_ROOT/bin/:$PATH
+export PATH=$MAIN_ROOT/tools/sentencepiece/src:$SPNET_ROOT/utils/:$SPNET_ROOT/bin/:$PATH
 export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/tools/chainer_ctc/ext/warp-ctc/build
 source $MAIN_ROOT/tools/venv/bin/activate
 export PYTHONPATH=$SPNET_ROOT/lm/:$SPNET_ROOT/asr/:$SPNET_ROOT/nets/:$SPNET_ROOT/utils/:$SPNET_ROOT/bin/:$PYTHONPATH
 
@@ -138,12 +138,12 @@ if [ ${stage} -le 1 ]; then
     # dump features for training
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_tr_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{14,15,16,17}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_set}/delta${do_delta}/storage \
+        /export/b{14,15,16,17}/${USER}/espnet-data/egs/librispeech/asr1/dump/${train_set}/delta${do_delta}/storage \
         ${feat_tr_dir}/storage
     fi
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_dt_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{14,15,16,17}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_dev}/delta${do_delta}/storage \
+        /export/b{14,15,16,17}/${USER}/espnet-data/egs/librispeech/asr1/dump/${train_dev}/delta${do_delta}/storage \
         ${feat_dt_dir}/storage
     fi
     dump.sh --cmd "$train_cmd" --nj 80 --do_delta $do_delta \
 
@@ -125,12 +125,12 @@ if [ ${stage} -le 1 ]; then
     # dump features for training
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_tr_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{10,11,12,13}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_set}/delta${do_delta}/storage \
+        /export/b{10,11,12,13}/${USER}/espnet-data/egs/wsj/asr1/dump/${train_set}/delta${do_delta}/storage \
         ${feat_tr_dir}/storage
     fi
     if [[ $(hostname -f) == *.clsp.jhu.edu ]] && [ ! -d ${feat_dt_dir}/storage ]; then
     utils/create_split_dir.pl \
-        /export/b{10,11,12,13}/${USER}/espnet-data/egs/voxforge/asr1/dump/${train_dev}/delta${do_delta}/storage \
+        /export/b{10,11,12,13}/${USER}/espnet-data/egs/wsj/asr1/dump/${train_dev}/delta${do_delta}/storage \
         ${feat_dt_dir}/storage
     fi
     dump.sh --cmd "$train_cmd" --nj 32 --do_delta $do_delta \
 
@@ -413,7 +413,7 @@ def train(args):
 
     # Save attention weight each epoch
     if args.num_save_attention > 0 and args.mtlalpha != 1.0:
-        data = sorted(valid_json.items()[:args.num_save_attention],
+        data = sorted(list(valid_json.items())[:args.num_save_attention],
                       key=lambda x: int(x[1]['input'][0]['shape'][1]), reverse=True)
         data = converter_kaldi([data], device=gpu_id)
         trainer.extend(PlotAttentionReport(model, data, args.outdir + "/att_ws"), trigger=(1, 'epoch'))
 
@@ -69,6 +69,8 @@ def evaluate(self):
 
         for batch in it:
             observation = {}
+            if torch.__version__ != "0.3.1":
+                torch.set_grad_enabled(False)
             with reporter_module.report_scope(observation):
                 # read scp files
                 # x: original json with loaded features
@@ -78,6 +80,9 @@ def evaluate(self):
                 self.model(x)
                 delete_feat(x)
 
+            if torch.__version__ != "0.3.1":
+                torch.set_grad_enabled(True)
+
             summary.add(observation)
 
         self.model.train()
@@ -293,7 +298,7 @@ def train(args):
 
     # Save attention weight each epoch
     if args.num_save_attention > 0 and args.mtlalpha != 1.0:
-        data = sorted(valid_json.items()[:args.num_save_attention],
+        data = sorted(list(valid_json.items())[:args.num_save_attention],
                       key=lambda x: int(x[1]['input'][0]['shape'][1]), reverse=True)
         data = converter_kaldi([data], device=gpu_id)
         trainer.extend(PlotAttentionReport(model, data, args.outdir + "/att_ws"), trigger=(1, 'epoch'))
 
@@ -742,7 +742,7 @@ def forward(self, enc_hs_pad, enc_hs_len, dec_z, att_prev, scaling=2.0):
         # initialize attention weight with uniform dist.
         if att_prev is None:
             att_prev = [Variable(enc_hs_pad.data.new(
-                l).zero_() + (1.0 / l)) for l in enc_hs_len]
+                int(l)).zero_() + (1.0 / int(l))) for l in enc_hs_len]
             # if no bias, 0 0-pad goes 0
             att_prev = pad_list(att_prev, 0)
 
 
@@ -37,7 +37,7 @@ fi
 
 # output
 if [ ! -z ${bpecode} ]; then
-    paste -d " " <(awk '{print $1}' ${dir}/text) <(cut -f 2- -d" " ${dir}/text | apply_bpe.py -c ${bpecode}) > ${tmpdir}/token.scp
+    paste -d " " <(awk '{print $1}' ${dir}/text) <(cut -f 2- -d" " ${dir}/text | spm_encode --model=${bpecode} --output_format=piece) > ${tmpdir}/token.scp
 elif [ ! -z ${nlsyms} ]; then
     text2token.py -s 1 -n 1 -l ${nlsyms} ${dir}/text > ${tmpdir}/token.scp
 else
 
@@ -7,7 +7,8 @@
 
 nlsyms=""
 wer=false
-bpe=false
+bpe=""
+bpemodel=""
 remove_blank=true
 filter=""
 
@@ -24,10 +25,6 @@ dic=$2
 concatjson.py ${dir}/data.*.json > ${dir}/data.json
 json2trn.py ${dir}/data.json ${dic} ${dir}/ref.trn ${dir}/hyp.trn
 
-if $bpe; then
-    sed -i.bak1 -r 's/(@@ )|(@@ ?$)//g' ${dir}/ref.trn
-    sed -i.bak1 -r 's/(@@ )|(@@ ?$)//g' ${dir}/hyp.trn
-fi
 if $remove_blank; then
     sed -i.bak2 -r 's/<blank> //g' ${dir}/hyp.trn
 fi
@@ -48,10 +45,15 @@ echo "write a CER (or TER) result in ${dir}/result.txt"
 grep -e Avg -e SPKR -m 2 ${dir}/result.txt
 
 if ${wer}; then
-    sed -e "s/ //g" -e "s/(/ (/" -e "s/<space>/ /g" ${dir}/ref.trn > ${dir}/ref.wrd.trn
-    sed -e "s/ //g" -e "s/(/ (/" -e "s/<space>/ /g" ${dir}/hyp.trn > ${dir}/hyp.wrd.trn
+    if [ ! -z $bpe ]; then
+	spm_decode --model=${bpemodel} --input_format=piece < ${dir}/ref.trn | sed -e "s/▁/ /g" > ${dir}/ref.wrd.trn
+	spm_decode --model=${bpemodel} --input_format=piece < ${dir}/hyp.trn | sed -e "s/▁/ /g" > ${dir}/hyp.wrd.trn
+    else
+	sed -e "s/ //g" -e "s/(/ (/" -e "s/<space>/ /g" ${dir}/ref.trn > ${dir}/ref.wrd.trn
+	sed -e "s/ //g" -e "s/(/ (/" -e "s/<space>/ /g" ${dir}/hyp.trn > ${dir}/hyp.wrd.trn
+    fi
     sclite -r ${dir}/ref.wrd.trn trn -h ${dir}/hyp.wrd.trn trn -i rm -o all stdout > ${dir}/result.wrd.txt
-
+	
     echo "write a WER result in ${dir}/result.wrd.txt"
     grep -e Avg -e SPKR -m 2 ${dir}/result.wrd.txt
 fi
@@ -2,7 +2,7 @@ KALDI =
 
 .PHONY: all clean
 
-all: venv/bin/activate kaldi nkf kaldi-io-for-python venv/lib/python2.7/site-packages/torch warp-ctc chainer_ctc subword-nmt
+all: venv/bin/activate kaldi nkf kaldi-io-for-python venv/lib/python2.7/site-packages/torch warp-ctc chainer_ctc sentencepiece
 
 kaldi-io-for-python:
 	git clone https://github.com/vesis84/kaldi-io-for-python.git
@@ -48,10 +48,11 @@ chainer_ctc: venv/bin/activate
 	. venv/bin/activate; cd chainer_ctc && chmod +x install_warp-ctc.sh && ./install_warp-ctc.sh ; true
 	. venv/bin/activate; cd chainer_ctc && pip install .
 
-subword-nmt:
-	git clone https://github.com/rsennrich/subword-nmt.git
+sentencepiece:
+	git clone https://github.com/google/sentencepiece.git
+	cd sentencepiece && ./autogen.sh && ./configure && $(MAKE)
 
 clean:
-	rm -fr kaldi_github kaldi kaldi_python venv nkf kaldi-io-for-python ../src/utils/kaldi_io_py.py warp-ctc chainer_ctc subword-nmt
+	rm -fr kaldi_github kaldi kaldi_python venv nkf kaldi-io-for-python ../src/utils/kaldi_io_py.py warp-ctc chainer_ctc sentencepiece
 	rm -f miniconda.sh
 	find . -iname "*.pyc" -delete