Подготовка документов

Приложение принимает на вход «сырые» документы в txt формате. Для улучшения качества проследите, чтобы тексты начинались с одного и того же места (например, с одной и той же главы, если речь идет о художественном произведении и его переводе).

Для примера возьмем рассказ Максима Горького «Макар Чудра» на русском и китайском языках.

makar_ru.txt

С моря дул влажный, холодный ветер, разнося по степи
задумчивую мелодию плеска набегавшей на берег волны и
шелеста прибрежных кустов. Изредка его порывы приносили
с собой сморщенные, желтые листья и бросали их в костер,
раздувая пламя; окружавшая нас мгла осенней ночи
вздрагивала и, пугливо отодвигаясь, открывала на миг слева
— безграничную степь, справа — бесконечное море и прямо
против меня — фигуру Макара Чудры, старого цыгана, — он
сторожил коней своего табора, раскинутого шагах в
пятидесяти от нас.
Не обращая внимания на то, что холодные волны ветра,
распахнув чекмень, обнажили его волосатую грудь и
безжалостно бьют ее, он полулежал в красивой, сильной позе,
лицом ко мне, методически потягивал из своей громадной
трубки, выпускал изо рта и носа густые клубы дыма и,
неподвижно уставив глаза куда-то через мою голову в мертво
молчавшую темноту степи, разговаривал со мной, не умолкая
и не делая ни одного движения к защите от резких ударов
ветра.
...

makar_zh.txt

马加尔·楚德拉
一阵潮湿而寒冷的风从海上吹来,把拍打着堤岸的波浪发
出的溅水声和沿岸灌木丛发出的飒飒声组成的低沉的旋律吹散
在草原上。劲风不时地卷起枯皱的黄叶,把它们投到篝火堆里,
燃起了火焰。我们周围的秋夜的黑幕颤动起来,慌忙地退开了,
顿时,左面露出了辽阔的草原,右面是无垠的大海,而正面对
着我的是马加尔·楚德拉这位老茨冈人的身影。他在看守着他
们游牧队的马群,他们的屯宿地离我们只有 50 步左右。
寒风撕开了他身上的捷克曼上衣,无情地扑打着他那毛茸
茸的胸膛,但是他一点儿也不在乎。他斜躺着,姿态很美,现
在刚劲有力的样子,脸对着我,有节奏地吸着他的大烟斗,浓
烟从他的鼻孔和口腔里冒了出来。他的目光从我的头上越过,
凝视着死一样沉寂的黑暗的草原,不停地和我交谈着,对冷风
的无情袭击没有采取任何抵抗行动。
“你就这样流浪吗?这挺好!你给自己的人生之旅安排得
很好,雄鹰啊!就应该这样,到处走走,见见世面,看够了,
便躺下来死,人生就是如此。” 我这样对他说。
“人生?那么,别人呢?”他疑惑地听完了我的话以后,
说,“哼!这跟你有什么相干呢?难道你自己没有自己的生活
道路吗?没有你人们也照样活着,而且仍然会活下去。难道你
认为别人非需要你不可?你不是面包,不是手杖,谁也不大需
要你。
“你说,要学习,要教人,是吗?但是你能学到怎样使人
幸福吗?不,你不能够。你只有先等自己的头发都白了,再来。
...

В данном примере тексты приведены «как есть», без какого-либо разбиения по предложениям.