Python Forum
Formatting cyrillic characters
Thread Rating:
  • 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5
Formatting cyrillic characters
#1
code
import requests
txtPage = requests.get("http://www.pythonscraping.com/pages/warandpeace/chapter1-ru.txt")
print(str(txtPage.content, 'utf-8'))
gives this ( this is just a part of it )
Error:
????? ?????? I - Eh bien, mon prince. Gênes et Lucques ne sont plus que des apanages, des ????? ???, de la famille Buonaparte. Non, je vous préviens que si vous ne me dites pas que nous avons la guerre, si vous vous permettez encore de pallier toutes les i nfamies, toutes les atrocités de cet Antichrist (ma parole, j'y crois) - je ne v ous connais plus, vous n'êtes plus mon ami, vous n'êtes plus ??? ?????? ???, com me vous dites. ??, ????????????, ????????????. Je vois que je vous fais peur, ?? ?????? ? ?????????????. ??? ???????? ? ???? 1805 ???? ????????? ???? ???????? ?????, ???????? ? ???????? ???? ??????????? ????? ??????????, ???????? ??????? ? ????????? ????? ???????, ? ?????? ??????????? ?? ?? ?????. ???? ???????? ??????? ????????? ????, ? ??? ??? ?????, ??? ??? ???????? (????? ??? ????? ????? ?????, ??????????????? ?????? ??? ????). ? ??????????, ??????????? ????? ? ??????? ??????, ???? ???????? ??? ????? ??? ?? ????: «Si vous n'avez rien de mieux à faire, Monsieur le comte (??? mon prince), et si la perspective de passer la soirée chez une pauvre malade ne vous effraye pas t rop, je serai charmée de vous voir chez moi entre 7 et 10 heures. Annette Schere r». - Dieu, quelle virulente sortie! - ???????, ????????? ?? ??????? ????? ????????, ???????? ?????, ? ??????????, ????? ???????, ? ??????, ???????? ? ???????, ? ?? ????? ?????????? ???????? ????. ?? ??????? ?? ??? ?????????? ??????????? ?????, ?? ??????? ?? ?????? ????????, ? ? ? ?????? ???? ????, ? ? ????, ??????, ???????????????????? ???????????, ?????? ? ??????????? ?????????????? ? ????? ? ??? ????? ????????????? ????????. ?? ???? ??? ? ???? ????????, ????????? ?? ????, ????????? ?? ???? ?????????? ? ??????? ? ?????, ? ??????? ?????? ?? ??????. - Avant tout dites-moi, comment vous allez, chère amie? ????????? ????, - ?????? ??, ?? ??????? ?????? ? ?????, ? ??????? ??-?? ???????? ? ??????? ???????????? ?????????? ? ???? ????????.
Any idea why adding utf-8 didn't give desired result? Without it it also gives ( some other ) unreadable output.
Reply
#2
import requests

txt_page = requests.get("http://www.pythonscraping.com/pages/warandpeace/chapter1-ru.txt")
print(txt_page.content.decode('utf-8')[:150])
Output:
— Eh bien, mon prince. Gênes et Lucques ne sont plus que des apanages, des поместья, de la famille Buonaparte. Non, je vous préviens
Reply
#3
Try without limiting number of characters and you will see many question marks again. ;)
Reply
#4
(Jan-05-2019, 12:31 AM)Truman Wrote: Try without limiting number of characters and you will see many question marks again.
Nope,i see none.
Reply
#5
this is how I see first 150 characters from your code:

????? ??????

I

- Eh bien, mon prince. Gênes et Lucques ne sont plus que des apanages, des ?????
???, de la famille Buonaparte. Non, je vous préviens
Reply
#6
Try running from command line or other editor.
Reply
#7
strange, on repl.it it works fine.
Reply


Possibly Related Threads…
Thread Author Replies Views Last Post
Question Trouble installing modules/libraries and getting Notepad++ to show cyrillic letters Dragiev 6 2,179 Jul-24-2022, 12:55 PM
Last Post: Dragiev
  cyrillic symbols in tables in reportlab. hiroz 5 11,189 Sep-10-2020, 04:57 AM
Last Post: bradmalcom
  Remove escape characters / Unicode characters from string DreamingInsanity 5 13,409 May-15-2020, 01:37 PM
Last Post: snippsat

Forum Jump:

User Panel Messages

Announcements
Announcement #1 8/1/2020
Announcement #2 8/2/2020
Announcement #3 8/6/2020