Why can't it extract the data from .txt well?

Melcu54 · (This post was last modified: Aug-20-2023, 09:13 AM by Melcu54.)

Version 1. Very good. The dictionaries are compared, and the diacritics from the first dictionary are included in the output.

import tkinter as tk
import re
from tkinter import messagebox, simpledialog
from unidecode import unidecode  # Importați unidecode

# Presupunem că avem următoarele liste:
dictionar = ["înţeleasă", "Eului", "misterului"]  # și așa mai departe
dictionar_2 = ["inteleasa", "Eului", "misterului"]  # și așa mai departe

text = "Fiind inteleasa identitate dintre planul Eului ... "  # și așa mai departe

# Parcurgem fiecare cuvânt din dictionar_2
for idx, cuvant in enumerate(dictionar_2):
    # Înlocuim cuvântul fără diacritice cu cel cu diacritice
    text = text.replace(cuvant, dictionar[idx])

print(text)

In the following code, I want to do the same thing as in the first code, only by extracting data from .txt that contain the same words:

import tkinter as tk
import re
from tkinter import messagebox, simpledialog
from unidecode import unidecode  # Importați unidecode

# Citim cuvintele din dictionar.txt
with open('dictionar.txt', 'r', encoding='utf-8') as f:
    dictionar = f.read().splitlines()

# Citim cuvintele din dictionar-2.txt
with open('dictionar-2.txt', 'r', encoding='utf-8') as f:
    dictionar_2 = f.read().splitlines()

text = "Fiind inteleasa identitate dintre planul Eului ... "  # și așa mai departe

# Parcurgem fiecare cuvânt din dictionar_2
for idx, cuvant in enumerate(dictionar_2):
    # Verificăm dacă cuvântul fără diacritice există în text
    if cuvant in text:
        # Înlocuim cuvântul fără diacritice cu cel cu diacritice
        text = text.replace(cuvant, dictionar[idx])
        print(f"Înlocuit {cuvant} cu {dictionar[idx]}")

print("Textul inițial:", "Fiind inteleasa identitate dintre planul Eului ... ")
print("Textul final:", text)

In dictionary.txt I have the words:

Fiind, înţeleasă, identitate, dintre, planul, Eului, cel, misterului, substanţa, creaţiei, întemeiază, proces, simbolizare, realităţii, cuprinse, specifice, zonei, aflu, scoici, fosile, melci, alge, aduse, ţărm, bucăţele, sticlă, mării, şlefuieşte, timp, şezlonguri, umbrele, vânzători, ambulanți, activități, nautice, și

In dictionary-2.txt I have the same words, but without diacritics:

Fiind, inteleasa, identitate, dintre, planul, Eului, cel, misterului, substanta, creatiei, intemeiaza, proces, simbolizare, realitatii, cuprinse, specifice, zonei, aflu, scoici, fosile, melci, alge, aduse, tarm, bucatele, sticla, marii, slefuieste, timp, sezlonguri, umbrele, vanzatori, ambulanti, activitati, nautice, si

The output should be: (word "înţeleasă" with diacritics)

Fiind înţeleasă identitate dintre planul Eului

Melcu54 · Aug-20-2023, 12:00 PM

This seems to be good

import tkinter as tk
from unidecode import unidecode
import re

# Citim cuvintele din dictionar.txt
with open('dictionar.txt', 'r', encoding='utf-8') as f:
    dictionar = f.read().split(', ')

# Citim cuvintele din dictionar-2.txt
with open('dictionar-2.txt', 'r', encoding='utf-8') as f:
    dictionar_2 = f.read().split(', ')

def adauga_diacritice():
    # Extragem textul din widget-ul Text
    text = text_input.get("1.0", tk.END)

    # Împărțim textul în linii
    linii = text.split('\n')

    # Procesăm fiecare linie separat
    linii_procesate = []
    for linie in linii:
        cuvinte_linie = re.split(r'(\W+)', linie)  # Folosim regex pentru a extrage cuvintele și semnele de punctuație separat
        linie_finala = []
        for cuvant in cuvinte_linie:
            if cuvant and cuvant[0].isalpha():  # Verificăm dacă este cuvânt
                cuvant_fara_diacritice = unidecode(cuvant).lower()
                print(f"Verificăm cuvântul: {cuvant_fara_diacritice}")
                if cuvant_fara_diacritice in dictionar_2:
                    idx = dictionar_2.index(cuvant_fara_diacritice)
                    if cuvant[0].isupper():
                        linie_finala.append(dictionar[idx].capitalize())
                    else:
                        linie_finala.append(dictionar[idx])
                else:
                    linie_finala.append(cuvant)
            else:
                linie_finala.append(cuvant)  # Adăugăm semnele de punctuație fără modificări
        linii_procesate.append(''.join(linie_finala))

    # Construim textul final, păstrând alineatele
    text_final = '\n'.join(linii_procesate)

    # Ștergem conținutul actual și adăugăm textul procesat
    text_input.delete("1.0", tk.END)
    text_input.insert(tk.END, text_final)

root = tk.Tk()
root.title("Adăugare Diacritice")

text_input = tk.Text(root, height=20, width=50)
text_input.pack(pady=20)

btn_diacritice = tk.Button(root, text="Diacritice", command=adauga_diacritice)
btn_diacritice.pack(side=tk.LEFT, padx=10)

root.mainloop()

noisefloor · Aug-20-2023, 12:05 PM

Hello,

and the questions is...? It's missing in your original post. If something doesn't worl as you expect, please describe what doesn't work and what you get as a result.

Regards, noisefloor

**deanhystad** · (This post was last modified: Aug-20-2023, 10:07 PM by deanhystad.)

What is going on here? You already answered these questions here:

https://python-forum.io/thread-40556.html

What am I missing? Is the problem that the words are separated by commas and whitespace? This is actually a much simpler problem than you had in the other thread. You can use the same mechanism as before, but use a different regex pattern. You could also treat the file as a csv, and split the file on commas (Comma Separated Values). If going the CSV route you'll probably have to set some parameter in the csv read function to remove the extra spaces.

import csv
from io import StringIO

dictionar_2 = StringIO("Fiind, inteleasa, identitate, dintre, planul, Eului, cel, misterului")

reader = csv.reader(dictionar_2, skipinitialspace=True)
print(*reader)

Output:
['Fiind', 'inteleasa', 'identitate', 'dintre', 'planul', 'Eului', 'cel', 'misterului']

Be aware that "not whitespace" may not be what you expect:

import re

print(re.split("\W+", "This doesn't handle contractions or punctuation well."))

Output:
['This', 'doesn', 't', 'handle', 'contractions', 'or', 'punctuation', 'well', '']

Melcu54 · Dec-12-2024, 07:36 PM

thanks a lot !

Possibly Related Threads…
Thread		Author	Replies	Views	Last Post
	JSON File - extract only the data in a nested array for CSV file	shwfgd	2	1,107	Aug-26-2024, 10:14 PM Last Post: shwfgd
	Python script to extract data from API to database	melpys	0	890	Aug-12-2024, 05:53 PM Last Post: melpys
	Is it possible to extract 1 or 2 bits of data from MS project files?	cubangt	8	3,819	Feb-16-2024, 12:02 AM Last Post: deanhystad
	python Extract sql data by combining below code.	mg24	1	1,601	Oct-03-2022, 10:25 AM Last Post: mg24
	SQL Alchemy help to extract sql data into csv files	mg24	1	3,247	Sep-30-2022, 04:43 PM Last Post: Larz60+
	How to extract specific data from .SRC (note pad file)	Shinny_Shin	2	2,219	Jul-27-2022, 12:31 PM Last Post: Larz60+
	Build a matrix by pressing buttons of an interface in Tkinter which extract data from	juandiegopulla	1	2,954	Sep-13-2021, 07:28 PM Last Post: deanhystad
	Python Pandas: How do I extract all the >1000 data from a certain column?	JaneTan	0	2,107	Jul-17-2021, 09:09 AM Last Post: JaneTan
	Need help on extract dynamic table data	Dr_Strange	0	3,111	Apr-30-2021, 07:03 AM Last Post: Dr_Strange
	Python modules to extract data from a graph?	bigmit37	5	27,761	Apr-09-2021, 02:15 PM Last Post: TysonL

Why can't it extract the data from .txt well?

User Panel Messages

Announcements