Python Forum - Substring extraction

Hello,

i have a list of strings like this:

<a href="https://filmovitica.com/neprijatelj-2011-domaci-film-gledaj-online/" rel="bookmark">Neprijatelj (2011) domaći film gledaj online</a>

i need to extract following:

Neprijatelj (2011) domaći film gledaj online

I tried this:

print(re.search('">(.*)</a>', link))

But that results in:

<re.Match object; span=(91, 141), match='">Neprijatelj (2011) domaći film gledaj online</a>

It is a list of strings like this:

<a href="https://filmovitica.com/kraj-nedelje-1975-domaci-film-gledaj-online/" rel="bookmark">Kraj nedelje (1975) domaći film gledaj online</a>
<a href="https://filmovitica.com/cvetje-v-jeseni-1973-domaci-film-gledaj-online/" rel="bookmark">Cvetje v jeseni (1973) domaći film gledaj online</a>
<a href="https://filmovitica.com/sve-ce-to-narod-pozlatiti-1995-domaci-film-gledaj-online/" rel="bookmark">Sve će to narod pozlatiti (1995) domaći film gledaj online</a>
<a href="https://filmovitica.com/imam-nesto-vazno-da-vam-kazem-2005-domaci-film-gledaj-online/" rel="bookmark">Imam nesto vazno da vam kazem (2005) domaći film gledaj online</a>
<a href="https://filmovitica.com/kala-1958-domaci-film-gledaj-online/" rel="bookmark">Kala (1958) domaći film gledaj online</a>
<a href="https://filmovitica.com/oglas-1974-domaci-film-gledaj-online/" rel="bookmark">Oglas (1974) domaći film gledaj online</a>
<a href="https://filmovitica.com/mali-vojnici-1967-domaci-film-gledaj-online/" rel="bookmark">Mali vojnici (1967) domaći film gledaj online</a>
<a href="https://filmovitica.com/sinovci-2006-domaci-film-gledaj-online/" rel="bookmark">Sinovci (2006) domaći film gledaj online</a>
<a href="https://filmovitica.com/volca-nok-1955-vucja-noc-1955-domaci-film-gledaj-online/" rel="bookmark">Volca nok (1955) – Vucja noc (1955) domaći film gledaj online</a>
<a href="https://filmovitica.com/grad-1963-domaci-film-gledaj-online/" rel="bookmark">Grad (1963) domaći film gledaj online</a>
<a href="https://filmovitica.com/sta-se-dogodilo-sa-filipom-preradovicem-1977-domaci-film-gledaj-online/" rel="bookmark">Sta se dogodilo sa Filipom Preradovicem (1977) domaći film gledaj online</a>
<a href="https://filmovitica.com/hoja-lero-1952-domaci-film-gledaj-online/" rel="bookmark">Hoja! Lero! (1952) domaći film gledaj online</a>
<a href="https://filmovitica.com/roman-sa-kontrabasom-1972-domaci-film-gledaj-online/" rel="bookmark">Roman sa kontrabasom (1972) domaći film gledaj online</a>
<a href="https://filmovitica.com/zagreb-cappuccino-2014-domaci-film-gledaj-online/" rel="bookmark">Zagreb Cappuccino (2014) domaći film gledaj online</a>
<a href="https://filmovitica.com/prica-o-fabrici-1949-domaci-film-gledaj-online/" rel="bookmark">Prica o fabrici (1949) domaći film gledaj online</a>
<a href="https://filmovitica.com/put-ruzama-posut-2013-domaci-film-gledaj-online/" rel="bookmark">Put Ruzama Posut (2013) domaći film gledaj online</a>
<a href="https://filmovitica.com/pomorandzina-kora-2016-domaci-film-gledaj-online/" rel="bookmark">Pomorandžina kora (2016) domaći film gledaj online</a>
<a href="https://filmovitica.com/plava-ruza-domaci-film-gledaj-online/" rel="bookmark">Plava ruža domaći film gledaj online</a>
<a href="https://filmovitica.com/ubica-na-odsustvu-1965-domaci-film-gledaj-online/" rel="bookmark">Ubica na odsustvu (1965) domaći film gledaj online</a>
<a href="https://filmovitica.com/hudodelci-1987-domaci-film-gledaj-online/" rel="bookmark">Hudodelci (1987) domaći film gledaj online</a>
<a href="https://filmovitica.com/lazar-1984-domaci-film-gledaj-online/" rel="bookmark">Lazar (1984) domaći film gledaj online</a>

Name always starts with > and ends with < so i figured this might be the way, but a did not manage to get it working right.

Thanks in advance

you may find this SO answer interesting https://stackoverflow.com/a/1732454/4046632

Use proper tools to parse HTML - e.g. BeautifulSoup. Take a look at our web-scraping tutorial - part1

I am sorry, but i just can not get it working that way.. can you please help me with it?

(Apr-23-2019, 05:14 PM)nevendary Wrote: [ -> ]I am sorry, but i just can not get it working that way..

what exactly is the problem. Post your code in python tags and full traceback in error tags. Also note, my advise is to work with the original html source.

(Apr-23-2019, 06:23 PM)buran Wrote: [ -> ]
(Apr-23-2019, 05:14 PM)nevendary Wrote: [ -> ]I am sorry, but i just can not get it working that way..
what exactly is the problem. Post your code in python tags and full traceback in error tags. Also note, my advise is to work with the original html source.

Buran i guess we could communicate in Czech but lets keep it this way.

See there is a website, which i am trying to pull data from for Kodi addon.
So i am trying to take all movie links and their names

For example:

<a href="https://filmovitica.com/lazar-1984-domaci-film-gledaj-online/" rel="bookmark">Lazar (1984) domaći film gledaj online</a>

url=https://filmovitica.com/lazar-1984-domaci-film-gledaj-online/
name=Lazar (1984)

I already managed to get url out in variable. I am trying to get name now. I guess when i manage to get: Lazar (1984) domaći film gledaj online
i can then cut it for last few characters to get Lazar(1984) only

(Apr-23-2019, 06:56 PM)nevendary Wrote: [ -> ]Buran i guess we could communicate in Czech but lets keep it this way.

No, I don't speak czech. And you are not listening what I tell you

import requests
from bs4 import BeautifulSoup

url='https://filmovitica.com/film/domaci/'

resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'html.parser') # if you have lxml you can use it as parser instead
div_items = soup.find_all('div', {'class':'item-text'})
for div in div_items:
   link = div.find('a') 
   print(link.get('href')) # this is the link
   print(link.text) # this is the movie title

Hide/Show

Output:https://filmovitica.com/fraulein-doktor-1969-gospodjica-doktor-1969-domaci-film-gledaj-online/
Fräulein Doktor (1969) – Gospodjica Doktor (1969) – Domaći film gledaj online
https://filmovitica.com/aveti-predstava-domaci-film-gledaj-online/
Aveti – predstava domaći film gledaj online
https://filmovitica.com/podvala-narodno-pozoriste-beograd-1969-domaci-film-gledaj-online/
PODVALA – Narodno pozorište, Beograd (1969) domaći film gledaj online
https://filmovitica.com/servantes-iz-malog-mista-1982-domaci-film-gledaj-online/
Servantes iz Malog Mista (1982) domaći film gledaj online
https://filmovitica.com/pod-zrvnjem-1990-domaci-film-gledaj-online/
Pod zrvnjem (1990) domaći film gledaj online
https://filmovitica.com/seobe-1989-domaci-film-gledaj-online/
Seobe (1989) domaći film gledaj online
https://filmovitica.com/rodjen-kao-ratnik-1994-domaci-film-gledaj-online/
Rodjen kao ratnik (1994) domaći film gledaj online
https://filmovitica.com/direktan-prenos-1982-domaci-film-gledaj-online/
Direktan prenos (1982) domaći film gledaj online
https://filmovitica.com/uvrijedjeni-covjek-1972-domaci-film-gledaj-online/
Uvrijedjeni covjek (1972) domaći film gledaj online
https://filmovitica.com/mehanizam-2000-domaci-film-gledaj-online/
Mehanizam (2000) domaći film gledaj online
https://filmovitica.com/lijepe-zene-prolaze-kroz-grad-1986-domaci-film-gledaj-online/
Lijepe zene prolaze kroz grad (1986) domaći film gledaj online
https://filmovitica.com/ritam-zivota-2007-domaci-film-gledaj-online/
Ritam zivota (2007) domaći film gledaj online
https://filmovitica.com/nadvoznjak-1987-domaci-film-gledaj-online/
Nadvoznjak (1987) domaći film gledaj online
https://filmovitica.com/kozara-1962-domaci-film-gledaj-online/
Kozara (1962) domaći film gledaj online
https://filmovitica.com/korespondencija-1983-domaci-film-gledaj-online/
Korespondencija (1983) domaći film gledaj online
https://filmovitica.com/sekula-i-njegove-zene-1986-domaci-film-gledaj-online/
Sekula i njegove zene (1986) domaći film gledaj online
https://filmovitica.com/svanuce-1964-domaci-film-gledaj-online/
Svanuce (1964) domaći film gledaj online
https://filmovitica.com/violinski-kljuc-1990-domaci-film-gledaj-online/
Violinski kljuc (1990) domaći film gledaj online
https://filmovitica.com/selo-bez-zena-2010-domaci-film-gledaj-online/
Selo bez zena (2010) domaći film gledaj online
https://filmovitica.com/harmonika-1972-domaci-film-gledaj-online/
Harmonika (1972) domaći film gledaj online
https://filmovitica.com/skica-za-sliku-vremena-1979-domaci-film-gledaj-online/
Skica za sliku vremena (1979) domaći film gledaj online
https://filmovitica.com/taksi-bluz-2019-domaci-film-gledaj-online/
Taksi bluz (2019) domaći film gledaj online
https://filmovitica.com/made-in-serbia-2005-domaci-film-gledaj-online/
Made in Serbia (2005) domaći film gledaj online
https://filmovitica.com/martin-u-oblacima-1961-domaci-film-gledaj-online/
Martin u oblacima (1961) domaći film gledaj online
https://filmovitica.com/zikina-dinastija-lude-godine-mix/
Žikina dinastija – Lude godine mix
https://filmovitica.com/kralj-petar-i-2018-domaci-film-gledaj-online/
Kralj Petar I (2018) domaći film gledaj online
https://filmovitica.com/neprijatelj-2011-domaci-film-gledaj-online/
Neprijatelj (2011) domaći film gledaj online
https://filmovitica.com/dan-duzi-od-godine-1971-domaci-film-gledaj-online/
Dan duzi od godine (1971) domaći film gledaj online
https://filmovitica.com/planinata-na-gnevot-1968-domaci-film-gledaj-online/
Planinata na gnevot (1968) domaći film gledaj online
https://filmovitica.com/covek-koji-je-bombardovao-beograd-1976-domaci-film-gledaj-online/
Covek koji je bombardovao Beograd (1976) domaći film gledaj online
https://filmovitica.com/zec-1975-domaci-film-gledaj-online/
Zec (1975) domaći film gledaj online
https://filmovitica.com/sladak-zivot-na-srpski-nacin-1971-domaci-film-gledaj-online/
Sladak zivot na srpski nacin (1971) domaći film gledaj online
https://filmovitica.com/kako-mogu-da-te-cujem-kad-voda-tece-narodno-pozoriste-beograd-1991/
KAKO MOGU DA TE ČUJEM KAD VODA TEČE – Narodno pozorište, Beograd (1991)
https://filmovitica.com/nebo-sateliti-2000-domaci-film-gledaj-online/
Nebo, sateliti (2000) domaći film gledaj online
https://filmovitica.com/gresnica-bez-greha-1927-domaci-film-gledaj-online/
Gresnica bez greha (1927) domaći film gledaj online
https://filmovitica.com/aleksi-2018-domaci-film-gledaj-online/
Aleksi (2018) domaći film gledaj online
https://filmovitica.com/patuljci-sa-naslovnih-strana-2019-domaci-film-gledaj-online/
Patuljci sa naslovnih strana (2019) domaći film gledaj online
https://filmovitica.com/majstor-narodno-pozoriste-beograd-2002-domaci-film-gledaj-online/
Majstor – Narodno pozorište, Beograd (2002) domaći film gledaj online
https://filmovitica.com/mandragola-2008-domaci-film-gledaj-online/
Mandragola (2008) domaći film gledaj online
https://filmovitica.com/magneti-2016-domaci-film-gledaj-online/
Magneti (2016) domaći film gledaj online
https://filmovitica.com/neka-daleka-svjetlost-1969-domaci-film-gledaj-online/
Neka daleka svjetlost (1969) domaći film gledaj online
https://filmovitica.com/pendzeri-ravnice-1971-domaci-film-gledaj-online/
Pendzeri ravnice (1971) domaći film gledaj online
https://filmovitica.com/posljednji-most-1954-domaci-film-gledaj-online/
Posljednji most (1954) domaći film gledaj online
https://filmovitica.com/simha-1975-domaci-film-gledaj-online/
Simha (1975) domaći film gledaj online
https://filmovitica.com/vojnik-1966-domaci-film-gledaj-online/
Vojnik (1966) domaći film gledaj online
https://filmovitica.com/drveni-sanduk-tomasa-vulfa-1974-domaci-film-gledaj-online/
Drveni sanduk Tomasa Vulfa (1974) domaći film gledaj online
https://filmovitica.com/lisinski-1944-domaci-film-gledaj-online/
Lisinski (1944) domaći film gledaj online
https://filmovitica.com/srescemo-se-veceras-1962-domaci-film-gledaj-online/
Srescemo se veceras (1962) domaći film gledaj online
https://filmovitica.com/muke-po-mati-1975-domaci-film-gledaj-online/
Muke po Mati (1975) domaći film gledaj online
https://filmovitica.com/pod-isto-nebo-1964-domaci-film-gledaj-online/
Pod isto nebo (1964) domaći film gledaj online
https://filmovitica.com/noc-poslije-smrti-1983-domaci-film-gledaj-online/
Noc poslije smrti (1983) domaći film gledaj online
https://filmovitica.com/hajducka-vremena-1977-domaci-film-gledaj-online/
Hajducka vremena (1977) domaći film gledaj online
https://filmovitica.com/hajka-1977-domaci-film-gledaj-online/
Hajka (1977) domaći film gledaj online
https://filmovitica.com/plamen-nad-jadranom-1968-domaci-film-gledaj-online/
Plamen nad Jadranom (1968) domaći film gledaj online
https://filmovitica.com/noci-i-jutra-1959-domaci-film-gledaj-online/
Noci i jutra (1959) domaći film gledaj online
https://filmovitica.com/mister-dolar-1989-domaci-film-gledaj-online/
Mister Dolar (1989) domaći film gledaj online
https://filmovitica.com/volio-bih-da-sam-golub-1990-domaci-film-gledaj-online/
Volio bih da sam golub (1990) domaći film gledaj online
https://filmovitica.com/nas-avto-1962-domaci-film-gledaj-online/
Nas avto (1962) domaći film gledaj online
https://filmovitica.com/dva-sanduka-dinamita-1980-domaci-film-gledaj-online/
Dva sanduka dinamita (1980) domaći film gledaj online
https://filmovitica.com/kraj-nedelje-1975-domaci-film-gledaj-online/
Kraj nedelje (1975) domaći film gledaj online
https://filmovitica.com/cvetje-v-jeseni-1973-domaci-film-gledaj-online/
Cvetje v jeseni (1973) domaći film gledaj online
https://filmovitica.com/sve-ce-to-narod-pozlatiti-1995-domaci-film-gledaj-online/
Sve će to narod pozlatiti (1995) domaći film gledaj online
https://filmovitica.com/imam-nesto-vazno-da-vam-kazem-2005-domaci-film-gledaj-online/
Imam nesto vazno da vam kazem (2005) domaći film gledaj online
https://filmovitica.com/kala-1958-domaci-film-gledaj-online/
Kala (1958) domaći film gledaj online
https://filmovitica.com/oglas-1974-domaci-film-gledaj-online/
Oglas (1974) domaći film gledaj online
https://filmovitica.com/mali-vojnici-1967-domaci-film-gledaj-online/
Mali vojnici (1967) domaći film gledaj online
https://filmovitica.com/sinovci-2006-domaci-film-gledaj-online/
Sinovci (2006) domaći film gledaj online
https://filmovitica.com/volca-nok-1955-vucja-noc-1955-domaci-film-gledaj-online/
Volca nok (1955) – Vucja noc (1955) domaći film gledaj online
https://filmovitica.com/grad-1963-domaci-film-gledaj-online/
Grad (1963) domaći film gledaj online
https://filmovitica.com/sta-se-dogodilo-sa-filipom-preradovicem-1977-domaci-film-gledaj-online/
Sta se dogodilo sa Filipom Preradovicem (1977) domaći film gledaj online
https://filmovitica.com/hoja-lero-1952-domaci-film-gledaj-online/
Hoja! Lero! (1952) domaći film gledaj online
https://filmovitica.com/roman-sa-kontrabasom-1972-domaci-film-gledaj-online/
Roman sa kontrabasom (1972) domaći film gledaj online
https://filmovitica.com/zagreb-cappuccino-2014-domaci-film-gledaj-online/
Zagreb Cappuccino (2014) domaći film gledaj online
https://filmovitica.com/prica-o-fabrici-1949-domaci-film-gledaj-online/
Prica o fabrici (1949) domaći film gledaj online
https://filmovitica.com/put-ruzama-posut-2013-domaci-film-gledaj-online/
Put Ruzama Posut (2013) domaći film gledaj online
https://filmovitica.com/pomorandzina-kora-2016-domaci-film-gledaj-online/
Pomorandžina kora (2016) domaći film gledaj online
https://filmovitica.com/plava-ruza-domaci-film-gledaj-online/
Plava ruža domaći film gledaj online
https://filmovitica.com/ubica-na-odsustvu-1965-domaci-film-gledaj-online/
Ubica na odsustvu (1965) domaći film gledaj online
https://filmovitica.com/hudodelci-1987-domaci-film-gledaj-online/
Hudodelci (1987) domaći film gledaj online
https://filmovitica.com/lazar-1984-domaci-film-gledaj-online/
Lazar (1984) domaći film gledaj online

if you want, you can replace domaći film gledaj online with empty string to remove it or you can use slicing for that purpose.

Also you can replace the last 5 rows with

h4_items = soup.find_all('h4', {'class':'entry_title'})
for h4 in h4_items:
   link = h4.find('a')
   print(link.get('href'))
   print(link.text)

i.e. search for h4 instead for div

Awesome, thank you very much and sorry for bothering!