Małozachłanne RE ze spacją.

Jak przy pomocy re.match() w pythonie wyłowić miasto ze spacją z poniższej linijki przy założeniu, że kod pocztowy występuje zawsze, ale po mieście może wystąpić dowolna ilość wyrazów porozdzielanych spacjami?

'31-216 Olkusz ul. Manifestu Lipcowego 12/23 i może jeszcze coś'

Działa i wystarcza mi oczywiście wyrażenie

foo = re.match('(\d{2}-\d{3}) (.*)? .*', line)

ale zacząłem wczoraj z ciekawości zastanawiać się, jak do wyszukiwanego RE dołączyć spację [czyli z powyższego wyłowić ‚Olkusz ‚, nie ‚Olkusz’] i prawdę mówiąc odbiłem się od ściany. Any ideas?

Napisane przez torero

Zobacz wszystkie wpisy, których autorem jest torero

9 myśli w temacie “Małozachłanne RE ze spacją.”

danadam pisze:

17 lutego 2015 o 11:59
Wszystko poza spacją i spacja: [^␣]+␣:
```
foo = re.match('(\d{2}-\d{3}) ([^ ]+ )?.*', line)
```
(zakładając, że po mieście zawsze występuje spacja (albo miasto składa się z dwóch lub więcej słów 🙂 ))

PolubieniePolubienie
Odpowiedz
torero pisze:

17 lutego 2015 o 12:15

O proszsz. Znów zmądrzałem, dzięki.

PolubieniePolubienie

Odpowiedz
Remigiusz 'lRem' Modrzejewski pisze:

17 lutego 2015 o 12:56

Przy czym od „nie spacji” [^ ] lepszy mógłby być „nie biały znak” \S lub wprost „znak którym pisze się słowa” \w (to ostatnie może zależeć od locale przy dopasowaniu ąę).

PolubieniePolubienie

Odpowiedz
rozie pisze:

18 lutego 2015 o 09:26

.* na końcu regexpa niczego nie wnosi (chyba, że Python ma inaczej). Przy \w uważaj na – (minus). AFAIK może wystąpić w nazwie, a nie łapie się.

PolubieniePolubienie

Odpowiedz
rozie pisze:

18 lutego 2015 o 09:39

Oraz: robisz to źle. Borne Sulinowo, Biała Podlaska, Stargard Szczeciński, Starogard Gdański. 😉

PolubieniePolubienie

Odpowiedz
torero pisze:

18 lutego 2015 o 10:12

@rozie ad 5: wiem, o tych przypadkach pomyślałem [jeszcze Piotrków Trybunalski ;)], ale w tym, co robię, nie ma to AŻ TAKIEGO znaczenia.

Co do .* na końcu, faktycznie masz rację; w oryginale łapałem to do reszty nazwy w trzeci nawias, tutaj zapomniałem.

PolubieniePolubienie

Odpowiedz
Świętomir pisze:

18 lutego 2015 o 18:22

Po pierwsze odradzam dosłowne spacje w wyrażeniach regularnych. Osobiście wszędzie, gdzie spodziewam się spacji, piszę ‚\s+’, co łapie dowolną ilość dowolnych białych znaków oprócz ‚\n’. Dużo bardziej uniwersalne. Ale może to moje zboczenie człowieka, który wszystko trzyma w czytsym tekście i lubi mieć ładnie sformatowane spacjami.

Po drugie zakładając, że każde słowo w nazwie miejsciowości zaczyna się wielką literą, możesz zrobić tak:

foo = re.match(r'(\d{2}-\d{3})\s([A-Z]\w+)+\s+ul\..‚, line)

Po trzecie w nazwie miejscowości czasem zdarzy się dywiz, więc też warto dodać.

Po czwarte, jeżeli używasz tego wyrażenia wielokrotnie w ciągu działania skryptu, warto je skompilować:

foo = re.compile(r'(\d{2}-\d{3})\s([A-Z][\w-]+)+\s+ul\..‚)
foo.match(line)

Po piąte ten kod, który podałeś nie powinien działać. Backslashe są znakami specjalnymi w łańcuchch tekstowych. Trzeba albo poprzedzać je drugim backslashem (‚\\’), albo oznaczyć łańcuch jako „raw string”, poprzedziając go literą r, jak powyżej.

Po szóste, nie jest prawdą, że ‚.‚ na końcu nic nie wnosi. W tym konkretnym przypadku wnosi, ponieważ re.match() wymaga dokładnego dopasowania stringu do wyrażenia. Bez tego ‚.‚ na końcu nie zadziała.

PolubieniePolubienie

Odpowiedz
Drax pisze:

18 lutego 2015 o 19:06

A po siódme: głupi markdown. xD

PolubieniePolubienie

Odpowiedz
rozie pisze:

19 lutego 2015 o 09:26

@Świętomir: Co do \s zgoda (i miałem pisać, ale \ ze smartfona to masakra, poza tym, nie ten język, a chyba nie wszystko \s łapie). Za to nadużywasz plusów. \d{2}-\d{3})\s([A-Z][\w-]+)+ – to złapie z dywizem, ale już dwuczłonowych nie złapie. No i na Czechowice-Dziedzice wystarczy bez plusa na końcu. Skoro już polegasz na ul\. to znacznie prościej lecieć: \d{2}-\d{3}\s+(.*)ul\.

I pewnie do wersji z łapaniem „separatorów”, czyli pl., al., ul. bym się skłaniał. Choć zależy czy lista zamknięta, czy nie. Jeśli userzy mają dowolność, to będzie lipa/trudniej. Zresztą wtedy też nie polegałbym na wielkiej literze na początku nazwy miejscowości…

Nawiasem, jeśli to nie tylko Polska (ale tylko, bo kody pocztowe…), to wielka litera na początku nazwy miejscowości nie jest wymagana. 😉 Przykład(y) pozostawię jako zagadkę, jak nikt nie poda w ciągu paru dni, to napiszę.

PolubieniePolubienie

Odpowiedz