Kapok egy listát az összes egyházak egy bizonyos állapotban Python

szavazat
-3

Én elég jó a Python, így pszeudo-kód elegendő, ha részleteket triviális. Kérjük érts kezdődött a feladat - hogyan megy körülbelül mászik a neten a csiga mail címét templomok az én állam. Egyszer van egy bélés, mint a „123 Old West Road # 3 Old Lyme Város MD 01234”, azt valószínűleg feldolgozni azt város, állam, utca, házszám, apt elég próbálgatással. A problémám az, - ha használom fehér oldalakat az interneten, akkor hogyan tudom kezelni az összes HTML junk, HTML táblázatok, hirdetések, stb? Nem hiszem, hogy szükségem van a telefonszámukat, de ez nem fog fájni - én is mindig dobja ki egyszer elemezni. Még ha a megoldás félig manuális (például PDF-be mentés, majd nyissa meg akrobata, kivéve a szöveges) - Lehet, hogy boldog vele még. Kösz! Heck, én is fogadja Perl kivonatok - tudom fordítani őket magam.

A kérdést 14/12/2009 23:29
a forrás felhasználó
Más nyelveken...                            


5 válasz

szavazat
2

Próbálja lynx --dump <url>letölteni a weboldalakat. Minden zavaró HTML fog veszni a kimenet, és minden a linkeket az oldal jelenik meg együtt.

Válaszolt 14/12/2009 23:36
a forrás felhasználó

szavazat
2

Jól jönne Mechanize . Ez egy python könyvtárat, hogy szimulálja a böngésző, így lehet térképezni a fehér oldalt (hasonlóan ahhoz, amit csinálni kézzel).

Annak érdekében, hogy kezelni a „html junk” python könyvtárral, hogy túl: BeautifulSoup Ez egy szép módja annak, hogy a kívánt adatokat ki HTML (természetesen ez azt feltételezi, hogy egy kicsit a HTML, mivel akkor még kell navigálni az elemzési fa).

Frissítés: a következő kérdés, hogy hogyan kattintással több oldalt. Mechanize egy könyvtár nem csak ezt. Vessünk egy közelebbi pillantást a példát, esp. A follow_link módszer. Mint mondtam szimulál egy böngésző, így a „csattanó” valósítható gyorsan python.

Válaszolt 14/12/2009 23:42
a forrás felhasználó

szavazat
2

Mit akar csinálni az úgynevezett kaparást vagy web kaparás.

Ha némi kereséseket a python és kaparás , akkor megtalálja az eszközöket , amelyek segítségével.

(Soha nem használtam érdesebbek, de helyén ígéretesnek tűnik :)

Válaszolt 14/12/2009 23:46
a forrás felhasználó

szavazat
2

Gyönyörű leves egy nem agy. Itt egy hely lehet kezdeni http://www.churchangel.com/ . Nekik van egy hatalmas lista, és a formázás nagyon szabályos - fordítás: egyszerű beállítás BSoup kaparja.

Válaszolt 15/12/2009 00:17
a forrás felhasználó

szavazat
1

Python script lehet, hogy nem a legjobb eszköz erre a feladatra, ha csak most keresi címét templomok egy adott földrajzi területen.

Az amerikai népszámlálási egy adathalmaz templomok használható földrajzi információs rendszerek. Ha megállapítás minden xolyan térbeli területen egy visszatérő probléma, vállalni a tanulási GIS. Akkor tudod, hogy a Python készségek viselnie számos földrajzi feladatokat.

Válaszolt 15/12/2009 00:34
a forrás felhasználó

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more