Én elég jó a Python, így pszeudo-kód elegendő, ha részleteket triviális. Kérjük érts kezdődött a feladat - hogyan megy körülbelül mászik a neten a csiga mail címét templomok az én állam. Egyszer van egy bélés, mint a „123 Old West Road # 3 Old Lyme Város MD 01234”, azt valószínűleg feldolgozni azt város, állam, utca, házszám, apt elég próbálgatással. A problémám az, - ha használom fehér oldalakat az interneten, akkor hogyan tudom kezelni az összes HTML junk, HTML táblázatok, hirdetések, stb? Nem hiszem, hogy szükségem van a telefonszámukat, de ez nem fog fájni - én is mindig dobja ki egyszer elemezni. Még ha a megoldás félig manuális (például PDF-be mentés, majd nyissa meg akrobata, kivéve a szöveges) - Lehet, hogy boldog vele még. Kösz! Heck, én is fogadja Perl kivonatok - tudom fordítani őket magam.
Kapok egy listát az összes egyházak egy bizonyos állapotban Python
Próbálja lynx --dump <url>letölteni a weboldalakat. Minden zavaró HTML fog veszni a kimenet, és minden a linkeket az oldal jelenik meg együtt.
Jól jönne Mechanize . Ez egy python könyvtárat, hogy szimulálja a böngésző, így lehet térképezni a fehér oldalt (hasonlóan ahhoz, amit csinálni kézzel).
Annak érdekében, hogy kezelni a „html junk” python könyvtárral, hogy túl: BeautifulSoup Ez egy szép módja annak, hogy a kívánt adatokat ki HTML (természetesen ez azt feltételezi, hogy egy kicsit a HTML, mivel akkor még kell navigálni az elemzési fa).
Frissítés: a következő kérdés, hogy hogyan kattintással több oldalt. Mechanize egy könyvtár nem csak ezt. Vessünk egy közelebbi pillantást a példát, esp. A follow_link módszer. Mint mondtam szimulál egy böngésző, így a „csattanó” valósítható gyorsan python.
Mit akar csinálni az úgynevezett kaparást vagy web kaparás.
Ha némi kereséseket a python és kaparás , akkor megtalálja az eszközöket , amelyek segítségével.
(Soha nem használtam érdesebbek, de helyén ígéretesnek tűnik :)
Gyönyörű leves egy nem agy. Itt egy hely lehet kezdeni http://www.churchangel.com/ . Nekik van egy hatalmas lista, és a formázás nagyon szabályos - fordítás: egyszerű beállítás BSoup kaparja.
Python script lehet, hogy nem a legjobb eszköz erre a feladatra, ha csak most keresi címét templomok egy adott földrajzi területen.
Az amerikai népszámlálási egy adathalmaz templomok használható földrajzi információs rendszerek. Ha megállapítás minden xolyan térbeli területen egy visszatérő probléma, vállalni a tanulási GIS. Akkor tudod, hogy a Python készségek viselnie számos földrajzi feladatokat.













