Semalt распрацоўвае URLitoritor - Вельмі халаднаватае скрабаванне І Інструмент вылучэння дадзеных

URLitor - гэта новы, але эфектыўны інструмент выскрабання і вымання дадзеных. Каб выкарыстоўваць URLitor, вам трэба проста дадаць спіс усіх URL, змесціва якіх вы хочаце вычысціць у Інтэрнэце ў прадастаўленым шаблоне. Затым вам трэба паказаць элемент HTML, які вы хочаце атрымаць з вэб-старонак і націснуць кнопку адправіць. Гэта так проста, як гэта. З дапамогай гэтага інструмента вам больш не трэба рабіць копію або ўстаўляць з браўзэра.

xPath - гэта мова, якая выкарыстоўваецца для пошуку інфармацыі ў файлах XML. Ён выкарыстоўвае пэўныя выразы для выбару набораў вузлоў ці вузлоў у файлах XML. Выразы, якія разумее XPath, даволі падобныя на тыя, якія выкарыстоўваюцца з звычайнымі кампутарнымі файламі альбо дакументамі.

Хоць XPath выкарыстоўваецца з некалькімі мовамі праграмавання, гэты інструмент быў распрацаваны для карыстальнікаў, якія не валодаюць праграмнымі ведамі. Такім чынам, вам не трэба быць праграмістам, каб выкарыстоўваць яго. З дапамогай гэтага інструмента вы можаце здабываць дадзеныя з некалькіх HTML і XML старонак.

Для прастаты выкарыстання некалькі часта выкарыстоўваюцца выразаў XPath былі загадзя вызначаныя ў выпадальным меню, так што карыстальнікам трэба будзе выбраць любы з іх у залежнасці ад сваёй мэты. Аднак высокакваліфікаваныя карыстальнікі XPath могуць свабодна выкарыстоўваць свае ўласныя выразы, калі захочуць.

Інструмент быў распрацаваны з колькасцю 100 URL-адресаў за адзін сеанс выскрабання, і ён займае максімум 10 выразаў адначасова. Іншымі словамі, ён можа скрабаць дадзеныя з максімум 100 URL адначасова.

Прама ніжэй выкладзены некаторыя важныя карыстацкія выразы XPath, якія можна змяніць або дадаць:

1. // div [2] - гэты выраз выбірае другі іерархічны дзіў;

2. // спасылка [@ rel = 'canonical'] / @ href - гэты выраз выбірае месцазнаходжанне (ref) тэга, які выкарыстоўваецца для ўстаноўкі атрыбута rel, роўнага кананічнага;

3. / html / head / meta [@ name = 'description'] / @ content - Гэты выраз выкарыстоўваецца для выбару змесціва;

4. // * [@ class = 'class-name'] - Вы можаце выкарыстоўваць гэты выраз, каб выбраць усе элементы з 'class-name' як клас CSS;

5. // h2 | // title - Гэты выраз можа быць выкарыстаны для выбару першай H2 і загалоўкі старонкі;

6. // * [name () = 'h1' or name () = 'title']) - Гэты выраз працуе сапраўды гэтак жа, як вышэй. Аднак выраз, прадстаўлены вышэй, лепш, паколькі ён карацей;

7. // * [змяшчае (@class, 'thumb')] - гэты выраз выбірае кожны элемент, які мае клас CSS, а таксама змяшчае 'thumb' для здабывання;

8. // бацькоўскі :: * [text () = 'Сардэчна запрашаем'] - гэты выраз выбірае бацькоў любога элемента, які змяшчае тэкст "Сардэчна запрашаем";

Гэты інструмент з'яўляецца бэта-версіяй і ўсё яшчэ можа працаваць з некаторымі памылкамі. Тым не менш, гэта ўсё яшчэ выдатны інструмент для карыстальнікаў, якія практычна не ведаюць праграмавання, паколькі ўсе часта выкарыстоўваюцца выразы былі зададзены ў меню, як ужо гаварылася раней.

mass gmail