Лабораторна робота 9.Rmd

---
title: "Розділ 10 Лабораторна робота № 9. Веб скрепінг. Пакет rvest. Short-версія"
author: "[Daniil Tereshchenko](https://www.linkedin.com/in/daniil-tereshchenko/), `r format(Sys.time(), '%Y')`"
date: "`r Sys.Date()`"
output: 
  cleanrmd::html_document_clean:
    theme: axist
bibliography: references_lab.bib
---

### Основні методи пакета rvest
Методи пакета `rvest` дозволяють:

Отримати `HTML/XML` розмітку і обробити її: `read_html`, `read_xml`;
Визначити елемент: `html_node`, `html_nodes`;
Розібрати елемент на складові частини: `html_name`, `html_attr`, `html_attrs`,
`html_text`, `html_children`, `html_table`, `html_form`;
Відправити запит через форму: `html_form`, `set_values`, `html_session`,
`submit_form`;
Імітувати браузер: `jump_to`, `follow_link`, `back`, `html_session`, `session_history`;
Працювати з кодуваннями: `guess_encoding`, `repair_encoding`.

#### Отримання html-сторінки і знаходження потрібного елемента

Метод
`html_nodes (html_doc, css, xpath)`
приймає на вхід `HTML`-документ `html_doc`, отриманий від `read_html`, і шлях до потрібного елементу, вказаний за допомогою `css`-селектор (`css`) або `XPath` (`xpath`) і повертає список елементів, розташованих за заданим шляхом.

```{r}
# Отримати html-сторінку і знайти потрібний елемент

suppressPackageStartupMessages(library(rvest))
suppressPackageStartupMessages(library(dplyr))

html_1 <- read_html("https://uk.wikipedia.org/wiki/%D0%A1%D0%BE%D0%BD%D1%8F%D1%87%D0%BD%D0%B0_%D0%B0%D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D1%96%D1%81%D1%82%D1%8C")
html <- read_html("https://uk.wikipedia.org/wiki/%D0%A1%D0%BE%D0%BD%D1%8F%D1%87%D0%BD%D0%B0_%D0%B0%D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D1%96%D1%81%D1%82%D1%8C", encoding = "UTF-8")

# xpath
html_1 %>% 
  html_node(xpath='//*[@id="mw-content-text"]/div[1]/table[1]') %>% 
  html_table()
```

```{r}
str(df)
```

```{r}
class(df)
```

```{r}
html_1 %>%
  html_node(css = '#mw-content-text > div.mw-parser-output > table.wikitable') %>%
  html_table()
```

Метод `html_node` приймає ті ж самі вхідні аргументи, що і `html_nodes`, але повертає тільки перший елемент, розташований по заданому шляху.

Приклад. Доступ до таблиці з певним порядковим номером.

```{r}
html_2 <- read_html("https://index.minfin.com.ua/reference/people/")

html_2 %>% 
  html_nodes('table') 
```

```{r}
html_2 %>% 
  html_nodes('table') %>% 
  .[[3]] %>% 
  html_table() %>% 
  DT::datatable()
```

#### Розбір елементів на складові частини

Приклад вилучення таблиць показаний на прикладі вище за допомогою `html_table`.
Продемонструємо вилучення інших елементів веб-сторінки.

```{r}
html_3 <- read_html('<a href="http://google.com" rel="nofollow"> Link to the <b>Google</b></a>"')

minimal_html(html_3)
```

```{r}
links <- html_3 %>% 
  html_nodes(xpath="//a")

links %>%
  html_name()
```

```{r}
links %>%
  html_attrs()
```

```{r}
links %>%
  html_attr("href")
```

```{r}
links %>%
  html_text()
```

```{r}
links %>%
  html_text(trim = TRUE)
```
#### Індивідуальне завдання
```{r}
bale <- read_html('https://ru.wikipedia.org/wiki/%D0%91%D0%B5%D0%B9%D0%BB,_%D0%9A%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%B0%D0%BD')

#xpath
bale %>%
  html_node(xpath='//*[@id="mw-content-text"]/div[1]/table[2]') %>%
  html_table()
```

```{r}
bale %>%
  html_node(xpath='//*[@id="mw-content-text"]/div[1]/table[3]') %>%
  html_table()
```

```{r}
#css-selector
bale %>%
  html_node(css='#mw-content-text > div.mw-parser-output > table.wikitable') %>%
  html_table()
```

```{r}
bale %>%
  html_nodes('table')
```

```{r}
bale %>%
  html_nodes('table') %>%
  .[[2]] %>%
  html_table() %>%
  DT::datatable()
```
Див. джерела:  

1. [Описание протокола HTTP](http://web-master.pp.ru/info/04.shtml) 
1. [HTTP: The Protocol Every Web Developer Must Know - Part 1](https://code.tutsplus.com/tutorials/http-the-protocol-every-web-developer-must-know-part-1--net-31177) 
1. [HTTP Made Really Easy](https://www.jmarshall.com/easy/http/) 
1. [XPath Tutorial](http://zvon.org/xxl/XPathTutorial/Output_rus/examples.html)

### References

Khramov, Dmytrii. 2016. Collecting Data on the Internet in r. [http://www.knigograd.com.ua/index.php?dispatch=products.view&product_id=263245](http://www.knigograd.com.ua/index.php?dispatch=products.view&product_id=263245).
Temple Lang, Duncan. 2022a. RCurl: General Network (HTTP/FTP/...) Client Interface for r. [https://CRAN.R-project.org/package=RCurl](https://CRAN.R-project.org/package=RCurl).
———. 2022b. XML: Tools for Parsing and Generating XML Within r and s-Plus. [http://www.omegahat.net/RSXML/](http://www.omegahat.net/RSXML/).
———. 2020. Httr: Tools for Working with URLs and HTTP. [https://CRAN.R-project.org/package=httr](https://CRAN.R-project.org/package=httr).
———. 2021b. Rvest: Easily Harvest (Scrape) Web Pages. [https://CRAN.R-project.org/package=rvest](https://CRAN.R-project.org/package=rvest).
Wickham, Hadley, Jim Hester, and Jeroen Ooms. 2021. Xml2: Parse XML. [https://CRAN.R-project.org/package=xml2](https://CRAN.R-project.org/packag