Notice
Recent Posts
Recent Comments
Link
01-05 00:03
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

AI 전문가가 되고싶은 사람

[KT 에이블스쿨 기자단] 9주차 회고 본문

기자단 활동

[KT 에이블스쿨 기자단] 9주차 회고

Kimseungwoo0407 2024. 4. 29. 10:31

이번 주에는 언어 지능 딥러닝에 대한 개념을 배우는 시간을 가졌다. 강사님께서 차근차근 하나하나 알려주셔서 수업을 따라가기에는 전혀 무리가 없었다.눈물을 흘리는 이모티콘을 올리면 계속 다시 설명을 해주셔서 한 개념에 대한 설명을 4~5번 들은 적도 있다.... 아무래도 벡터, 행렬, 행렬곱과 같은 내용이 나오다보니 다른 에이블러분들이 힘드셨나보다!  그만큼 모든 사람을 이해시키려고 노력하신 김중헌 강사님이 대단하다고 느껴졌다.

 

간단하게 정리를 해보자면 이렇다.

 

● 벡터

- 크기와 방향을 가지는 양을 나타내는 개념이다.

- 2차원 벡터는 평면에서의 위치를 나타내는 데 사용되고, x와 y의 좌표쌍으로 표현된다.

- 3차원 벡터는 공간에서의 위치를 나타내는 데 사용되고, x,y,z의 좌표쌍으로 표현된다.

 

● 딥러닝에서 왜 벡터를 쓸까?

- 딥러닝에서 중요한 요소 중 하나는 데이터의 효율적인 표현이다.

- 텍스트,이미지,음성 등 다양한 유형의 데이터는 컴퓨터가 이해할 수 있는 형식으로 변환되어야한다.

- 벡터는 다양한 유형의 데이터를 수치로 표현하는 데 사용한다.

- 딥러닝 모델에서 입력 데이터 간의 관계를 표현하는 데 사용된다.

ex) 단어 벡터 간의 유사성을 계산하여 단어 간의 의미적 관계를 파악할 수 있다.

- 두 벡터 간의 내적이나 거리를 계산하여 벡터 간의 관계를 이해할 수 있다.

● 언어 지능 딥러닝에서는 벡터가 어떻게 쓰이지?

- 텍스트 데이터는 딥러닝 모델에 입력되기 단어 벡터로 변환된다.

- 여기서 단어 벡터는 각 단어를 고정된 길이의 숫자 벡터로 표현한다.

ex) "사과" 라는 단어가 있을 때 [0.5,0.3,-0.9]와 같은 숫자로 이루어진 벡터 표현된다.

- 텍스트 데이터를 벡터로 변환하면, 딥러닝 모델이 단어의 의미와 관련된 정보를 학습할 수 있게된다.

 

● 벡터의 유사성

- 주어진 두 벡터가 얼마나 비슷한지를 수치적으로 표현하는 데 사용한다.

- 내적 :  두 벡터 간의 곱셉과 합을 계산하여 유사성을 측정한다. ( 내적이 클수록 두 벡터는 더 유사하다. )

- 코사인 유사도 : 두 벡터 간의 각도를 측정하여 유사성을 측정한다. -1에서 1 사이의 값을 가지며, 1에 가까울수록 두 벡터는 더 유사하다. 이 방법은 각도가 아닌 벡터의 방향에 따라 유사성을 측정하므로 내적보다 더 많이 사용된다.

 

간단하게 개념을 정리하고 이번 주에 했던 실습을 어느정도 정리해보겠다.

 

● 웹 크롤링 : 이전 시간에 배웠었던 웹 크롤링이 이번 시간에도 쓰였다. BeautifulSoup으로  웹에서 데이터를 수집했다.

● news의 제목과 내용을 크롤링을 해서 어떤 키워드를 넣었을 때 유사도가 높은 기사를 보여주도록 하는 것을 만들었다.

크롤링한 내용

● 이런 실습을 하고 난 뒤 영화 리뷰에 대한 긍/부정 판독기도 만들었다.

● 아무도 너한테 말 안해 라는 문장에 대해서 부정적인 문장이라고 하였다.

이러한 실습으로 이번  주는 마무리 되었고, 이런 언어지능 모델을 사용하기 전에 데이터 수집이 먼저이기 때문에 웹 크롤링을 연습해봐야겠다라는 생각이 들었다. 여자친구가 병원 취업을 준비하는 과정에서 도움이 될 수 있지 않을까 싶어서 병원에 대한 웹 크롤링 후에 어떤 키워드가 요즘 많이 언급 되는 지를 알려줘야지 생각했다. 그래서 웹 크롤링 연습 겸 해봤다. 어느 병원인지는 말 못하겠지만 검색어를 "00대병원 연구" 라고 한 뒤에 크롤링을 하였다. 불용어 처리하는 패키지가 있지만 그냥 전부 손으로 불용어 처리를 해버렸다. 00대병원은 '디지털','바이오','글로벌'이라는 단어가 가장 많이 언급되었고, 'car'이라는 것도 있길래 이게 뭐지 싶어서 검색을 해봤더니 국내 최초 병원 생산 CAR 치료 성공이라는 기사를 찾아볼 수 있었다. 이러한 내용을 전달해주고 난 뒤에 든 생각이 내가 하고 싶은 것들을 하니까 재미있는 웹 크롤링 연습이였다였다.

 

알고리즘 스터디를 진행하려고 했으나, 스터디 하시는 한 분의 개인 사정으로 다음 주에 하자고 이야기가 나왔다. 공모전을 준비해보자고 전에 이야기를 했었기에 이번 주에는 공모전의 주제 선정과 역할 분담을 하고 스터디가 종료되었다. 매 주마다 배워가는 게 너무 많아서 머리에 집어넣는 것도 힘들어지고있지만... 교육이 끝난 후에 멍청하고 싶지 않기 때문에 열심히 복습해야겠다!